Алгоритмы *

Все об алгоритмах

СтатьиПостыНовостиАвторыКомпании

ph_piter 28 мая 2024 в 11:51

Книга: «Алгоритмы с нуля»

20 мин

14K

Блог компании Издательский дом «Питер»Алгоритмы * Программирование * Профессиональная литература *

Привет, Хаброжители!

Погрузитесь в мир алгоритмов! Разберитесь в их принципах, особенностях проектирования и практического применения.

Вы познакомитесь с различными видами алгоритмов, узнаете их сильные и слабые стороны и поймете, в каких контекстах они лучше всего работают. На практических примерах увидите, как эти мощные инструменты используются для решения задач в информатике, анализе данных, искусственном интеллекте и других областях.

Каждая глава содержит понятные объяснения, наглядные примеры и задачи, помогающие закрепить изученный материал. Особый акцент сделан на вычислительном мышлении и анализе эффективности алгоритмов — важнейших навыках в области современных технологий.

Читать дальше →

+10

KirillBelovTest 28 мая 2024 в 09:17

Как я реализовывал алгоритм маскирования для протокола WebSocket на Wolfram Language и подключал Си-библиотеку

Средний

14 мин

2.4K

Ненормальное программирование * Алгоритмы * C * Функциональное программирование *

Туториал

Всем привет! Эта статья - про очень простой алгоритм маскирования данных при пересылке по протоколу WebSocket. Но рассказать я хочу не про сам алгоритм, а про путь оптимизации, который я прошел, чтобы сделать его эффективным. Я до сих пор уверен, что можно еще лучше и если так, то надеюсь уважаемые читатели мне подскажут! Приступим...

cydoroga 28 мая 2024 в 09:00

Как мы готовим RL для Alignment в больших языковых моделях: опыт команды YandexGPT

28 мин

13K

Блог компании ЯндексАлгоритмы * Машинное обучение * Искусственный интеллектNatural Language Processing *

Сегодня через API стала доступна новая модель YandexGPT 3 Lite. Одним из ключевых этапов её обучения, как и в случае с другими недавними моделями, стал этап выравнивания (Alignment), включающий в том числе стадию обучения с подкреплением (RL). Пожалуй, без этого этапа мы бы не смогли добиться такого роста в качестве, который был необходим для запуска новых возможностей и сервисов (например, Нейро). Поэтому эту статью мы полностью посвятим особенностям выравнивания моделей.

На тему Alignment и RL было написано уже немало статей. Кажется, любой ML-инженер уже, так или иначе, сталкивался или читал о них. Поэтому мы хоть и напомним базовую информацию, но всё же сфокусируемся на тех деталях реализации, которые не на слуху.

+60

gorlanovnn 27 мая 2024 в 10:35

Задачка на деление. Как разделить город на зоны доставки

3 мин

1.4K

Maps API * Алгоритмы * Геоинформационные сервисы *

Из песочницы

Дано: клиентская база, содержащая адреса доставки первичных бухгалтерских документов, которые нужно ежемесячно развозить поездом-самолетом-курьером. Клиенты — все организации, работающие на территории Самарской области.

Необходимо успеть доставить все документы, да ещё в короткий срок. Почта, курьерская доставка, электронные каналы — все в игре. Самару и другие города доверим курьерской компании, удаленные районы — Почте России, а самых крупных клиентов по Самаре не доверим никому, кроме штатного курьера.

Как распределить адреса доставки, чтобы не гонять курьера с одной части города до другой? Нужно сгруппировать адреса по районам!

Задача: необходимо разделить клиентскую базу на зоны доставки, чтобы можно было делать выборки по районам доставки. При этом будет удобно оформлять путевые листы на каждый день: сегодня курьер едет в Куйбышевский район, завтра в Промышленный, а послезавтра — в Красноглинский. Проблема в том, что в клиентской базе такого признака нет (по крайней мере, пока).

Читать дальше →

mr-pickles 27 мая 2024 в 09:20

Пакетная обработка данных на современных GPU

Средний

7 мин

Блог компании Wunder FundПрограммирование * Алгоритмы * Машинное обучение *

Перевод

По большому счёту, самая первая и самая важная оптимизация, которую можно применить к любой современной системе машинного обучения, заключается в том, чтобы реализовать в этой системе пакетную обработку данных (batching). Для того чтобы получить результат работы системы (inference, инференс) в пакетном режиме — ей, вместо одного элемента входных данных, отправляют N таких элементов. Чаще всего никаких дополнительных нагрузок на систему это не создаёт. Формирование инференса для каждого из элементов, входящих в пакет размера N, занимает в точности столько же времени, сколько нужно для обработки одного элемента входных данных. Почему это так? На первый взгляд может показаться, что обработка пакета данных не может обойтись без некоторых накладных затрат ресурсов. В конце концов — оборудованию приходится выполнять в N раз больше действий.

Если прибегнуть к простейшей модели работы нейронной сети, то получится, что некоторая дополнительная нагрузка на систему, всё же, создаётся. Для выполнения пакетных вычислений нужно выполнить в N раз больше операций. И, на самом деле, если попробовать это на CPU, то окажется, что так оно и есть (среднее время формирования вывода для ResNet-50, Colab).

+12

Zara6502 24 мая 2024 в 09:52

От кода Голомба и Элиаса до своей реализации

Средний

4 мин

Алгоритмы * Сжатие данных *

Туториал

Думаю все кто так или иначе интересовался сжатием информации или каким-то другим способом кодирования данных - слышали о кодах переменной длины. Я расскажу про свою реализацию этого велосипеда.

grigoriy-melnikov 24 мая 2024 в 05:34

Бизнес на Слитых Данных — это Аналитика от SimilarWeb

Простой

3 мин

5.9K

Спам и антиспамИнформационная безопасность * Алгоритмы * Веб-аналитика *

Представьте, вы написали свой сервис веб-почты, или классное расширение, которое стилизует браузер. Такие сервисы могут набирать миллионную аудиторию, но только если они бесплатны.
Так кто же готов платить за такой сервис? Только тот, кому нужен контроль над пользователями - тот, кто хочет знать о них все.

Как создать бизнес на слитых данных - рассказываю на примере компании SimilarWeb.

+17

PatientZero 23 мая 2024 в 07:28

Демо City In A Bottle – система рейкастинга в 256 байтах

Средний

8 мин

5.2K

Ненормальное программирование * JavaScript * Векторная графика * Алгоритмы *

Обзор

Перевод

Привет всем любителям size coding, сегодня я расскажу о чём-то потрясающем: крошечном движке трассировки лучей (raycasting) и генераторе города, умещающихся в автономном файле HTML размером 256 байтов.

В этом посте я поделюсь секретами работы этой волшебной программы. Возможно, вы уже видели этот пост в моём Twitter. После публикации два года назад он стал самым популярным моим твитом.

В этой потрясающей программе используется множество разных концепций, а их разбор похож на решение головоломки. Программа состоит из нескольких основных частей: html-кода, цикла обновления кадра, системы рендеринга, движка рейкастинга и самого города.

Возможно, вы подумаете, что для распутывания этой загадки необходима сложная математика, но на самом деле это не так, сам код довольно прост и в нём используется простейшая алгебра, даже без тригонометрических функций. Впрочем, там есть несколько трюков, позволяющих создать впечатляющий результат.

+54

Sivchenko_translate 22 мая 2024 в 22:30

Моделируем флюиды, огонь и дым в режиме реального времени

15 мин

7.6K

Программирование * Алгоритмы * Компьютерная анимация * Физика

Перевод

Замечания о математике, алгоритмах и методах, применяемых при компьютерной симуляции флюидов (например, огня и дыма) в режиме реального времени.

Исходный код к этой статье выложен на GitHub.

Огонь как явление очень интересен с точки зрения компьютерной графики. Раньше огонь было принято имитировать. Например, в фильме «Властелин колец» Питера Джексона для изображения огня использовались спрайты с огромным количеством дыма (на тот момент симуляция флюидов обходилась слишком дорого, даже при бюджете блокбастера). Когда требовалось моделировать огонь в режиме реального времени, например, в видеоиграх, использовались почти исключительно нефизические подходы.

+35

ru_vds 22 мая 2024 в 13:00

Сравнение алгоритмов ограничения частоты запросов

Средний

7 мин

11K

Блог компании RUVDS.comАлгоритмы * Информационная безопасность * Серверное администрирование * Сетевые технологии *

Обзор

Перевод

▍ Зачем ограничивать частоту?

Представьте чат в Twitch со множеством активных пользователей и одним спамером. Без ограничения частоты сообщений единственный спамер может запросто заполнить всю беседу сообщениями. При ограничении частоты у каждого пользователя появляется равная возможность участия.

Видео

Ограничитель частоты позволяет управлять частотой обрабатываемого вашим сервисом трафика, блокируя запросы, превосходящие заданное пороговое значение за период времени. И это полезно не только для борьбы со спамом в чатах. Например, ограничение частоты отправки формы логина позволяет защититься от брутфорс-атак, оставляя при этом пользователю право на ошибку.

Конечные точки API тоже часто ограничивают по частоте запросов, чтобы их ресурсы не монополизировал единственный пользователь. Представьте, что вам нужно, чтобы пользователи могли обращаться к затратной конечной точке не чаще ста раз в минуту. Это можно отслеживать при помощи счётчика, обнуляющегося каждую минуту. Все запросы после сотого в пределах этой минуты будут блокироваться. Это один из простейших алгоритмов ограничения частоты, называющийся fixed window limiter (ограничитель с фиксированным окном). Это распространённый способ управления трафиком к сервису.

Но не всегда всё так просто.

Когда начинается и заканчивается каждое одноминутное окно? Если я запущу поток запросов ближе к концу окна, смогу ли превысить лимит? Ёмкость окна восстанавливается по одному запросу за раз, или сразу на всё количество?

В этом посте мы рассмотрим три самых популярных алгоритма, чтобы ответить на каждый из этих вопросов.

Читать дальше →

+53

Razant 22 мая 2024 в 09:47

Большие языковые модели гораздо линейнее, чем мы думали

Сложный

4 мин

23K

Блог компании AIRIАлгоритмы * Машинное обучение * Искусственный интеллектNatural Language Processing *

Кейс

Хабр, привет! Это снова Антон Разжигаев, аспирант Сколтеха и научный сотрудник лаборатории Fusion Brain в Институте AIRI, где мы продолжаем углубляться в изучение языковых моделей. В прошлый раз мы выяснили, что эмбеддинги трансформеров-декодеров сильно анизотропны. На этот раз я бы хотел рассказать об их удивительной линейности, ведь нашу статью про обнаруженный эффект («Your Transformer is Secretly Linear») несколько дней назад приняли на международную конференцию ACL!

+68

Sber 22 мая 2024 в 07:30

GigaCode и все-все-все. Сравниваем различные ИИ-ассистенты между собой

Сложный

19 мин

32K

Блог компании СберПрограммирование * Алгоритмы * Машинное обучение *

Кейс

Привет, Хабр! Мы представляем команду GigaCode. В декабре 2023 года наш продукт стал доступен широкой аудитории. До этого GigaCode использовался только внутри компании, и нас часто спрашивали о том, как GigaCode выглядит на фоне других ИИ-ассистентов, как вы сравниваете себя с остальными? Отвечая на эти вопросы, мы начали с простой задачи, которая оказалась не такой уж и простой и вылилась в увлекательное исследование со всем тем, что мы так любим: множеством измерений, математической статистикой и, конечно же, новыми горизонтами. Интересно? Добро пожаловать под кат.

+18

digit4lsh4d0w 21 мая 2024 в 15:42

Реализация Streebog256 и Streebog512 на языке RUST

Простой

18 мин

5.3K

Информационная безопасность * Криптография * Программирование * Алгоритмы * Rust *

Туториал

Как и планировалось, следом за реализацией семейства хэш-функций SHA, появляется Стрибог и тоже в двух версиях, для 256 и 512 бит на выходе. Надеюсь эта статья будет полезна другим студентам. Более опытные разработчики в комментариях приветствуются.

Весь код сохранен в репозитории GitVerse.

+13

FirstJohn 21 мая 2024 в 09:25

Новый прорыв приближает умножение матриц к идеалу

Средний

7 мин

51K

Блог компании FirstVDSАлгоритмы * Математика *

Дайджест

Перевод

Устранив скрытую неэффективность, учёные придумали новый способ умножения больших матриц, который работает быстрее, чем когда-либо.

Учёные, занимающиеся информатикой, — это требовательная группа. Им недостаточно получить правильный ответ — цель почти всегда состоит в том, чтобы получить ответ как можно эффективнее.

Возьмем, к примеру, умножение матриц или массивов чисел. В 1812 году французский математик Жак Филипп Мари Бине разработал базовый набор правил, которым мы до сих пор обучаем студентов. Это работает прекрасно, но другие математики нашли способы упростить и ускорить процесс умножения матриц.

+52

Hanamime 21 мая 2024 в 08:14

Алгоритмы, вдохновлённые природой

Сложный

7 мин

Блог компании СберАлгоритмы * Математика * Биология

Обзор

В последние годы в нашей повседневной речи плотно закрепилось словосочетание «нейронные сети». Этот термин означает набор методов и программных решений из машинного обучения, дискретной математики и информатики. Но про что совсем часто забывают — он происходит из нейробиологии. Несмотря на очевидное название, нейросети — это не набор операторов IF и ELSE, а модели, вдохновлённые нервной системой живых организмов. Их эффективность в пору, когда у нас есть такие генеративные модели как GigaChat и Kandinsky, наглядно видна каждому.

Но окружающая нас живая природа не ограничивается одними лишь нейронами. Наблюдение за поведением от крошечных клеток до колоний в миллионы особей подарило нам множество полезных математических алгоритмов. И продолжает дарить дальше. Остаётся только догадываться, сколько всего нам ещё предстоит открыть. Да, математикой и компьютерными науками можно заниматься не только в лаборатории над микроскопом, но и вовсе в полевой экспедиции.

И именно об этом я хочу рассказать в этой статье, заодно показав, сколь тонка грань между нашими творениями из бездушного кремния и металла и окружающим нас царством жизни.

+27

mynameco 20 мая 2024 в 21:32

Delta-Rle-Huffman (DRH) Texture Format

8 мин

Сжатие данных * C# * Обработка изображений * Алгоритмы * Ненормальное программирование *

Всем привет! В этой статье я опишу алгоритм работы формата сжатия изображений без потерь. Сжатие использует известные методики, которые и дали ему название. Проект начинался с простых экспериментов, которые вышли из под контроля. Не смотря на то, что формат чаще сжимает лучше чем png, никакого практического применения этот формат не имеет, оставаясь чисто академическим.

Внимание! В статье много картинок.

Кому интересно, добро пожаловать под кат!

+53

PatientZero 20 мая 2024 в 08:00

Двоичный поиск против вероятностного

Простой

7 мин

7.7K

Базы данных * Алгоритмы * Программирование *

Обзор

Перевод

Внутри Dolt, первой в мире базе данных SQL с полнофункциональными возможностями контроля версий, таится много интересной computer science. Недавно я писал о системе хранения Dolt, в ней есть очень тонкая особенность — применение вероятностного поиска на больших выборках 64-битных целых чисел.

В любом учебном плане по Computer Science есть курс алгоритмов. Моим был CS 102, и одним из пунктов, который объяснялся в нём досконально, было то, что поиск — это, по сути, задача O(log2(N)) при условии, если данные отсортированы. За свою карьеру я многократно встречался с этим в том или ином виде — если сортируешь информацию и сохраняешь её, то стоит ожидать, что для поиска потребуется время O(log2(N)). В общем случае мы соглашаемся на время поиска O(log2(N)), потому что оказывается, что можно перебрать большой объём данных с логарифмическим коэффициентом масштабирования. Эта система работает, потому что мы уже почти автоматически сортируем всё заранее.

Но что если мы добавим дополнительные ограничения на наши данные, которые позволят нам выполнять поиск за константное время?

Будет ли эта статья историей о необязательной оптимизации? Да, будет. В этом конкретном случае поиск будет занимать гораздо меньше времени, чем чтение с диска. Мы говорим о величинах менее чем 0,1% от суммарного времени. Будет ли эта статья историей о преждевременной оптимизации? Нет, не будет. Это бы подразумевало, что мы не осознаём, что время тратится не на то. Эта статья — история о заманчивости алгоритма константного времени.

+24

Bright_Translate 19 мая 2024 в 09:00

Почему для меня так важен алгоритм CORDIC

Средний

8 мин

28K

Блог компании RUVDS.comАлгоритмы * Математика * Программирование *

Обзор

Перевод

CORDIC — это алгоритм для вычисления тригонометрических функций вроде
sin, cos, tan и тому подобных на маломощных устройствах без использования модуля обработки операций с плавающей запятой или затратных таблиц поиска. По факту он сводит эти сложные функции до простых операций сложения и битового сдвига.

Перейду сразу к делу и скажу, почему я так сильно люблю этот алгоритм, а затем займёмся изучением принципов его работы. По сути, фактические операции CORDIC весьма просты — как я уже сказал, это сдвиги и сложение — но выполняет он их путём комбинирования векторной арифметики, тригонометрии, доказательств сходимости и продуманных техник компьютерных наук. Лично я считаю, что именно это имеют ввиду, описывая его природу, как «элегантную».

Читать дальше →

+109

Dmytro_Kikot 17 мая 2024 в 07:00

Прародитель T1000: алгоритм динамической морфологии мягких роботов

12 мин

3.5K

Блог компании ua-hosting.companyРобототехникаИскусственный интеллектНаучно-популярноеАлгоритмы *

Первые роботы, чей внешний вид напоминал Железного Дровосека, постепенно уступают дорогу мягким роботам, спектр применения которых растет с каждым новым исследованием. Мягкие роботы могут оперировать в условиях и средах, которые были бы недостижимы их жестким собратьям. Однако, развитие и совершенствование мягкой робототехники далеко от завершения. К примеру, ученые из Массачусетского технологического института (Кембридж, США) разработали новый метод машинного обучения, который позволит динамически управлять роботами с адаптируемой морфологией. В чем суть данного метода, насколько он эффективен, и где могут быть применены «желеобразные» роботы? Ответы на эти вопросы мы найдем в докладе ученых.

Читать дальше →

+12

Dasfex 16 мая 2024 в 19:40

Многообразие связных списков

Средний

13 мин

14K

Программирование * C++ * Алгоритмы *

Обзор

Связный список — классическая структура данных, которая позволяет быстрые вставки/удаления, но при этом просаживает другие операции (случайный доступ к элементу). Мы пройдёмся от базовой реализации до других возможных вариаций этой структуры данных и, надеюсь, вместе узнаем что‑то новое. Краем глаза увидим возможные применения связных списков. И в конце, для любителей C++, бонус: использование связного списка для сбора диагностики выделений динамической памяти в вашем коде.

Связать себя со знаниями!

+31

1 2 ...

46 47

49 50 ...

321 322

Алгоритмы *

Книга: «Алгоритмы с нуля»

Как я реализовывал алгоритм маскирования для протокола WebSocket на Wolfram Language и подключал Си-библиотеку

Как мы готовим RL для Alignment в больших языковых моделях: опыт команды YandexGPT

Задачка на деление. Как разделить город на зоны доставки

Пакетная обработка данных на современных GPU

От кода Голомба и Элиаса до своей реализации

Бизнес на Слитых Данных — это Аналитика от SimilarWeb

Демо City In A Bottle – система рейкастинга в 256 байтах

Моделируем флюиды, огонь и дым в режиме реального времени

Сравнение алгоритмов ограничения частоты запросов

▍ Зачем ограничивать частоту?

Большие языковые модели гораздо линейнее, чем мы думали

GigaCode и все-все-все. Сравниваем различные ИИ-ассистенты между собой

Реализация Streebog256 и Streebog512 на языке RUST

Ближайшие события

Новый прорыв приближает умножение матриц к идеалу

Алгоритмы, вдохновлённые природой

Delta-Rle-Huffman (DRH) Texture Format

Двоичный поиск против вероятностного

Почему для меня так важен алгоритм CORDIC

Прародитель T1000: алгоритм динамической морфологии мягких роботов

Многообразие связных списков

Вклад авторов