Статьи / Закладки / Профиль agershun / Хабр

@agershun

Пользователь

Профиль Публикации Комментарии 39Закладки 13

mr-pickles 20 мая в 12:05

Заставляем машинное обучение делать «брррр» через понимание базовых принципов компьютерных систем

Средний

19 мин

3.9K

Python*Программирование*Блог компании Wunder FundИскусственный интеллект

Перевод

Итак, вы хотите улучшить эффективность работы своей модели глубокого обучения. Как подойти к такой задаче? Народ в таких случаях часто набрасывается на «сборную солянку» из всяких хитрых приёмов, которые, вроде бы, кому‑то когда‑то помогли, или хватает что‑то, встреченное в каком‑нибудь твите, вроде «Используйте операции, изменяющие исходные данные! Задайте значение None для градиентов! Устанавливайте PyTorch 1.10.0, но ни в коем случае не 1.10.1!».

Понятно — почему люди часто прибегают к таким вот спонтанным действиям в подобных ситуациях. Ведь «эффективность работы» современных систем, их «производительность» (в особенности — систем глубокого обучения) часто кажутся нам понятиями, которые ближе к алхимии, чем к науке. Тем не менее — рассуждения о производительности, в основе которых лежат базовые принципы работы компьютерных систем, способны устранить надобность в широком круге «магических» приёмов и в результате значительно облегчить путь к решению проблемы.

+15

Cregennan 1 апр в 11:43

Супер-эффективная архивация — сжимаем все что угодно до 32 байт

Средний

4 мин

35K

Ненормальное программирование*Криптография*.NET*

Кейс

Будем разрабатывать архиватор, который может сжимать данные любого размера и типа до 32 (38 с метаданными) байт. Рассмотрим достоинства и недостатки данного алгоритма, возможные способы улучшения его работы.

Распаковать

+108

rvishnevsky 23 сен 2023 в 22:00

Helena.4.0 – новый алгоритм для подбора гиперпараметров

Средний

6 мин

9.3K

Алгоритмы*Математика*Машинное обучение*Блог компании Росбанк

Аналитика

С целью автоматизации процесса подбора гиперпараметров автором данной статьи разработан алгоритм Helena.4.0. Конечной целью является создание автоматической системы построения моделей (auto-ML), которая бы подбирала гиперпараметры за минимальное время.

С помощью алгоритма Helena.4.0 можно подбирать гиперпараметры для моделей градиентного бустинга, нейросетей, и более того – для генетических алгоритмов. Автор считает, что алгоритмы Helena могут заменить в генетических алгоритмах генеративную часть – т.е. уйти от биологических аналогий, заменив псевдобиологическую генерацию признаков путем процедур «скрещивания» и «мутаций» на генерацию с помощью указанных алгоритмов.

Для поиска максимума функции алгоритм Helena.4.0 использует только ее значения, и не используют первые и последующие производные. Таким образом, этот алгоритм не требуют ни дифференцируемости, ни непрерывности максимизируемой функции.

Сравнение алгоритма Helena.4.0 с наиболее популярными конкурентами (Optuna, HyperOpt, RandomSearch) показывает его высокую конкурентоспособность.

В отличие от других алгоритмов, не использующих градиент для максимизации функции, алгоритмов Helena.4.0 способен успешно противостоять комбинаторному взрыву. Т.е. алгоритм Helena.4.0 достаточно стабильно работает, несмотря на увеличение размерности пространства. Время, необходимое алгоритму Helena.4.0 для поиска максимума функции, оценивается как квадратичная функция от размерности пространства.

Ниже в статье приведено подробное описание алгоритма Helena.4.0 и результаты сравнительных тестов с алгоритмами-конкурентами.

+11

19blackadder97 3 июн 2022 в 16:05

Flash attention is all you need

5 мин

Высокая производительность*Машинное обучение*

Всем привет.

Характерной тенденцией последних нескольких лет в глубоком обучении является проникновение трансформера в различные сферы деятельности, где только можно и нельзя (но если очень хочется, то можно) применить нейронные сети. Универсальность архитектуры позволяет работать с самыми разнообразными данными, предварительно превращая их в последовательность токенов, будь то текст, картинки, аудио, видео или даже состояние среды.

Но за невероятную мощь и гибкость архитектуры приходится платить значительной вычислительной сложностью и расходом памяти, ибо сие многоголовое чудище ненасытно в отношении памяти, особенно для длинных последовательностей, что ограничивает применимость моделей на практике. Да и даже при наличии серьезных вычислительных ресурсов обучение моделей на серьезных задачах - дело отнюдь не быстрое.

В недалеком прошлом вышла целая плеяда работ посвященных удешевлению дорогой операции внимания посредством построения различных приближений, сводящих квадратичную по длине последовательности вычислительную сложность и расход памяти к субквадратичной за счет приближения матрицами более низкого ранга, хэшированием, разреженного внимания, локального внимания, комбинированного и вагон и маленькая тележка других идей. Многие подходы показали себя довольно неплохо, давая небольшую потерю в качестве относительно исходного vanilla attention, но все-таки внимание в его первозданном виде было и остается наиболее распространенным.

И на днях вышла работа Flash Attention, где был предложен способ существенно ускорить вычисление attention на GPU, причем никак не меняя конечный результат. То есть делается то же самое, что и раньше, но по-другому.

Sivchenko_translate 2 авг 2023 в 17:53

Как сделать контекстное окно на 100K в большой языковой модели: обо всех фокусах в одном посте

17 мин

GPGPU*Машинное обучение*Искусственный интеллектПроцессорыNatural Language Processing*

Перевод

От переводчика: выражаю огромную искреннюю благодарность Дмитрию Малову @malovdmitrijза консультации по ходу этого перевода, помощь в подборе формулировок, пояснение рисунков и незаменимую человеческую поддержку.

tldr; в статье рассмотрены приёмы, позволяющие ускорить обучение больших языковых моделей (LLM) и нарастить в них логический вывод. Для этого нужно использовать большое контекстное окно, в котором умещается до 100K входных токенов. Вот эти приёмы: ALiBi с подмешиванием в вектор позиции слова в последовательности (positional embedding), разреженное внимание (Sparse Attention), мгновенное внимание (Flash Attention), многозапросное внимание, условные вычисления и GPU A100 на 80 ГБ.

+21

euhoo 21 фев 2023 в 20:52

Заходи в zoom как батя

Простой

1 мин

6.8K

Программирование*

Туториал

Эта короткая статья про небольшую автоматизацию — зайти в свой ежедневный(или другой периодический) zoom митинг из командной строки.

Все что описано ниже — актуально для MacOS. На Linux и Win тоже есть. Думаю, там по аналогии.

Уверен, многие это знают и используют, но, в то же время, уверен, что не многие.)

Читать дальше →

-33

Latyshenko 31 июл 2022 в 00:09

Как настроить зависимые выпадающие списки в MS Excel, используя СМЕЩ и СУММПРОИЗВ

1 мин

8.8K

Алгоритмы*

Перевод

Привет, Хабр!

В этой статье мы демонстрируем простой способ по настройке зависимых выпадающих списков в MS Excel.

Статья будет особенно полезна тем, кто еще не пользуется ни формулами массива, ни клавишей F9 при их написании.

С уважением,
Владимир

+12

Center2M 21 мая 2020 в 14:27

Как мы подбирали грузы для перевозчиков

6 мин

2.5K

PostgreSQL*Алгоритмы*Блог компании Центр 2М

Добрый день. Нас зовут Илья Баштанов (разработчик, Точка-Точка) и Татьяна Воронова (аналитик данных, Центр 2М). И мы хотим рассказать о технической реализации задачи подбора грузов для перевозок.

Суть задачи в следующем. На складе есть грузы, которые нужно перевезти из города А в город Б. Можно считать, что учитывается только вес грузов, а их размеры более-менее стандартные (европаллеты). Перевозчик, желающий взять попутный груз, хочет перевезти как можно больше, но ограничен весом и количеством грузовых мест. Нужно сформировать для него несколько вариантов партий из имеющихся на складе грузов.

Решаемые задачи для бизнеса в данном случае:

Максимально эффективно загружать транспортные средства и тем самым увеличить доход от перевозок.
Решать задачу доставки в приемлемые сроки для пользователя (включая принцип FIFO).

Читать дальше →

Naviaddress 12 сен 2018 в 12:02

Онлайн-хакатон от Naviaddress

3 мин

1.6K

Программирование*Maps API*API*ХакатоныБлог компании Naviaddress

Recovery Mode

Это вам не двухдневный хакатон, где мало спишь и много кодишь. Это целых десять суток на создание продуманного проекта. С 20 по 30 сентября глобальная цифровая адресная система Naviaddress проводит хакатон для «программистов на длинные дистанции». В качестве финишной ленточки – призовой фонд в 400 000 рублей.

Читать дальше →

Naviaddress 10 сен 2018 в 13:08

Мой адрес не дом и не улица: какой будет адресация XXI века

5 мин

8.6K

Глобальные системы позиционирования*Maps API*УрбанизмБлог компании Naviaddress

Винсент Вега на парковке. Винсент Вега в поликлинике. Винсент Вега в городе Ковров Владимирской области… Мемы с растерянным героем Джона Траволты – это не только смешно, но ещё и правда. Кто из нас не оказывался в ситуации безнадёжного поиска объекта, когда только и остается, что развести руками?

Два самых распространенных подхода к адресации – почтовый и геокоординатный – зачастую бессильны в современном мире. Из-за неверно указанного адреса 20% почтовой корреспонденции возвращаются отправителям. Неспособность доходчиво объяснить своё точное расположение снижает клиентский поток бизнесов, которым не повезло с адресом. Люди тратят жизнь и нервы, прежде чем найдут искомое.

Читать дальше →

115

retYrn0 18 окт 2017 в 23:13

SALI — это Вам ~ язык программирования

3 мин

7.2K

Высокая производительность*Информационная безопасность*Анализ и проектирование систем*Алгоритмы*Компиляторы*

Recovery Mode

Зачем ещё один язык программирования?

Это не совсем язык программирования, вернее — это язык совсем не программирования. SALI — язык написания приложений. Программа, в простейшем случае — последовательность команд, которые ЭВМ выполняет последовательно. SALI — язык, в котором не существует функций, методов, циклов да и вообще исполняемого кода, поэтому он не позволяет писать программы, а вот приложения…

К чёрту интриги, велком под CUT.

Читать дальше →

-31

BugagaController 24 ноя 2014 в 10:54

Еж с ужом в одной корзине, а также немного об отсутствии схемы

3 мин

8.8K

SQL*NoSQL*

Из песочницы

В последнее время часто вижу статьи о том, почему вы должны использовать nosql или о том, что вы никогда не должны им пользоваться и уповать только на реляционные хранилища. Однако, на мой взгляд, эти прекрасные инструменты могут отлично уживаться вместе, позволяя использовать их общие достоинства и избегая их недостатков.

Чуть больше под катом