Как стать автором
Обновить
21
0

Пользователь

Отправить сообщение

Как (не)удачно превращали LLM в 2d виртуальных сотрудников

Время на прочтение3 мин
Количество просмотров3.1K

Эта идея получила новую жизнь примерно восемь месяцев назад, когда Reworked AI представили llama 2d. Они научили языковые модели не просто «читать» текст, а по-настоящему воспринимать структуру и смысл двухмерных документов, таких как веб-страницы. Перед тем как расскажу как это работает - пару не очень удачных подходов, по которым пытались идти их конкуренты

Читать далее
Всего голосов 6: ↑4 и ↓2+2
Комментарии4

Кластерное обучение нейросетей

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров1.9K

Multi gpu training overview

Если обучение модели на одном графическом процессоре происходит слишком медленно или если веса модели не помещаются в VRAM, переход на обучение с несколькими графическими процессорами (или с несколькими устройствами с несколькими графическими процессорами в каждом) может быть целесообразным вариантом.
Ниже рассмотрим некоторые стратегии по масштабируемости обучения между несколькими GPU или нодами.

Глобально следует рассмотреть 3 сценария

Читать далее
Всего голосов 2: ↑2 и ↓0+3
Комментарии0

Разбираем KAN по полочкам

Время на прочтение4 мин
Количество просмотров8K

Недавно аспиранты из MIT выпустили очень интересную статью про концептуально новый подход к проектированию наверное самого базового "кирпичика" нейронок - полносвязного слоя.

Постараюсь дать небольшое описание того, что происходит под каптом кана, при этом не превращая публикацию в учебник по матанализу

Читать далее
Всего голосов 23: ↑21 и ↓2+27
Комментарии5

Выбираем правильный инференс: Как мы сэкономили 70к $ на ЛЛМках

Время на прочтение4 мин
Количество просмотров5K

Недавно ко мне обратились знакомые, которые активно впиливали LLM в своей продукт, однако их смущала стоимость такого решения - они платили около 8$/час за Huggingface inference Endpoint 24/7, на что уходили просто невиданные ~100 тысяч долларов в год. Мне нужно было заресерчить какие есть способы развертывания больших текстовых моделей, понять какие где есть проблемы и выбрать оптимальных из них. Результатами этого ресерча и делюсь в этой статье)

Читать далее
Всего голосов 15: ↑5 и ↓10-4
Комментарии19

Dream Booth — очень умное дообучение stable diffusion

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров11K

Как можно наказать модель за то что она забывает "абстрактные" признаки какого-то обьекта? Почему это важно при обучении дифузионных генеративных моделей на специфичном датасете

Читать далее
Всего голосов 12: ↑11 и ↓1+10
Комментарии6

Учим ламу говорить на руcском

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров7K

Тут я рассказывал как можно использовать магию низкорангового разложения (Low Rank Adaption) матриц для того что бы легко дообучать большие текстовые модели. Сейчас же я напишу свою реализацию LoRA используя PyTorch, переведу весь датасет alpaca-cleaned (на котором училась альпака - языковая модель родом из стенфорда) на русский язык, используя взломаный яндекс переводчик, и наконец "скормлю" его языковой модели, что бы она наконец смогла понимать русский язык.

Советую ознакомится с кратким теоретическим описанием происходящего (хотя вроде как такие просьбы не работют()

Читать далее
Всего голосов 13: ↑13 и ↓0+13
Комментарии12

Кто же такая это ваша LoRA

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров48K

В сети в последнее время регулярно мелькают статьи типа - как обучить Stable Diffusion генерировать ваши фотографии/фотографии в определенном стиле/фотографии определенного лора/такие фотографии итп.

Однако к сожалению, даже на хабре, об этой технологии рассказывают супер-поверхностно - как скачать какую-то GUI программу, и куда тыкать кнопочки. Поэтому я решил исправить это недоразумение, и выпустить первую статьи на русском, где полностью рассказывается что по настоящему стоит за этими 4-мя буквами.

Читать далее
Всего голосов 32: ↑30 и ↓2+35
Комментарии18

Реверсинжинерим московское метро

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров11K

Получим матрицу весов метро Москвы из APK файла. Обработаем эти данные и попытаемся сделать некоторые визуализации.

Читать далее
Всего голосов 32: ↑32 и ↓0+32
Комментарии15

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность