Обновить
8
@freQuensy23read⁠-⁠only

Пользователь

Отправить сообщение

Tinder VS LLM

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели16K

Привет, я — дата-сайентист, и в свободное время моими двумя главными хобби являются дейтинг и ведение блога про ML. Казалось бы, что общего у поиска идеального мэтча в Tinder Twinby (тиндер нужно зачеркнуть или убрать если не поддерживается зачеркивание)  и оценки больших языковых моделей? На самом деле — довольно много. Существующие методы бенчмаркинга LLM делятся на две большие категории: оффлайн и онлайн. И если оффлайн-бенчмарки похожи на попытку понять, понравится ли тебе человек, просто прочитав его профиль (спойлер: шансы попасть в точку небольшие), то онлайн-бенчмарки дают гораздо более честную оценку. Ведь только в живом общении становится понятно, кто перед тобой: твоя идеальная пара или бот, генерирующий странные сообщения. Именно поэтому мы решили создать самый честный онлайн-бенчмарк, где LLM придётся пройти суровую проверку в дейтинг-приложении.

Читать далее

Как (не)удачно превращали LLM в 2d виртуальных сотрудников

Время на прочтение3 мин
Охват и читатели1.8K

Эта идея получила новую жизнь примерно восемь месяцев назад, когда Reworked AI представили llama 2d. Они научили языковые модели не просто «читать» текст, а по-настоящему воспринимать структуру и смысл двухмерных документов, таких как веб-страницы. Перед тем как расскажу как это работает - пару не очень удачных подходов, по которым пытались идти их конкуренты

Читать далее

Кластерное обучение нейросетей

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели2.3K

Multi gpu training overview

Если обучение модели на одном графическом процессоре происходит слишком медленно или если веса модели не помещаются в VRAM, переход на обучение с несколькими графическими процессорами (или с несколькими устройствами с несколькими графическими процессорами в каждом) может быть целесообразным вариантом.
Ниже рассмотрим некоторые стратегии по масштабируемости обучения между несколькими GPU или нодами.

Глобально следует рассмотреть 3 сценария

Читать далее

Разбираем KAN по полочкам

Время на прочтение4 мин
Охват и читатели12K

Недавно аспиранты из MIT выпустили очень интересную статью про концептуально новый подход к проектированию наверное самого базового "кирпичика" нейронок - полносвязного слоя.

Постараюсь дать небольшое описание того, что происходит под каптом кана, при этом не превращая публикацию в учебник по матанализу

Читать далее

Выбираем правильный инференс: Как мы сэкономили 70к $ на ЛЛМках

Время на прочтение4 мин
Охват и читатели8.7K

Недавно ко мне обратились знакомые, которые активно впиливали LLM в своей продукт, однако их смущала стоимость такого решения - они платили около 8$/час за Huggingface inference Endpoint 24/7, на что уходили просто невиданные ~100 тысяч долларов в год. Мне нужно было заресерчить какие есть способы развертывания больших текстовых моделей, понять какие где есть проблемы и выбрать оптимальных из них. Результатами этого ресерча и делюсь в этой статье)

Читать далее

Dream Booth — очень умное дообучение stable diffusion

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели19K

Как можно наказать модель за то что она забывает "абстрактные" признаки какого-то обьекта? Почему это важно при обучении дифузионных генеративных моделей на специфичном датасете

Читать далее

Учим ламу говорить на руcском

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели10K

Тут я рассказывал как можно использовать магию низкорангового разложения (Low Rank Adaption) матриц для того что бы легко дообучать большие текстовые модели. Сейчас же я напишу свою реализацию LoRA используя PyTorch, переведу весь датасет alpaca-cleaned (на котором училась альпака - языковая модель родом из стенфорда) на русский язык, используя взломаный яндекс переводчик, и наконец "скормлю" его языковой модели, что бы она наконец смогла понимать русский язык.

Советую ознакомится с кратким теоретическим описанием происходящего (хотя вроде как такие просьбы не работют()

Читать далее

Кто же такая это ваша LoRA

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели108K

В сети в последнее время регулярно мелькают статьи типа - как обучить Stable Diffusion генерировать ваши фотографии/фотографии в определенном стиле/фотографии определенного лора/такие фотографии итп.

Однако к сожалению, даже на хабре, об этой технологии рассказывают супер-поверхностно - как скачать какую-то GUI программу, и куда тыкать кнопочки. Поэтому я решил исправить это недоразумение, и выпустить первую статьи на русском, где полностью рассказывается что по настоящему стоит за этими 4-мя буквами.

Читать далее

Реверсинжинерим московское метро

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели12K

Получим матрицу весов метро Москвы из APK файла. Обработаем эти данные и попытаемся сделать некоторые визуализации.

Читать далее

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность