Pull to refresh
7
@freQuensy23read⁠-⁠only

User

Send message

Tinder VS LLM

Level of difficultyEasy
Reading time9 min
Views19K

Привет, я — дата-сайентист, и в свободное время моими двумя главными хобби являются дейтинг и ведение блога про ML. Казалось бы, что общего у поиска идеального мэтча в Tinder Twinby (тиндер нужно зачеркнуть или убрать если не поддерживается зачеркивание)  и оценки больших языковых моделей? На самом деле — довольно много. Существующие методы бенчмаркинга LLM делятся на две большие категории: оффлайн и онлайн. И если оффлайн-бенчмарки похожи на попытку понять, понравится ли тебе человек, просто прочитав его профиль (спойлер: шансы попасть в точку небольшие), то онлайн-бенчмарки дают гораздо более честную оценку. Ведь только в живом общении становится понятно, кто перед тобой: твоя идеальная пара или бот, генерирующий странные сообщения. Именно поэтому мы решили создать самый честный онлайн-бенчмарк, где LLM придётся пройти суровую проверку в дейтинг-приложении.

Читать далее

Как (не)удачно превращали LLM в 2d виртуальных сотрудников

Reading time3 min
Views3.2K

Эта идея получила новую жизнь примерно восемь месяцев назад, когда Reworked AI представили llama 2d. Они научили языковые модели не просто «читать» текст, а по-настоящему воспринимать структуру и смысл двухмерных документов, таких как веб-страницы. Перед тем как расскажу как это работает - пару не очень удачных подходов, по которым пытались идти их конкуренты

Читать далее

Кластерное обучение нейросетей

Level of difficultyMedium
Reading time5 min
Views2.8K

Multi gpu training overview

Если обучение модели на одном графическом процессоре происходит слишком медленно или если веса модели не помещаются в VRAM, переход на обучение с несколькими графическими процессорами (или с несколькими устройствами с несколькими графическими процессорами в каждом) может быть целесообразным вариантом.
Ниже рассмотрим некоторые стратегии по масштабируемости обучения между несколькими GPU или нодами.

Глобально следует рассмотреть 3 сценария

Читать далее

Разбираем KAN по полочкам

Reading time4 min
Views8.8K

Недавно аспиранты из MIT выпустили очень интересную статью про концептуально новый подход к проектированию наверное самого базового "кирпичика" нейронок - полносвязного слоя.

Постараюсь дать небольшое описание того, что происходит под каптом кана, при этом не превращая публикацию в учебник по матанализу

Читать далее

Выбираем правильный инференс: Как мы сэкономили 70к $ на ЛЛМках

Reading time4 min
Views6.1K

Недавно ко мне обратились знакомые, которые активно впиливали LLM в своей продукт, однако их смущала стоимость такого решения - они платили около 8$/час за Huggingface inference Endpoint 24/7, на что уходили просто невиданные ~100 тысяч долларов в год. Мне нужно было заресерчить какие есть способы развертывания больших текстовых моделей, понять какие где есть проблемы и выбрать оптимальных из них. Результатами этого ресерча и делюсь в этой статье)

Читать далее

Dream Booth — очень умное дообучение stable diffusion

Level of difficultyMedium
Reading time4 min
Views14K

Как можно наказать модель за то что она забывает "абстрактные" признаки какого-то обьекта? Почему это важно при обучении дифузионных генеративных моделей на специфичном датасете

Читать далее

Учим ламу говорить на руcском

Level of difficultyEasy
Reading time5 min
Views8K

Тут я рассказывал как можно использовать магию низкорангового разложения (Low Rank Adaption) матриц для того что бы легко дообучать большие текстовые модели. Сейчас же я напишу свою реализацию LoRA используя PyTorch, переведу весь датасет alpaca-cleaned (на котором училась альпака - языковая модель родом из стенфорда) на русский язык, используя взломаный яндекс переводчик, и наконец "скормлю" его языковой модели, что бы она наконец смогла понимать русский язык.

Советую ознакомится с кратким теоретическим описанием происходящего (хотя вроде как такие просьбы не работют()

Читать далее

Кто же такая это ваша LoRA

Level of difficultyMedium
Reading time5 min
Views69K

В сети в последнее время регулярно мелькают статьи типа - как обучить Stable Diffusion генерировать ваши фотографии/фотографии в определенном стиле/фотографии определенного лора/такие фотографии итп.

Однако к сожалению, даже на хабре, об этой технологии рассказывают супер-поверхностно - как скачать какую-то GUI программу, и куда тыкать кнопочки. Поэтому я решил исправить это недоразумение, и выпустить первую статьи на русском, где полностью рассказывается что по настоящему стоит за этими 4-мя буквами.

Читать далее

Information

Rating
Does not participate
Registered
Activity