Pull to refresh
19
27
Send message

Разбираем KAN по полочкам

Reading time4 min
Views6.7K

Недавно аспиранты из MIT выпустили очень интересную статью про концептуально новый подход к проектированию наверное самого базового "кирпичика" нейронок - полносвязного слоя.

Постараюсь дать небольшое описание того, что происходит под каптом кана, при этом не превращая публикацию в учебник по матанализу

Читать далее
Total votes 23: ↑21 and ↓2+27
Comments5

Выбираем правильный инференс: Как мы сэкономили 70к $ на ЛЛМках

Reading time4 min
Views4K

Недавно ко мне обратились знакомые, которые активно впиливали LLM в своей продукт, однако их смущала стоимость такого решения - они платили около 8$/час за Huggingface inference Endpoint 24/7, на что уходили просто невиданные ~100 тысяч долларов в год. Мне нужно было заресерчить какие есть способы развертывания больших текстовых моделей, понять какие где есть проблемы и выбрать оптимальных из них. Результатами этого ресерча и делюсь в этой статье)

Читать далее
Total votes 15: ↑5 and ↓10-4
Comments19

Dream Booth — очень умное дообучение stable diffusion

Level of difficultyMedium
Reading time4 min
Views9.6K

Как можно наказать модель за то что она забывает "абстрактные" признаки какого-то обьекта? Почему это важно при обучении дифузионных генеративных моделей на специфичном датасете

Читать далее
Total votes 12: ↑11 and ↓1+10
Comments6

Учим ламу говорить на руcском

Level of difficultyEasy
Reading time5 min
Views6K

Тут я рассказывал как можно использовать магию низкорангового разложения (Low Rank Adaption) матриц для того что бы легко дообучать большие текстовые модели. Сейчас же я напишу свою реализацию LoRA используя PyTorch, переведу весь датасет alpaca-cleaned (на котором училась альпака - языковая модель родом из стенфорда) на русский язык, используя взломаный яндекс переводчик, и наконец "скормлю" его языковой модели, что бы она наконец смогла понимать русский язык.

Советую ознакомится с кратким теоретическим описанием происходящего (хотя вроде как такие просьбы не работют()

Читать далее
Total votes 13: ↑13 and ↓0+13
Comments12

Кто же такая это ваша LoRA

Level of difficultyMedium
Reading time5 min
Views39K

В сети в последнее время регулярно мелькают статьи типа - как обучить Stable Diffusion генерировать ваши фотографии/фотографии в определенном стиле/фотографии определенного лора/такие фотографии итп.

Однако к сожалению, даже на хабре, об этой технологии рассказывают супер-поверхностно - как скачать какую-то GUI программу, и куда тыкать кнопочки. Поэтому я решил исправить это недоразумение, и выпустить первую статьи на русском, где полностью рассказывается что по настоящему стоит за этими 4-мя буквами.

Читать далее
Total votes 32: ↑30 and ↓2+35
Comments18

Information

Rating
204-th
Registered
Activity