Статьи / Профиль Razant / Хабр

Anton Razzhigaev@Razant

Автор телеграм канала https://t.me/abstractDL

Подписчики

ПрофильСтатьи7ПостыНовостиКомментарии8

Razant 3 фев 2025 в 19:30

DeepSeek-R1 для чайников

Сложный

9 мин

120K

Блог компании AIRIМашинное обучение * Natural Language Processing * Искусственный интеллект

Обзор

В последние месяцы всё чаще слышим про «reasoning-модели», способные не просто продолжать текст, а действительно шаг за шагом решать сложнейшие задачи цепочкой рассуждений (chain-of-thought). Впервые такой подход эффектно показали в OpenAI o1, но, к сожалению, подробности там остаются секретными. Недавно же команда DeepSeek наделала шуму с открытыми вариантами R1 и R1-Zero, созданными поверх их собственной большой MoE-модели DeepSeek-V3. В этом посте я не стану углубляться в вопрос «чья модель лучше — o1 или R1». Зато разберу, какие главные технические детали стоят за R1, почему Zero-версия выглядит особо захватывающе, и как именно авторам удалось обучить модель мыслить.

+93

Razant 22 мая 2024 в 09:47

Большие языковые модели гораздо линейнее, чем мы думали

Сложный

4 мин

23K

Блог компании AIRINatural Language Processing * Искусственный интеллектМашинное обучение * Алгоритмы *

Кейс

Хабр, привет! Это снова Антон Разжигаев, аспирант Сколтеха и научный сотрудник лаборатории Fusion Brain в Институте AIRI, где мы продолжаем углубляться в изучение языковых моделей. В прошлый раз мы выяснили, что эмбеддинги трансформеров-декодеров сильно анизотропны. На этот раз я бы хотел рассказать об их удивительной линейности, ведь нашу статью про обнаруженный эффект («Your Transformer is Secretly Linear») несколько дней назад приняли на международную конференцию ACL!

+69

Razant 1 апр 2024 в 13:38

Как устроено пространство, в котором думают языковые модели?

Сложный

5 мин

23K

Блог компании AIRIАлгоритмы * Машинное обучение * Искусственный интеллектNatural Language Processing *

Кейс

С момента выхода первой статьи «Attention is All You Need» я с жадностью и любопытством, присущими любому исследователю, пытаюсь углубиться во все особенности и свойства моделей на базе архитектуры трансформер. Но, если честно, я до сих пор не понимаю, как они работают и почему так хорошо обучаются. Очень хочу разобраться, в чём же причина такой эффективности этих моделей, и есть ли предел их возможностей?

Такому изучению трансформеров «под микроскопом» и посвящена наша научная работа, только что представленная на конференции EACL 2024, которая проходила на Мальте — «The Shape of Learning: Anisotropy and Intrinsic Dimensions in Transformer-Based Models». В этой работе мы сфокусировались на наблюдении за пространством эмбеддингов (активаций) на промежуточных слоях по мере обучения больших и маленьких языковых моделей (LM).

+55

Razant 22 ноя 2023 в 11:30

OmniFusion: выходим за границы текста

Сложный

5 мин

7.8K

Блог компании AIRIИскусственный интеллектМашинное обучение * Интерфейсы * Алгоритмы *

Кейс

Кто-то ещё сомневается, что в мире машинного обучения происходит революция? Уверен, мы являемся свидетелями преобразования привычного взаимодействия с данными, поиска информации, да и вообще работы как таковой. Ведь умные ассистенты (ChatGPT, GigaChat, Bard) готовы взять на себя даже самые сложные задачи.

Но не всегда возможно сформулировать проблему в виде текстового запроса, иногда требуется информация из других “модальностей” — картинка, звук, 3D и тд. Ниже я разберу какие именно есть способы соединения больших языковых моделей (LLM) с дополнительными форматами данных, а также опишу как устроена наша новая модель OmniFusion.

+13

Razant 20 ноя 2023 в 07:16

ChatGPT плохо отвечает на «простые вопросы». Как это починить?

Средний

5 мин

12K

Блог компании AIRIАлгоритмы * Big Data * Машинное обучение * Искусственный интеллект

Кейс

В этой статье я расскажу о нашей последней работе — Multilingual Triple Match — системе для поиска ответов на фактологические вопросы, которая по своей точности обходит даже ChatGPT.

+16

Razant 23 ноя 2022 в 14:30

Kandinsky 2.0 — первая мультиязычная диффузия для генерации изображений по тексту

7 мин

53K

Блог компании СберИскусственный интеллектНаучно-популярноеМашинное обучение * Обработка изображений *

Диффузия всё увереннее вытесняет GANы и авторегрессионные модели в ряде задач цифровой обработки изображений. Это не удивительно, ведь диффузия обучается проще, не требует сложного подбора гиперпараметров, min-max оптимизации и не страдает нестабильностью обучения. А главное, диффузионные модели демонстрируют state-of-the-art результаты почти на всех генеративных задачах — генерации картинок по тексту, генерация звуков, видео и даже 3D!

К сожалению, большинство работ в области text-to-something сосредоточены только на английском и китайском языках. Чтобы исправить эту несправедливость, мы решили создать мультиязычную text-to-image диффузионную модель Kandinsky 2.0, которая понимает запросы более чем на 100 языках! И главное, на русском ;) Подробности — под катом.

+33

Razant 8 янв 2022 в 14:45

GPT для чайников: от токенизации до файнтюнинга

13 мин

151K

Семантические сети * Программирование * Машинное обучение * Natural Language Processing *

Туториал

Технотекст 2022

К моему удивлению, в открытом доступе оказалось не так уж много подробных и понятных объяснений того как работает модель GPT от OpenAI. Поэтому я решил всё взять в свои руки и написать этот туториал.

+27