Как стать автором
Поиск
Написать публикацию
Обновить
15
2.5

Tech Lead Ai Agents, Engineer Ai, Researcher

Отправить сообщение

Text-to-LoRA: мгновенная адаптация трансформеров

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров2.5K

Исследователи Sakana AI разработали Text-to-LoRA (T2L), гиперсеть, которая динамически генерирует веса Low-Rank Adaptation (LoRA) для больших языковых моделей на основе описаний целевых задач на естественном языке. Этот метод обеспечивает эффективную адаптацию без предварительной настройки (zero-shot), превосходя установленные базовые показатели и достигая производительности, сравнимой с тонко настроенными адаптерами на ранее не встречавшихся задачах.

Читать далее

Диффузионные языковые модели наступают

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров3.3K

Оглавление

Диффузионные языковые модели (DLM) представляют собой революционную альтернативу традиционным авторегрессионным большим языковым моделям (AR-LLM), таким как GPT. Если AR-LLM генерируют текст последовательно, токен за токеном, справа налево, что приводит к линейному росту времени и вычислительных затрат с увеличением длины ответа, то DLM заимствуют идею из успешных диффузионных моделей изображений и аудио. Они учатся восстанавливать текст из зашумленной версии, постепенно «размывая» шум и уточняя ответ. Это позволяет DLM генерировать текст целиком и итеративно улучшать его качество, что открывает возможности для более быстрой и когерентной генерации за счет параллельного обновления нескольких токенов и возможности исправления ошибок в процессе.

Читать далее

Inference-Time Scaling for Generalist Reward Modeling

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров542

 DeepSeek прокачивает RL: генеративная reward-модель с «рассуждением»

В DeepSeek предложили сделать RM генеративной (Generative Reward Model, GRM). И не просто генеративной, а с Inference-Time Scaling, то есть с неким аналогом ризонинга.

Читать далее

SakanaAi: как CTM переосмысливает нейросети через биологию

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров1.2K

Искусственный интеллект добился значительного прогресса благодаря архитектурам глубокого обучения, однако эти системы все еще сталкиваются со значительными ограничениями в рассуждениях здравого смысла, обобщении и прозрачности. Статья «Машины непрерывного мышления» (CTM) представляет новую архитектуру нейронной сети, которая устраняет эти ограничения, явно включая нейронную синхронизацию в качестве фундаментального компонента, черпая вдохновение из того, как биологический мозг обрабатывает информацию.

Читать далее

I-CON: Периодическая таблица машинного обучения

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров2.6K

Исследователи из МiT, Microsoft и Goggle создали фреймворк, который может изменить подход к разработке алгоритмов машинного обучения - I-Con (Information Contrastive Learning).

Он объединил и систематизировал более 20 классических методов ML — от кластеризации до контрастивного обучения в единую структуру, напоминающую периодическую таблицу. Как и ее химический прародитель, эта таблица не только упорядочивает известные алгоритмы, но и указывает на пробелы, где могут существовать еще не открытые методы.

Читать далее

Mamba 2 + Transformer = Nemotron H

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров702

Nemotron-H реализует гибридную архитектуру Mamba-Transformer, где большая часть слоёв – это слои SSM (Structured State-Space Model) Mamba-2, а небольшая доля – классические слои самовнимания (self-attention) трансформера, чередующиеся с полносвязными слоями (FFN). Структура модели продумана таким образом, чтобы использовать сильные стороны обоих подходов: SSM-слои обеспечивают эффективную работу с длинными последовательностями за счёт линейной (или даже постоянной) сложности по длине последовательности, а несколько слоёв самовнимания добавляют модели способность точного "склеивания" глобального контекста и превосходные навыки in-context learning.

Начало заката эры Трансформеров? Или старт новой эры, эры архитектурного разнообразия? А что думаете вы?

Читать далее

Эра мультиагентов? Как LangChain, только на стероидах: протокол Agent2Agent (A2A) от Google + MCP

Уровень сложностиПростой
Время на прочтение23 мин
Количество просмотров3.8K

Эра мультиагентов? Как LangChain, только на стероидах: протокол Agent2Agent (A2A) от Google + MCP

Представьте себе будущее, где десятки ИИ-агентов от разных производителей легко и безопасно общаются друг с другом. Звучит фантастически? Уже нет! Google только что выпустил революционный протокол Agent2Agent (A2A), способный полностью изменить ваш подход к автоматизации и совместной работе систем искусственного интеллекта.

Почему это важно? A2A позволяет агентам ИИ объединяться, решая задачи быстрее и эффективнее, чем когда-либо. Это значит меньше затрат, выше производительность и, главное — полная свобода интеграции агентов от любых поставщиков.

Хотите узнать первым, как именно работает A2A и почему Google делает ставку на мультиагентное будущее?

Не упустите возможность заглянуть в завтрашний день!

Читать далее

Как LLM выучивают факты и почему они галлюцинируют?

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров3.9K

🔬 Почему языковые модели "знают" факты… и почему они врут? Новое исследование от Google DeepMind раскрывает секреты обучения LLM

Вы когда-нибудь задумывались, как огромные языковые модели (LLM) превращают триллионы слов из интернета в четкие факты? И почему иногда они так уверенно выдают полную чушь? 🤔

В Google DeepMind решили покопаться в этой загадке и провели детальное исследование процессов, которые стоят за обучением моделей. Они взяли синтетические биографии шести вымышленных людей и наблюдали, как модель шаг за шагом переходит от хаотичного предсказания токенов к формированию точных ассоциаций — например, связывает имя человека с его датой рождения или профессией.

📈 А если интересно глубже...Узнайте, как распределение данных влияет на скорость обучения, какие стратегии учебной программы работают лучше всего и почему слишком частое повторение одних и тех же примеров может быть опасным.

Исследуйте вместе с нами 🚀

Читать далее

Qwen2.5-Omni: Мультимодальная модель нового поколения

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров3.2K

🚀 Qwen2.5-Omni — революция в мире искусственного интеллекта!

Представьте AI, который понимает не только текст, но и изображения, звуки и даже речь — и делает это мгновенно, в режиме реального времени! Qwen2.5-Omni от Alibaba Group — это прорывная мультимодальная модель, которая объединяет все эти возможности в единую мощную систему.

Почему это меняет всё?
Полная мультимодальность — обработка текста, изображений и аудио в одной архитектуре.
Мгновенное взаимодействие — потоковая передача данных без задержек.
Универсальность — идеально подходит для чат-ботов, анализа медиа, голосовых ассистентов и многого другого!

Хотите узнать, как Qwen2.5-Omni превосходит конкурентов и какие уникальные возможности предлагает?

Читайте наш технический обзор и убедитесь сами — это будущее AI уже здесь!

Читать далее

DAPO: революционный RL-алгоритм от ByteDance

Время на прочтение22 мин
Количество просмотров1.2K

DAPO: революционный RL-алгоритм от ByteDance

Привет, друзья! 👋
Представляем Вам новый увлекательный обзор передовых методов обучения RL от ByteDance.

ByteDance продемонстрировала обновленный подход к обучению больших языковых моделей (LLM), который преодолевает ключевые ограничения классических методов, такие как коллапс энтропии, зашумление данных и жесткая привязка к KL-дивергенции. DAPO — это не просто алгоритм, а целый набор инноваций, которые меняют правила игры в области RLHF (Reinforcement Learning from Human Feedback).

Читать далее

MCP (Model Context Protocol)

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров22K

В последнее время аббревиатура MCP стала все более часто появляться в некоторых статьях и разделах комментариев на arXiv или Daily Papers Hugging Face, которые я просматриваю. Внезапно осознав, что мое представление об этом лишь приблизительное, я решил изучить его более подробно и поделиться с вами.

Читать далее

Законы масштабирования дистилляции

Уровень сложностиСредний
Время на прочтение45 мин
Количество просмотров4.3K

После того, как DeepSeek представил в open source свой метод дистилляции знаний для R1, исследователи из Apple и Оксфордского университета быстро предложили закон масштабирования дистилляции и уже 28 февраля завершили все эксперименты и загрузили 67-страничную статью на arXiv.

Apple исследовали законы масштабирования дистилляции и сделали интересные выводы:

1. Почему слишком мощный учитель может ухудшить результаты ученика?

2. Как дистилляция подчиняется законам масштабирования?

3. Какое уравнение оптимизирует процесс дистилляции?

4. Почему дистилляция эффективнее обучения с нуля, но только в определённых условиях?

Читать далее

Evo-2: ИИ модель для генерации генома, которая знает все древо жизни

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров2.5K

Evo 2 — крупномасштабная языковая модель (Large Language Model), обученная на корпусе из 9 триллионов токенов геномных последовательностей, охватывающих все домены жизни (бактерии, археи, эукариоты, вирусы бактериофагов и прочие).

Читать далее

Native Sparse Attention: новый вид разреженного внимания от DeepSeek

Уровень сложностиСредний
Время на прочтение18 мин
Количество просмотров2K

Когда Маск выпустил Grok 3, а Сэм Альтман все еще колебался, стоит ли открывать исходный код, Лян Вэньфэн, как соавтор, работал с исследовательской группой DeepSeek над созданием шокирующей и сенсационной исследовательской статьи. DeepSeek официально представила свой последний научный прорыв — Native Sparse Attention (NSA)! Эта технология имеет большое значение. Она, скорее всего, значительно повысит способность следующего поколения больших языковых моделей обрабатывать длинные тексты, полностью учитывая при этом операционную эффективность. Нет сомнений, что это еще одна веха в области больших языковых моделей (LLM)!

Читать далее

От генерации к рассуждению: эволюция языковых моделей от GPT до RL

Уровень сложностиСложный
Время на прочтение93 мин
Количество просмотров3.9K

В контексте стремительного развития больших языковых моделей (LLM) особое внимание уделяется повышению их способности к логическим рассуждениям. Одним из значимых достижений в этой области является модель DeepSeek-R1, разработанная для стимулирования reasoning-способностей LLM с помощью методов обучения с подкреплением (Reinforcement Learning, RL). DeepSeek-R1 представляет собой инновационный подход, направленный на улучшение качества генерации ответов в задачах, требующих многошаговых логических выводов.

Читать далее

MoE: Как Смесь Экспертов меняет правила игры в мире AI

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров3K

При просмотре последних опубликованных статей вы можете заметить в названиях слово «MoE». Что же означает это «MoE» и почему его так часто используют сейчас? В этом наглядном руководстве мы подробно рассмотрим этот важный компонент с более чем 50 иллюстрациями: Смесь Экспертов (MoE)!

Читать далее

Преемник BERT: ModernBERT

Уровень сложностиПростой
Время на прочтение21 мин
Количество просмотров2.2K

ModernBERT: Новое поколение моделей-кодировщиков для эффективного NLP 🚀

«Эволюция BERT наконец здесь — быстрее, умнее, с поддержкой длинного контекста»

📌 Основные особенности

- 🚀 В 2-4 раза быстрее, чем DeBERTaV3

- 📏 Длина контекста до 8k токенов (в 16 раз больше, чем у BERT)

- 💻 Понимание кода

- ⚡ Эффективное использование памяти (<1/5 от DeBERTa)

- 🧩 Гибридное внимание (локальное + глобальное)


🧠 Инновации в архитектуре

1. Rotary Position Embedding (RoPE)
- Обеспечивает лучшее понимание позиций для длинных контекстов.

2. GeGLU Activation
- Улучшает нелинейные возможности модели.

3. Гибридный механизм внимания
- Чередование слоев глобального и локального внимания.

4. Обучение без заполнения
- Упаковка последовательностей для повышения эффективности на 20%.


🌟 Основные применения

- 🔍 RAG-системы с длинным контекстом

- 💻 Поиск и анализ кода

- 📰 Понимание документов

- 📊 Семантический поиск


Преобразите ваш NLP-пайплайн с ModernBERT уже сегодня!

Читать далее

Революция в математическом мышлении малых языковых моделей с rStar-Math

Уровень сложностиСредний
Время на прочтение16 мин
Количество просмотров3.7K

В данной статье представлен метод rStar-Math, демонстрирующий способность малых языковых моделей (SLM) достигать конкурентоспособных результатов, сопоставимых и даже превосходящих показатели модели OpenAI o1 в задачах математического рассуждения, без использования дистилляции знаний из более крупных моделей. Ключевой особенностью rStar-Math является применение "глубокого мышления" посредством поиска по дереву Монте-Карло (MCTS), где SLM выступает в роли модели политики, генерируя последовательность шагов решения, а другая SLM оценивает их, действуя как модель вознаграждения за процесс. Представлены три ключевые инновации: метод синтеза данных CoT с расширением кода, новый подход к обучению модели предпочтения процессов (PPM) и стратегия саморазвития. Экспериментальные результаты показывают значительное улучшение математических способностей SLM, подтверждая эффективность предложенного подхода.

Читать далее

«Сверхвеса» в больших языковых моделях

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров4K

Обзор посвящен исследованию, на тему «сверхвеса» (super weights) в больших языковых моделях (LLM). Авторы обнаружили, что очень небольшое количество параметров (вплоть до одного скаляра!) в LLM играет непропорционально важную роль в их способности генерировать качественный текст. Ресерчеры из Apple утверждают, что крошечное подмножество, максимум шесть масштабирующих факторов, важнее остальных. Авторы называют их супервесами, и их обрезка разрушает качество модели.

Несколько статей в прошлом показали, что в определенном масштабе небольшой набор скрытых признаков состояния содержит выбросы с огромной величиной. Эти выбросы составляют небольшой процент всех активаций, но имеют решающее значение для сохранения качества сжатой модели. В контексте LLM эти выбросы проявляются как «сверх‑активации» (super activations) — аномально большие активации, которые также критически важны для качества модели. Удаление этих «сверхвесов» может полностью разрушить модель, снижая точность до уровня случайного угадывания и увеличивая перплексию на несколько порядков.

Исследование также показывает, что эти «сверхвеса» и «сверх‑активации» могут быть идентифицированы с помощью простого, не требующего данных метода. Этот метод предлагается для использования в улучшении квантизации моделей, что позволяет сохранить их качество даже при значительном снижении вычислительной сложности.

Читать далее

Информация

В рейтинге
2 254-й
Зарегистрирован
Активность

Специализация

Data Scientist, Application Developer
Lead
Maths
Applied math
Python
Algorithms and data structures
Object-oriented design
Software development
Code Optimization
Visual Studio
Git
Linux