All streams
Search
Write a publication
Pull to refresh
23
8.4

Tech Lead Ai Agents, Engineer Ai, Researcher

Send message

От генерации к рассуждению: эволюция языковых моделей от GPT до RL

Level of difficultyHard
Reading time93 min
Views4.4K

В контексте стремительного развития больших языковых моделей (LLM) особое внимание уделяется повышению их способности к логическим рассуждениям. Одним из значимых достижений в этой области является модель DeepSeek-R1, разработанная для стимулирования reasoning-способностей LLM с помощью методов обучения с подкреплением (Reinforcement Learning, RL). DeepSeek-R1 представляет собой инновационный подход, направленный на улучшение качества генерации ответов в задачах, требующих многошаговых логических выводов.

Читать далее

MoE: Как Смесь Экспертов меняет правила игры в мире AI

Level of difficultyMedium
Reading time11 min
Views4.3K

При просмотре последних опубликованных статей вы можете заметить в названиях слово «MoE». Что же означает это «MoE» и почему его так часто используют сейчас? В этом наглядном руководстве мы подробно рассмотрим этот важный компонент с более чем 50 иллюстрациями: Смесь Экспертов (MoE)!

Читать далее

Преемник BERT: ModernBERT

Level of difficultyEasy
Reading time21 min
Views2.6K

ModernBERT: Новое поколение моделей-кодировщиков для эффективного NLP 🚀

«Эволюция BERT наконец здесь — быстрее, умнее, с поддержкой длинного контекста»

📌 Основные особенности

- 🚀 В 2-4 раза быстрее, чем DeBERTaV3

- 📏 Длина контекста до 8k токенов (в 16 раз больше, чем у BERT)

- 💻 Понимание кода

- ⚡ Эффективное использование памяти (<1/5 от DeBERTa)

- 🧩 Гибридное внимание (локальное + глобальное)


🧠 Инновации в архитектуре

1. Rotary Position Embedding (RoPE)
- Обеспечивает лучшее понимание позиций для длинных контекстов.

2. GeGLU Activation
- Улучшает нелинейные возможности модели.

3. Гибридный механизм внимания
- Чередование слоев глобального и локального внимания.

4. Обучение без заполнения
- Упаковка последовательностей для повышения эффективности на 20%.


🌟 Основные применения

- 🔍 RAG-системы с длинным контекстом

- 💻 Поиск и анализ кода

- 📰 Понимание документов

- 📊 Семантический поиск


Преобразите ваш NLP-пайплайн с ModernBERT уже сегодня!

Читать далее

Революция в математическом мышлении малых языковых моделей с rStar-Math

Level of difficultyMedium
Reading time16 min
Views3.7K

В данной статье представлен метод rStar-Math, демонстрирующий способность малых языковых моделей (SLM) достигать конкурентоспособных результатов, сопоставимых и даже превосходящих показатели модели OpenAI o1 в задачах математического рассуждения, без использования дистилляции знаний из более крупных моделей. Ключевой особенностью rStar-Math является применение "глубокого мышления" посредством поиска по дереву Монте-Карло (MCTS), где SLM выступает в роли модели политики, генерируя последовательность шагов решения, а другая SLM оценивает их, действуя как модель вознаграждения за процесс. Представлены три ключевые инновации: метод синтеза данных CoT с расширением кода, новый подход к обучению модели предпочтения процессов (PPM) и стратегия саморазвития. Экспериментальные результаты показывают значительное улучшение математических способностей SLM, подтверждая эффективность предложенного подхода.

Читать далее

«Сверхвеса» в больших языковых моделях

Level of difficultyMedium
Reading time10 min
Views4.1K

Обзор посвящен исследованию, на тему «сверхвеса» (super weights) в больших языковых моделях (LLM). Авторы обнаружили, что очень небольшое количество параметров (вплоть до одного скаляра!) в LLM играет непропорционально важную роль в их способности генерировать качественный текст. Ресерчеры из Apple утверждают, что крошечное подмножество, максимум шесть масштабирующих факторов, важнее остальных. Авторы называют их супервесами, и их обрезка разрушает качество модели.

Несколько статей в прошлом показали, что в определенном масштабе небольшой набор скрытых признаков состояния содержит выбросы с огромной величиной. Эти выбросы составляют небольшой процент всех активаций, но имеют решающее значение для сохранения качества сжатой модели. В контексте LLM эти выбросы проявляются как «сверх‑активации» (super activations) — аномально большие активации, которые также критически важны для качества модели. Удаление этих «сверхвесов» может полностью разрушить модель, снижая точность до уровня случайного угадывания и увеличивая перплексию на несколько порядков.

Исследование также показывает, что эти «сверхвеса» и «сверх‑активации» могут быть идентифицированы с помощью простого, не требующего данных метода. Этот метод предлагается для использования в улучшении квантизации моделей, что позволяет сохранить их качество даже при значительном снижении вычислительной сложности.

Читать далее
2

Information

Rating
737-th
Registered
Activity

Specialization

Data Scientist, Application Developer
Lead
Maths
Applied math
Python
Algorithms and data structures
Object-oriented design
Software development
Code Optimization
Visual Studio
Git
Linux