Обновить
11
0
Roman Abramov@perfect_startup

PhD Munich, NLP

Отправить сообщение

Как я обошел современные GPT модели с помощью GPT2-small на задачах рассуждения

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели4.2K

Не так давно я уже писал статью по такому необычному явлению, как гроккинг - отложенная генерализация. Если долго тренировать модель на наборе данных, то тестовая точность достигнет 100% и модель станет безошибочно решать задачу. Звучит круто! Но вот проблема - никто до сих пор не мог применить гроккинг на задачах из реального мира, а мы это сделали и сейчас публикуемся на крупнейшей МЛ конференции. Если интересно, как мы этого достигли, то прошу под кат.

Читать далее

Hippo-RAG: Долговременная память для LLM, вдохновленная нейробиологией

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели3.1K

Ученые часто вдохновляется нашими или животными биологическими структурами: CNN, MLP, Backprop, и для многих других исследований можно найти сходства в реальном мире. Недавно вышла статья, которая делает то же самое, но для RAG (Retrieval-Augmented Generation). В некотором роде, это недостающая современным LLM долгосрочная память. Это понятно, а причем тут неокортекст, гиппокамп и другие сложные слова? Давайте посмотрим.

Читать далее

Сервис за выходные, или обзор AI-инструментов для создания продукта

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели2.6K

Сейчас пытаются автоматизировать с помощью ИИ вообще все: от программистов до консультантов, и врачей. Количество стартапов и сервисов для этого становится больше год к году. Насколько эти инструменты хороши и можно ли уже отказаться от продуктовой команды, заменив ее на пару сервисов за 20$ в месяц? Давайте попробуем!

Читать далее

Могут ли трансформеры «думать»

Уровень сложностиСредний
Время на прочтение21 мин
Охват и читатели4.3K

Недавние исследования показывают, что модели трансформеров способны почти безошибочно решать задачи, требующие нескольких логических шагов. Например, из утверждения А вывести Б и дойти логически до В. И что удивительно, это достигается без использования Chain-of-Thought или особых промптов — только классический GPT-2. Давайте посмотрим, как трансформеры «думают» при решении задач рассуждения, и напишем для этого код с использованием библиотеки Hugging Face.

Читать далее

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность