Как стать автором
Поиск
Написать публикацию
Обновить
10
0
Roman Abramov @perfect_startup

PhD Munich, NLP

Отправить сообщение

Как я обошел современные GPT модели с помощью GPT2-small на задачах рассуждения

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров6K

Не так давно я уже писал статью по такому необычному явлению, как гроккинг - отложенная генерализация. Если долго тренировать модель на наборе данных, то тестовая точность достигнет 100% и модель станет безошибочно решать задачу. Звучит круто! Но вот проблема - никто до сих пор не мог применить гроккинг на задачах из реального мира, а мы это сделали и сейчас публикуемся на крупнейшей МЛ конференции. Если интересно, как мы этого достигли, то прошу под кат.

Читать далее

Hippo-RAG: Долговременная память для LLM, вдохновленная нейробиологией

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров4.7K

Ученые часто вдохновляется нашими или животными биологическими структурами: CNN, MLP, Backprop, и для многих других исследований можно найти сходства в реальном мире. Недавно вышла статья, которая делает то же самое, но для RAG (Retrieval-Augmented Generation). В некотором роде, это недостающая современным LLM долгосрочная память. Это понятно, а причем тут неокортекст, гиппокамп и другие сложные слова? Давайте посмотрим.

Читать далее

Сервис за выходные, или обзор AI-инструментов для создания продукта

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров3.9K

Сейчас пытаются автоматизировать с помощью ИИ вообще все: от программистов до консультантов, и врачей. Количество стартапов и сервисов для этого становится больше год к году. Насколько эти инструменты хороши и можно ли уже отказаться от продуктовой команды, заменив ее на пару сервисов за 20$ в месяц? Давайте попробуем!

Читать далее

Могут ли трансформеры «думать»

Уровень сложностиСредний
Время на прочтение21 мин
Количество просмотров6.9K

Недавние исследования показывают, что модели трансформеров способны почти безошибочно решать задачи, требующие нескольких логических шагов. Например, из утверждения А вывести Б и дойти логически до В. И что удивительно, это достигается без использования Chain-of-Thought или особых промптов — только классический GPT-2. Давайте посмотрим, как трансформеры «думают» при решении задач рассуждения, и напишем для этого код с использованием библиотеки Hugging Face.

Читать далее

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность