All streams
Search
Write a publication
Pull to refresh
5
5
Vasily Konovalov @nlpist

NLP Research Scientist @ AIRI, Phd @ MIPT

Send message

Все еще борешься с галлюцинациями? Ты просто не умеешь их использовать

Level of difficultyMedium
Reading time9 min
Views1.7K

Привет, Хабр! Меня зовут Василий Коновалов, я работаю в команде «Вычислительная семантика» в AIRI. Наша команда сфокусирована на исследовании галлюцинаций и на решении проблем доверительной генерации. Мы учимся находить галлюцинации и бороться с ними.

Но, возможно, мы не всегда должны делать это. Тем более, что научные работы показывают, что галлюцинации неизбежны. Вместо этого мы извлекли из них пользу: мы применили галлюцинации больших мультимодальных моделей для детекции странных картинок — то есть картинок, противоречащих здравому смыслу.

Об этом мы вместе с коллегами из Сколтеха, MWS AI и МФТИ написали научную статью Through the Looking Glass: Common Sense Consistency Evaluation of Weird Images, которую приняли на NAACL. Здесь я кратко расскажу, что именно мы сделали.

Читать далее

Останется ли это правдой завтра? Как проверка устойчивости фактов помогает LLM стать честнее и умнее

Level of difficultyMedium
Reading time8 min
Views1.5K

Привет, Хабр! Мы в команде «Вычислительная семантика» в AIRI сфокусированы на исследовании галлюцинаций и решении проблем доверительной генерации. Мы учимся находить галлюцинации и бороться с ними. Большие языковые модели (LLM) вроде GPT-4 стали незаменимыми помощниками в повседневной жизни — от генерации текстов до поддержки в кодинге и ответов на вопросы. Однако у них есть ахиллесова пята: они часто галлюцинируют.

В этом посте мы разберем нашу последнюю работу Will It Still Be True Tomorrow?, посвященную тому, как на надёжность моделей влияет феномен неизменного вопроса (evergreen question)  — то есть вопроса, ответ на который не зависит ни от времени, когда вы его задаёте, ни от места, вопроса про факт, который зафиксирован в истории и не меняется от обстоятельств.

В рамках этой работы мы совместно с MWS AI собрали датасет изменяемых и неизменных вопросов EverGreenQA (открытый доступ), обучили классификатор на базе многоязычного энкодера E5, и применили его для оценки собственных знаний модели. Наши результаты показывают, что большие языковые модели чаще всего правильно отвечают на неизменные вопросы, не прибегая к помощи RAG пайплайна.

Теперь обо всем по порядку.

Обучение Russian SuperGLUE моделей с помощью библиотеки DeepPavlov

Reading time6 min
Views5.2K

В последние годы соревнования GLUE и SuperGLUE на английском языке стали стандартным бенчмарком для определения возможностей универсальных языковых моделей, таких как BERT, RoBERTa в решении широкого круга задач обработки естественного языка, в том числе задач с недостаточным объемом обучающей выборки. Соревнования GLUE/SuperGLUE представляют из себя наборы задач NLP на основе ранее представленных датасетов. Академическое сообщество NLP довольно быстро расправилось с GLUE, отчасти вследствие того, что задачи были довольно однотипные, они сводились либо к парной текстовой классификации, либо к классификации единственной последовательности. Ответом на это был новый набор задач SuperGLUE, в состав которого вошли вопросно-ответные задачи, задачи кореференции и задачи семантического следования. На данный момент модели, обученные на базе ERNIE и DeBERT, превзошли качество разметки человеком.

Читать далее

Information

Rating
963-rd
Registered
Activity