nikgerasimenko 17 дек 2023 в 23:13

ruSciBench — бенчмарк для оценки эмбеддингов научных текстов

Средний

7 мин

8.2K

Машинное обучение * Искусственный интеллектNatural Language Processing *

✏️ Технотекст 2023

Комментарии 8

asantat 19 дек 2023 в 09:20

Спасибо за статью. Рад, что эта тема развивается и для датасетов на русском языке. Возник вопрос. Хочу спросить Вашего мнения о том, проигрывают ли универсальные (точнее, многопредметные) языковые модели домен-специфичным аналогам при работе с узконаправленной литературой (я имею в виду BioGPT, PubMedBERT и так далее)?

nikgerasimenko 19 дек 2023 в 09:25

Судя по бенчмаркам, доменные модели работают немного лучше, и параметров в них при этом заметно меньше. То есть их не обязательно использовать, если у вас не доменный продукт, проще использовать универсальную модель вроде E5 (тем более, что у нее в обучающем датасете весь Semantic Scholar). Но если вы знаете, какая конкретно у вас задача, то специализированная модель будет эффективнее и лучше.

asantat 20 дек 2023 в 07:33

То есть условный BioGPT от Microsoft будет показывать себя лучше при работе с научными текстами медико-биологического домена на английском языке, чем универсальная E5?

На русском языке тоже есть домен-специфичные модели, верно? Насколько они актуальны?

nikgerasimenko 20 дек 2023 в 15:02

Кажется, что BioGPT некорректно сравнивать с E5, потому что BioGPT - это генератор текста, а E5 - модель для получения эмбеддингов.
Для научных текстов на русском есть наши модели для получения эмбеддингов: ruSciBERT (125M) и SciRus-tiny (29M). Первая работает получше, но только на русском и параметров больше, вторая - работает похуже на на русском, но зато работает на английском, и очень не требовательная к вычислительным ресурсам. Вопрос в том, какая у вас задача.

Ivan_Sterligov 21 дек 2023 в 06:07

Спасибо, интересное и важное дело, особенно с sentence-transformers. Немного смущает, конечно, и сам Воронцов с его конспирологией и роскомнадзором, и неясный правовой статус переданных вам Геннадием Еременко данных (уверен, большинство издателей не давали согласия на такого рода использование их метаданных, это очень сложный вопрос, см политики CrossRef к тому же англоязычные данные у Еременко были по договору с Elsevier, эти точно сейчас подобного не разрешат).

Насчет бенчмарка есть некоторое сомнение в исходных данных. Дело в том, что тематики в РИНЦ (и FoS, и ГРНТИ) приписываются не железобетонными суперэкспертами, а другими алгоритмами, которые далеко не всегда работают нормально (добавим, сам ГРНТИ порядком устарел...). Посмотрите, как это решается в Dimensions при разработке их собственной BERT-подобной модели, у них описано, как собирали датасет с указанием тематик для обучения. И еще я бы очень рекомендовал как-то фильтровать по качеству журналов, это все же РИНЦ) Там только ядро можно брать, и то с натяжкой.

Также интересно, как вы в целом видите ситуацию с практической необходимостью русскоязычной модели при наличии англоязычных аннотаций у всех приличных текстов и в целом с учетом качества и доступности хорошего перевода типа DeepL. Есть мнение, что может быть лучше переводить, а потом искать\классифицировать по англоязычным моделям типа SPECTER2 или даже обычной all-MiniLM-L6-v2 - именно ее используют в новом семантическом поиске в JSTOR и вероятно в проектах типа Litmaps (в этом году семантический поиск в науке наконец взлетел). Сам я тоже как раз ее использую для семантического поиска по публикациям (подбор рецензентов, картирование науки и все такое), работает неплохо.

nikgerasimenko 21 дек 2023 в 10:47

Мы специально отобрали только данные только с открытой лицензией. Насчет качества категорий, согласен, тут есть, над чем поработать, у нас есть это в плане.
DeepL работает хорошо в среднем, но для научных текстов зачастую далеко не идеально. Кроме того, использовать его для перевода тысяч текстов на потоке получится довольно дорого. В конечном счете хочется иметь модель, которая может работать кросс-язычно и быстро, чтобы ее можно было недорого (в идеале - без использования GPU) и с достаточным качеством использовать.

Ivan_Sterligov 21 дек 2023 в 14:23

да, по деньгам в больших масштабах с DeepL выйдет немало, тут не поспоришь)

а насчет открытой лицензии и вообще размера датасета немного не понял:

"обученную на датасете 1.5B научных текстов на русском и английском языках" - тут явно "текст" не равен "публикации"?

в РИНЦ сейчас 46М публикаций, из них большинство не с нужными лицензиями (так, из семейства СС популярные ND и NC тут вряд ли подходят), а в целом научных публикаций сейчас этак 200-300М во всем мире (смотря как считать)
Тот же S2ORC начинал с 80 миллионов, ныне перевалили далеко за 100, но наличие аннотаций и т.д. гораздо меньше, как помню.

Тогда что же имеется в виду под "1.5B научных текстов"?

nikgerasimenko 21 дек 2023 в 21:52

Ой, это опечатка, конечно же :) Исправил. 1.5B токенов.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий