Комментарии / Профиль nikgerasimenko / Хабр

Николай Герасименко @nikgerasimenko

Data Scientist (NLP)

Профиль Публикации 2Комментарии 4Закладки

ruSciBench — бенчмарк для оценки эмбеддингов научных текстов

nikgerasimenko 22 дек 2023 в 00:52

Ой, это опечатка, конечно же :) Исправил. 1.5B токенов.

Посмотреть

ruSciBench — бенчмарк для оценки эмбеддингов научных текстов

nikgerasimenko 21 дек 2023 в 13:47

Мы специально отобрали только данные только с открытой лицензией. Насчет качества категорий, согласен, тут есть, над чем поработать, у нас есть это в плане.
DeepL работает хорошо в среднем, но для научных текстов зачастую далеко не идеально. Кроме того, использовать его для перевода тысяч текстов на потоке получится довольно дорого. В конечном счете хочется иметь модель, которая может работать кросс-язычно и быстро, чтобы ее можно было недорого (в идеале - без использования GPU) и с достаточным качеством использовать.

Посмотреть

ruSciBench — бенчмарк для оценки эмбеддингов научных текстов

nikgerasimenko 20 дек 2023 в 18:02

Кажется, что BioGPT некорректно сравнивать с E5, потому что BioGPT - это генератор текста, а E5 - модель для получения эмбеддингов.
Для научных текстов на русском есть наши модели для получения эмбеддингов: ruSciBERT (125M) и SciRus-tiny (29M). Первая работает получше, но только на русском и параметров больше, вторая - работает похуже на на русском, но зато работает на английском, и очень не требовательная к вычислительным ресурсам. Вопрос в том, какая у вас задача.

Посмотреть

ruSciBench — бенчмарк для оценки эмбеддингов научных текстов

nikgerasimenko 19 дек 2023 в 12:25

Судя по бенчмаркам, доменные модели работают немного лучше, и параметров в них при этом заметно меньше. То есть их не обязательно использовать, если у вас не доменный продукт, проще использовать универсальную модель вроде E5 (тем более, что у нее в обучающем датасете весь Semantic Scholar). Но если вы знаете, какая конкретно у вас задача, то специализированная модель будет эффективнее и лучше.

Посмотреть