Как стать автором
Обновить
7
0
Николай Герасименко @nikgerasimenko

Data Scientist (NLP)

Отправить сообщение

Ой, это опечатка, конечно же :) Исправил. 1.5B токенов.

Мы специально отобрали только данные только с открытой лицензией. Насчет качества категорий, согласен, тут есть, над чем поработать, у нас есть это в плане.
DeepL работает хорошо в среднем, но для научных текстов зачастую далеко не идеально. Кроме того, использовать его для перевода тысяч текстов на потоке получится довольно дорого. В конечном счете хочется иметь модель, которая может работать кросс-язычно и быстро, чтобы ее можно было недорого (в идеале - без использования GPU) и с достаточным качеством использовать.

Кажется, что BioGPT некорректно сравнивать с E5, потому что BioGPT - это генератор текста, а E5 - модель для получения эмбеддингов.
Для научных текстов на русском есть наши модели для получения эмбеддингов: ruSciBERT (125M) и SciRus-tiny (29M). Первая работает получше, но только на русском и параметров больше, вторая - работает похуже на на русском, но зато работает на английском, и очень не требовательная к вычислительным ресурсам. Вопрос в том, какая у вас задача.

Судя по бенчмаркам, доменные модели работают немного лучше, и параметров в них при этом заметно меньше. То есть их не обязательно использовать, если у вас не доменный продукт, проще использовать универсальную модель вроде E5 (тем более, что у нее в обучающем датасете весь Semantic Scholar). Но если вы знаете, какая конкретно у вас задача, то специализированная модель будет эффективнее и лучше.

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Работает в
Дата рождения
Зарегистрирован
Активность