Есть ли большой смысл переводить датасет по математике / майнить задачи математике на русском языке? Я понимаю зачем например бенч с русскими сканами на OCR, зачем бенч на русский культурный код. Но математика на всех языках одинаковая. Та же мысль про бенчи про код
Было бы интересно что-то вроде ablation study, как максимально упростить решение, минимально потерять в качестве. Разобраться сколько именно качества докидывают отдельные фичи
Какая производительность? Интересно сравнение с другими решениями. Какое надо железо. Сравнить кроме качества производительность и требования к железу
Что думаете про sequence tagging вместо seq2seq? Делать по аналогии с Gector Grammarly
Примеры предложений где ваше решение справляется а другие ошибаются. Какие это случаи? В таблице большая разница precision, остальные решения исправляют лишнее?
Собрав "корзину" из запросов разной тематики, мы провели на ней SBS между нашей моделью и моделью от OpenAI (gpt-3.5-turbo). Начиная от 3:97 в пользу ChatGPT, нам удалось добиться результата 30:70 в финальной версии модели
Хорошо ли справляется выделение ФИО с приведением к норальной форме (именительный падеж)?
Да, советую пробовать свои примеры на стенде. Более подробный стенд есть на http://natasha.github.io/. Мерил качество нормализации на BSNLP-2019 https://github.com/natasha/corus#load_bsnlp, примерно 90% имён нормализуется корректно.
"Песков" будет превращен в "песок". такие кейсы как Эрик Конггорд («конггордый»)-Андерсен, или Елена Верещака («верещак»), или Николай Борцов («борец»)
Такое, конечно, Наташа старается учитывать. Наташа использует информацию о морфологии от внутреннего морфологического тегера и Pymorphy https://pymorphy2.readthedocs.io/en/latest/ для нормализации. Если оба отработают корректно, ошибки не будет
Эрик Конггорд-Андерсен». Фамилию через черточку не смог осилить полностью
Для разделения на имя и фамилию в библиотеке собран набор правил для Yargy-парсера https://github.com/natasha/yargy. Правил для фамилий с дефисом там нет.
В начале соглашения https://forms.yandex.ru/u/68139306d04688bad07479ae/ не хватает фразы типа «слушай сюда, пес» 😂
Есть код, данные в открытом доступе?
Есть ли большой смысл переводить датасет по математике / майнить задачи математике на русском языке? Я понимаю зачем например бенч с русскими сканами на OCR, зачем бенч на русский культурный код. Но математика на всех языках одинаковая. Та же мысль про бенчи про код
Российских ризонинг моделей нет, российский ризонинг бенчмарк есть ))
Или есть какие-то ризонинг модели?
Какие бенчи кроме https://mathvista.github.io https://huggingface.co/datasets/SpursgoZmy/MMTab ?
Будет доступ по API?
Какие скоры на бенчмарках кроме Меры?
Токенизатор хуже / лучше чем в Ruadapt?
Почему опубликовали не в хабе AvitoTech?
Было бы интересно что-то вроде ablation study, как максимально упростить решение, минимально потерять в качестве. Разобраться сколько именно качества докидывают отдельные фичи
что если забить на шифр Цезары
на сколько влияет на скор сериализация таблиц
...
Хорошо бы кроме метрик на бенчмарках показать цену за токен. Сравнить цену на Llama, Qwen, Deepseek в Openrouter и на Gigachat
Интересно сколько будет стоить использовать Aider с Gigachat по сравнению с Deepseek
Какой промпт использовали чтобы выделить тему из кластера?
Пробовали объединить темы Чатгпт? Как выглядел промпт?
Визуализация эмбеддингов какая-то слишком удобная )) На реальных данных кластера также хорошо разделяются?
Оч полезная статья, спасибо!
Какая производительность? Интересно сравнение с другими решениями. Какое надо железо. Сравнить кроме качества производительность и требования к железу
Что думаете про sequence tagging вместо seq2seq? Делать по аналогии с Gector Grammarly
Примеры предложений где ваше решение справляется а другие ошибаются. Какие это случаи? В таблице большая разница precision, остальные решения исправляют лишнее?
Вы не могли бы опубликовать список запросов?
Интересно про SBERT, не могли бы раскрыть подробности:
В проекте, кстати, уже есть есть такие обёртки. Там aiohttp + docker https://github.com/natasha/slovnet/blob/master/docker/slovnet-ner/exec/app.py
Правила для Yargy-парсера
Открытых решений для русского не знаю. Для тональности всего текста есть https://github.com/bureaucratic-labs/dostoevsky
Нет
Весь проект на Python. Нормального способа использовать с другими языками мне не известно. Только может быть заворачивать в веб интерфейс
Na — natasha, eval — evaluation