Pull to refresh
10
3
Subscribers
Send message

Добрый день, вроде бы только около трёх лет, если просто переводить часы в года; плюс можно посмотреть в приложении L статьи (ссылка в шапке поста), что на разметке критериев у нас трудилось где-то 93 человека, то есть вот эти три года - это делает один человек, а если это делают 100 человек параллельно по 8 часов в день, то это уже около месяца работы; с учётом того, что не все эксперты работали в параллель и не все были заняты по 8 часов в день, работа заняла, конечно, не 1 месяц, но вполне себе адекватный срок. На шаг по сбору такого штата экспертов пошли, чтобы покрыть все компетенции, которые требовались для разработки датасета, и тем самым обеспечить соответствующее высокое качество, ну и развитие области как следствие.

Привет!

1) Модели для тестирования выбрали по позиции на аренах и мере; + в спорных случаях учитывали опыт взаимодействия разработчиков с моделями, когда, например, модель по ощущениям ведёт себя очень хорошо для русского языка, и её очень хотелось бы потестировать; если вопрос адресован версии модели, то выбор моделей происходил в ноябре 2024 года, а на тот момент выбранные LLM представляли собой последние версии соответствующих семейств, надеюсь ответил.
2) Нет, конкретно информацию про географическую точку мы не давали. Во-первых, из соображения того, что русским языком могут пользоваться не только в России, во-вторых, хотелось посмотреть, насколько модель без указания конкретных реалий, в которых она находится, будет делать ремарки и осознавать в полной мере тот факт, что она по идее точно не знает своё окружение, а соответственно, ей бы надо это в ответе учитывать, особенно в рекомендациях.

Вы имеете в виду добавить в бенчмарк для спеллчека датасеты по исправлению текста, полученного через asr / ocr?

  1. Посимвольная производительность в секунду для всех четырех моделей из нашего решения посчитана в статье (на одной A100), там же указаны размеры моделей и соответствующее потребление памяти при загрузке модели на карту; инференс моделей возможен на A100 40-80Gb, V100 32Gb, и T4 из колаба; производительность открытых решений указана тут (правда в предложениях в секунду); сделаем полную сравнительную табличку по производительности и поместим её на страничку в реп;

  2. На этом этапе пока что фокусируемся именно на seq2seq, потому что хотим исследовать возможность решать editing tasks в генеративном режиме, впоследствии будем проводить эксперименты ещё и с sequence tagging;

  3. С учётом большого количества ошибок и разнообразия их типов тяжело производить детальный анализ, поэтому сейчас мы разрабатываем отдельный модуль по валидации спеллчекеров и лингвистическую классификацию ошибок по разным доменам, модуль как раз будет выдавать статистику перфоманса по разным типам; на текущий момент нельзя выделить каких-то очевидных классов, кроме текстов с большим количеством несловарного языка, где все остальные решения исправляют не то, что нужно;

Information

Rating
Does not participate
Works in
Registered
Activity

Specialization

ML Engineer