Как стать автором
Обновить

Люди ломаются на логике, роботы — на всем понемногу. Экзамены по русскому для NLP-моделей

Блог компании Сбер Машинное обучение *Управление проектами *Искусственный интеллект Natural Language Processing *
Всего голосов 41: ↑39 и ↓2 +37
Просмотры 7K
Комментарии 13

Комментарии 13

Текст местами не вычитан…
Или его ваша модель писала?

С хоккеистами не понял. Конечно, вратарь играл лучше — безупречно же, ни одной шайбы не пропустил значит, а значит наши не смогли реализовать преимущество

В этом примере правильный ответ, что вывод неверен. Логика такая: из того, что у наших было преимущество, не следует, что они играли лучше.

У меня логика такая: из того, что вратарь был безупречен, а наших лишь преимущество какое-то, следует, что вратарь играл лучше, идеально, лучше просто некуда. А наши хуже, потому что иначе бы сказали, что и те, и другие играли безупречно. По-моему, информации достаточно, чтобы сделать такой вывод. Как и в "по итогам советско-американских соревнований советская команда заняла почётное второе место, а американская — предпоследнее" достаточно информации чтобы понять, что амерканцы выиграли, а наши проиграли.

По-моему, сопоставлять игру команды из 5 + 1 человек с одной стороны — и одного игрока с максимально специфической функцией (вратарь) с другой сторон — в принципе неправильно. Это не очень сопоставимые сущности, они разноуровневые. Так что мне больше по душе вариант ответа из поста: «вопрос поставлен некорректно»
Показательно, что самый огромный провал у машин в RuCoS (где common sense intelligence нужен), судя по лидерборду. Все в зоне 0.25 — 0.375. Но это прям реальный челлендж: я заглянул в json с вопросами и пришлось почесать репу, чтобы заполнить placeholder-ы… Иногда даже кажется, что есть неоднозначные места. Интересно, каков тут коэффициент согласия, когда вы мучаете на RuCoS людей :)

А вообще — очень крутая инициатива, спасибо за работу и за суперский бенчмарк!
Да, это правда! Это датасет, в котором, пожалуй, смаый большой разрыв у уровня человека и модели — люди с ним справляются достаточно хорошо.
Мы брали в датасет задания, на которых все разметчики уверены, оверлап 3 человека.
Успехов в дальнейших разработках. Думаю, Вы на правильном пути
Есть ли планы по версионированию бенчмарка? Ведь всегда есть что улучшать.
Кажется, отсутствие версионирования в GLUE привело к тому, что разъяснение о битых строчках в QQP пришлось включать в FAQ, а некоторые результаты QNLI теперь считаются недействительными из-за уточнений описания задания.

Да! Определённо есть. Некоторые датасеты вырастут в объёме, могут добавиться новые.


В английском GLUE так получилось, что задания были решены так быстро, что проще было сразу выпустить новый проект с приставкой "super".

Простейший тест на интеллект: имеется текст. Любой. Задача: изложить текст своими словами.
Это называется суммаризация. Подход нормальный, только трудно оценить, см метрики BLeu и Rouge
Оценить действительно трудно в числовом выражении, поскольку основной критерий оценки есть сохранение истинности текста. В чём и как её измерять непонятно. Как при этом рассчитывать процент истинности каждой смысловой единицы? То, что очевидно человеку, алгоримизуется плохо. По крайней мере, пока.
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.