Комментарии 13
Текст местами не вычитан…
Или его ваша модель писала?
С хоккеистами не понял. Конечно, вратарь играл лучше — безупречно же, ни одной шайбы не пропустил значит, а значит наши не смогли реализовать преимущество
В этом примере правильный ответ, что вывод неверен. Логика такая: из того, что у наших было преимущество, не следует, что они играли лучше.
У меня логика такая: из того, что вратарь был безупречен, а наших лишь преимущество какое-то, следует, что вратарь играл лучше, идеально, лучше просто некуда. А наши хуже, потому что иначе бы сказали, что и те, и другие играли безупречно. По-моему, информации достаточно, чтобы сделать такой вывод. Как и в "по итогам советско-американских соревнований советская команда заняла почётное второе место, а американская — предпоследнее" достаточно информации чтобы понять, что амерканцы выиграли, а наши проиграли.
По-моему, сопоставлять игру команды из 5 + 1 человек с одной стороны — и одного игрока с максимально специфической функцией (вратарь) с другой сторон — в принципе неправильно. Это не очень сопоставимые сущности, они разноуровневые. Так что мне больше по душе вариант ответа из поста: «вопрос поставлен некорректно»
Показательно, что самый огромный провал у машин в RuCoS (где common sense intelligence нужен), судя по лидерборду. Все в зоне 0.25 — 0.375. Но это прям реальный челлендж: я заглянул в json с вопросами и пришлось почесать репу, чтобы заполнить placeholder-ы… Иногда даже кажется, что есть неоднозначные места. Интересно, каков тут коэффициент согласия, когда вы мучаете на RuCoS людей :)
А вообще — очень крутая инициатива, спасибо за работу и за суперский бенчмарк!
А вообще — очень крутая инициатива, спасибо за работу и за суперский бенчмарк!
Успехов в дальнейших разработках. Думаю, Вы на правильном пути
Есть ли планы по версионированию бенчмарка? Ведь всегда есть что улучшать.
Кажется, отсутствие версионирования в GLUE привело к тому, что разъяснение о битых строчках в QQP пришлось включать в FAQ, а некоторые результаты QNLI теперь считаются недействительными из-за уточнений описания задания.
Кажется, отсутствие версионирования в GLUE привело к тому, что разъяснение о битых строчках в QQP пришлось включать в FAQ, а некоторые результаты QNLI теперь считаются недействительными из-за уточнений описания задания.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Люди ломаются на логике, роботы — на всем понемногу. Экзамены по русскому для NLP-моделей