Как стать автором
Обновить

Насколько естественен естественный язык? Представляем датасет RuCoLA

Время на прочтение 7 мин
Количество просмотров 7.5K
Всего голосов 37: ↑36 и ↓1 +35
Комментарии 16

Комментарии 16

Хм, NLP это Neuro-linguistic programming?

Natural Language Processing

Какой-то дурдом. Хотят создать корпус русских предложений, и делают "международный" сайт с дичайшими англицизмами.

Заходим и видим промо-сайт со странным заголовком:

данные и бейзлайн^ лидерборд

RUSSIAN

CORPUS

OF LINGUISTIC

ACCEPTABILITY

Что-а? Вы хотите чтобы русскоговорящие пиплсы, увидев этот буллшит, разобрались и понатыкали разметку в ваших сэмплесах? Это должны быть очень замотивированные персонс.

Во-первых, Вы явно не умеете читать тексты на русском языке. "Понатыкать" разметку никто никого не просит, ни в статье, ни на сайте. Корпус не просто "хотят создать", а уже создали. И после этого Вы пытаетесь давать советы, как авторам писать их тексты?


Во-вторых, с основной задачей выбранные слова вполне справляются. Корректные переводы ("базовое решение" и "таблица лидеров") довольно громоздки, и я могу понять, почему авторы выбрали англицизмы.

Камон, что вы кибербуллите? Вы абьюзер? Несете полный кринж.
Выглядите как криповый токсик и явно хейтите. Зачем так агриться?
Ваш мессадж вызывает у меня батхерт. Не дестройте наш классный вайб.

Не слишком ли заумно? В последние годы в области NLP произошла настоящая революция;

NLP, как Neuro-linguistic programming, более известно, чем Natural Language Processing. Там тоже произошла революция.

Трудно было сразу раскрыть Ваше NLP? Не надо переоценивать аудиторию и (возможно) себя.

Справедливости ради, в списке хабов поста есть Natural Language Processing.

подскажите, планируется ли возобновление работы "Балабобы"? Сколько не задавал данный вопрос сотрудникам поддержки, они неизменно ссылаются на технические причины, препятствующие корректной работе сервиса. А между тем уже прошло почти 3 месяца со дня отключения. Это причиняет неудобства многим пользователям. Ведь нейросетью можно было пользоваться не только с развлекательной, но и с практической целью. Например, она помогала писать дескрипшны к статьям и рандомизировать заголовки. Благодаря ее использованию выполнение ряда задач занимало намного меньше времени. Надеюсь на скорое решение проблемы.

вы можете объяснить для рядовых пользователей, по какой причине сервис был отключен?

В литературе по ML аббревиатура NLP носит строго определённый характер и никак иначе, кроме как Natural Language Processing не интерпретируется. В статье расписывается весьма сложная высокоуровневая проблема, имеющая практическое значение для очень серьезных дядек, занимающихся актуальными языковыми моделями, не только предобученными, но и даже обучаемыми с нуля, что вообще может себе позволить далеко не каждая контора. Так что такой наезд сродни наезду на статью по квантовой физике за непонятные буковки в формулах. Ну не будут в таких статьях каждый раз расписывать обозначения постоянной Планка

Было бы классно ещё и SOTA-модель выложить на этом датасете в открытый доступ.

Кажется это может не стыковаться с лидербордом)

Спасибо за интересную статью! Создание корпуса лингвистической приемлемости для русского языка -- очень полезная и важная задача, здорово, что теперь она решена.

В статье вы говорите о том, что "оценка приемлемости непросто даётся и людям, однако нейросетевым моделям ещё есть к чему стремиться", этим объясняя не очень высокий результат для человеческой оценки. Но причина может быть в другом: некоторые предложения датасета не являются однозначно приемлемыми или однозначно неприемлемыми, между носителями может присутствовать вариативность относительно их оценки.

Как вам кажется, стоит ли включать такие вариативные предложения в датасет, или же лучше оставить только те, в отношении которых носители будут единогласны?

Коллеги, спасибо за ваш проект!

Вы выложили на Хаггингфейс модельку-классификатор на естественность языка. Подскажите, пожалуйста, корректный пример запуска этой модельки, чтобы полкчить требуемую оценку.

Зарегистрируйтесь на Хабре , чтобы оставить комментарий

Публикации