rucola-team24 мая 2022 в 09:02

Насколько естественен естественный язык? Представляем датасет RuCoLA

7 мин

9.4K

GitHub * Natural Language Processing * Open source * Исследования и прогнозы в IT * Машинное обучение *

+35

Комментарии 16

spesso 24 мая 2022 в 09:25

Хм, NLP это Neuro-linguistic programming?

averkij 24 мая 2022 в 09:38

Natural Language Processing

webhamster 24 мая 2022 в 11:48

Какой-то дурдом. Хотят создать корпус русских предложений, и делают "международный" сайт с дичайшими англицизмами.

Заходим и видим промо-сайт со странным заголовком:

данные и бейзлайн^ лидерборд
RUSSIAN
CORPUS
OF LINGUISTIC
ACCEPTABILITY

Что-а? Вы хотите чтобы русскоговорящие пиплсы, увидев этот буллшит, разобрались и понатыкали разметку в ваших сэмплесах? Это должны быть очень замотивированные персонс.

Takagi 24 мая 2022 в 13:01

Во-первых, Вы явно не умеете читать тексты на русском языке. "Понатыкать" разметку никто никого не просит, ни в статье, ни на сайте. Корпус не просто "хотят создать", а уже создали. И после этого Вы пытаетесь давать советы, как авторам писать их тексты?

Во-вторых, с основной задачей выбранные слова вполне справляются. Корректные переводы ("базовое решение" и "таблица лидеров") довольно громоздки, и я могу понять, почему авторы выбрали англицизмы.

couatl 24 мая 2022 в 13:31

couatl 25 мая 2022 в 10:30

Камон, что вы кибербуллите? Вы абьюзер? Несете полный кринж.
Выглядите как криповый токсик и явно хейтите. Зачем так агриться?
Ваш мессадж вызывает у меня батхерт. Не дестройте наш классный вайб.

VAE 24 мая 2022 в 13:32

Не слишком ли заумно? В последние годы в области NLP произошла настоящая революция;

NLP, как Neuro-linguistic programming, более известно, чем Natural Language Processing. Там тоже произошла революция.

Трудно было сразу раскрыть Ваше NLP? Не надо переоценивать аудиторию и (возможно) себя.

BarakAdama 24 мая 2022 в 16:06

Справедливости ради, в списке хабов поста есть Natural Language Processing.

romansamoy 27 мая 2022 в 10:01

подскажите, планируется ли возобновление работы "Балабобы"? Сколько не задавал данный вопрос сотрудникам поддержки, они неизменно ссылаются на технические причины, препятствующие корректной работе сервиса. А между тем уже прошло почти 3 месяца со дня отключения. Это причиняет неудобства многим пользователям. Ведь нейросетью можно было пользоваться не только с развлекательной, но и с практической целью. Например, она помогала писать дескрипшны к статьям и рандомизировать заголовки. Благодаря ее использованию выполнение ряда задач занимало намного меньше времени. Надеюсь на скорое решение проблемы.

romansamoy 29 мая 2022 в 11:49

вы можете объяснить для рядовых пользователей, по какой причине сервис был отключен?

Tontu 24 мая 2022 в 17:06

В литературе по ML аббревиатура NLP носит строго определённый характер и никак иначе, кроме как Natural Language Processing не интерпретируется. В статье расписывается весьма сложная высокоуровневая проблема, имеющая практическое значение для очень серьезных дядек, занимающихся актуальными языковыми моделями, не только предобученными, но и даже обучаемыми с нуля, что вообще может себе позволить далеко не каждая контора. Так что такой наезд сродни наезду на статью по квантовой физике за непонятные буковки в формулах. Ну не будут в таких статьях каждый раз расписывать обозначения постоянной Планка

nutcracker1337 24 мая 2022 в 14:48

Было бы классно ещё и SOTA-модель выложить на этом датасете в открытый доступ.

couatl 25 мая 2022 в 10:10

Кажется это может не стыковаться с лидербордом)

hx0 27 мая 2022 в 14:41

Модель, которая сейчас занимает первое место в лидерборде, есть в открытом доступе (вот статья про неё на Хабре).

Xeanst 1 авг 2022 в 12:56

Спасибо за интересную статью! Создание корпуса лингвистической приемлемости для русского языка -- очень полезная и важная задача, здорово, что теперь она решена.

В статье вы говорите о том, что "оценка приемлемости непросто даётся и людям, однако нейросетевым моделям ещё есть к чему стремиться", этим объясняя не очень высокий результат для человеческой оценки. Но причина может быть в другом: некоторые предложения датасета не являются однозначно приемлемыми или однозначно неприемлемыми, между носителями может присутствовать вариативность относительно их оценки.

Как вам кажется, стоит ли включать такие вариативные предложения в датасет, или же лучше оставить только те, в отношении которых носители будут единогласны?

KsandrFreeman 29 сен 2023 в 15:27

Коллеги, спасибо за ваш проект!

Вы выложили на Хаггингфейс модельку-классификатор на естественность языка. Подскажите, пожалуйста, корректный пример запуска этой модельки, чтобы полкчить требуемую оценку.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий