Комментарии 16
Хм, NLP это Neuro-linguistic programming?
Какой-то дурдом. Хотят создать корпус русских предложений, и делают "международный" сайт с дичайшими англицизмами.
Заходим и видим промо-сайт со странным заголовком:
данные и бейзлайн^ лидерборд
RUSSIAN
CORPUS
OF LINGUISTIC
ACCEPTABILITY
Что-а? Вы хотите чтобы русскоговорящие пиплсы, увидев этот буллшит, разобрались и понатыкали разметку в ваших сэмплесах? Это должны быть очень замотивированные персонс.
Во-первых, Вы явно не умеете читать тексты на русском языке. "Понатыкать" разметку никто никого не просит, ни в статье, ни на сайте. Корпус не просто "хотят создать", а уже создали. И после этого Вы пытаетесь давать советы, как авторам писать их тексты?
Во-вторых, с основной задачей выбранные слова вполне справляются. Корректные переводы ("базовое решение" и "таблица лидеров") довольно громоздки, и я могу понять, почему авторы выбрали англицизмы.
Камон, что вы кибербуллите? Вы абьюзер? Несете полный кринж.
Выглядите как криповый токсик и явно хейтите. Зачем так агриться?
Ваш мессадж вызывает у меня батхерт. Не дестройте наш классный вайб.
Не слишком ли заумно? В последние годы в области NLP произошла настоящая революция;
NLP, как Neuro-linguistic programming, более известно, чем Natural Language Processing. Там тоже произошла революция.
Трудно было сразу раскрыть Ваше NLP? Не надо переоценивать аудиторию и (возможно) себя.
Справедливости ради, в списке хабов поста есть Natural Language Processing.
подскажите, планируется ли возобновление работы "Балабобы"? Сколько не задавал данный вопрос сотрудникам поддержки, они неизменно ссылаются на технические причины, препятствующие корректной работе сервиса. А между тем уже прошло почти 3 месяца со дня отключения. Это причиняет неудобства многим пользователям. Ведь нейросетью можно было пользоваться не только с развлекательной, но и с практической целью. Например, она помогала писать дескрипшны к статьям и рандомизировать заголовки. Благодаря ее использованию выполнение ряда задач занимало намного меньше времени. Надеюсь на скорое решение проблемы.
вы можете объяснить для рядовых пользователей, по какой причине сервис был отключен?
В литературе по ML аббревиатура NLP носит строго определённый характер и никак иначе, кроме как Natural Language Processing не интерпретируется. В статье расписывается весьма сложная высокоуровневая проблема, имеющая практическое значение для очень серьезных дядек, занимающихся актуальными языковыми моделями, не только предобученными, но и даже обучаемыми с нуля, что вообще может себе позволить далеко не каждая контора. Так что такой наезд сродни наезду на статью по квантовой физике за непонятные буковки в формулах. Ну не будут в таких статьях каждый раз расписывать обозначения постоянной Планка
Было бы классно ещё и SOTA-модель выложить на этом датасете в открытый доступ.
Кажется это может не стыковаться с лидербордом)
Модель, которая сейчас занимает первое место в лидерборде, есть в открытом доступе (вот статья про неё на Хабре).
Спасибо за интересную статью! Создание корпуса лингвистической приемлемости для русского языка -- очень полезная и важная задача, здорово, что теперь она решена.
В статье вы говорите о том, что "оценка приемлемости непросто даётся и людям, однако нейросетевым моделям ещё есть к чему стремиться", этим объясняя не очень высокий результат для человеческой оценки. Но причина может быть в другом: некоторые предложения датасета не являются однозначно приемлемыми или однозначно неприемлемыми, между носителями может присутствовать вариативность относительно их оценки.
Как вам кажется, стоит ли включать такие вариативные предложения в датасет, или же лучше оставить только те, в отношении которых носители будут единогласны?
Коллеги, спасибо за ваш проект!
Вы выложили на Хаггингфейс модельку-классификатор на естественность языка. Подскажите, пожалуйста, корректный пример запуска этой модельки, чтобы полкчить требуемую оценку.
Насколько естественен естественный язык? Представляем датасет RuCoLA