Как стать автором
Обновить
5.99
Рейтинг

Natural Language Processing *

Компьютерный анализ и синтез естественных языков

Сначала показывать
Порог рейтинга

Обучение Russian SuperGLUE моделей с помощью библиотеки DeepPavlov

Open source *Python *Машинное обучение *Искусственный интеллект Natural Language Processing *
Из песочницы

В последние годы соревнования GLUE и SuperGLUE на английском языке стали стандартным бенчмарком для определения возможностей универсальных языковых моделей, таких как BERT, RoBERTa в решении широкого круга задач обработки естественного языка, в том числе задач с недостаточным объемом обучающей выборки. Соревнования GLUE/SuperGLUE представляют из себя наборы задач NLP на основе ранее представленных датасетов. Академическое сообщество NLP довольно быстро расправилось с GLUE, отчасти вследствие того, что задачи были довольно однотипные, они сводились либо к парной текстовой классификации, либо к классификации единственной последовательности. Ответом на это был новый набор задач SuperGLUE, в состав которого вошли вопросно-ответные задачи, задачи кореференции и задачи семантического следования. На данный момент модели, обученные на базе ERNIE и DeBERT, превзошли качество разметки человеком.

Читать далее
Всего голосов 7: ↑6 и ↓1 +5
Просмотры 1.8K
Комментарии 5

Новости

Группируем текстовые записи с помощью Python и CountVectorizer

Python *Natural Language Processing *
Tutorial

Общедоступные реестры клинических исследований, такие как clinicaltrials.gov, печально известны низкой структурированностью данных. Попытка построить сводный отчет, например, о количестве исследований, проводимых ведущими фармкомпаниями, натыкается на давно всем надоевшую проблему множественных написаний одинаковых по смыслу значений.

В очередной раз столкнувшись с этой проблемой при анализе данных в pandas, я решил подключить к решению CountVectorizer из scikit-learn. Результат показался интересным. Сразу оговорюсь, что в данном случае я не использую методы и алгоритмы машинного обучения, а только CountVectorizer как инструмент.

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Просмотры 722
Комментарии 0

Мне нужна твоя поддержка: как запустить чат-бот на восьми языках быстро, без разметки и смс

Блог компании Garage Eight Анализ и проектирование систем *Data Mining *Машинное обучение *Natural Language Processing *

У нас было несколько сотен тысяч чатов в месяц, восемь языков разных групп, миллионы строк неразмеченных данных, тысячи тематик чатов из разных областей нашей экосистемы и команда из 7 человек. Не то, чтобы всё это было категорически необходимо, но если уж начал автоматизацию чатов, то к делу надо подходить серьёзно. Единственное, что нас беспокоило — это процент автоматизации. В мире нет ничего более непонятного, сложного и запутанного, чем естественный язык и поведение клиентов. И я знал, что довольно скоро мы в это окунёмся.

Читать далее
Всего голосов 7: ↑6 и ↓1 +5
Просмотры 946
Комментарии 4

Начало работы с языковой моделью Galactica

Open source *Python *Big Data *Natural Language Processing *Data Engineering *
Перевод
Tutorial

Galactica это большая языковая модель с открытым исходным кодом от Meta AI. Модель справляется с множеством научных задач, выполняет логические рассуждения, создает конспекты лекций, прогнозирует цитаты и имеет ещё массу других талантов.

В этой статье ты научишься загружать модель Galactica и напишешь свой первый запрос к ней.

Github-репозиторий

Читать далее
Всего голосов 6: ↑4 и ↓2 +2
Просмотры 2.4K
Комментарии 5

Может ли робот понять твои эмоции? Тенденции в области распознавания эмоций и психологических состояний человека

Natural Language Processing *
Из песочницы

Эмоции являются неотъемлемым атрибутом в жизни каждого человека и отражают его психологическое состояние. На протяжении истории человечество использовало различные способы выражения эмоциональных состояний, включая вербальное и невербальное контактирование.

Эмоции – это состояние ума, связанное с чувствами и мыслями, обычно направленными на конкретный объект. Эмоция – это поведение, которое отражает личную значимость или мнение относительно нашего взаимодействия с другими людьми или в связи с определенным событием. Человек способен идентифицировать эмоции из текстовых данных и может понять содержание текста. Но если подумать о машинах, способны ли они идентифицировать эмоции из текста? В данной статье проведен обзор свежайших моделей распознавания эмоций с помощью технологий интеллектуального анализа данных, а именно обработки естественного языка (NLP).

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 863
Комментарии 3

Умные субтитры

Работа с видео *Python *Машинное обучение *Изучение языков Natural Language Processing *

Сегодня я вам расскажу о своем методе для изучения иностранных языков.

С чего начать изучение нового языка? Чаще всего люди на раннем этапе используют стандартный лексико-грамматический метод с доминированием письменного языка, который показал себя медленным и весьма скучным — вам чаще всего нужна зашкаливающая мотивация, чтобы не бросить где-то посередине.

Я предлагаю начать сразу с видео. Во-первых, видео просто интересно смотреть (особенно если это нормальные мультики/фильмы/сериалы, созданные для носителей языка). Во-вторых, вы сразу начнете запоминать звучание слов, что очень сильно пригодится для развития навыка аудирования в будущем.

Однако, если вы просто возьмете видео на новом для себя языке, то вы ничего не поймете. Первый шаг к решению проблемы - смотреть видео с субтитрами на языке оригинала. Однако, когда вы еще не знаете лексику языка, такие субтитры вам не помогут. Вам нужны двойные субтитры - на языке оригинала + перевод на ваш родной язык. 

При просмотре видео с двойными субтитрами мозг начинает сопоставлять слова из двух предложений на разных языках. Это зачастую нетривиально (особенно если у языков сильно отличается грамматика), на это мозг тратит время и энергию. 

Моя идея состоит в том, чтобы выполнить эту задачу вместо мозга и отображать субтитры как на картинке выше: посередине находятся субтитры на языке оригинала, ниже — их перевод; плюс над иностранными словами подписаны соответствующие им слова из перевода. Таким образом, за время просмотра десятка подобных фильмов/мультиков, каждое слово из базовой лексики будет многократно отображено вместе со своим переводом в текущем контексте, что позволит его запомнить.

Читать далее
Всего голосов 14: ↑13 и ↓1 +12
Просмотры 3.6K
Комментарии 14

Как определять пользовательские намерения, о которых мы узнали 5 минут назад

Блог компании TINKOFF Машинное обучение *Natural Language Processing *

Привет! Меня зовут Даниил Цимерман, я R&D-инженер в NLP-отделе Тинькофф. Недавно я выступил на конференции DUMP и рассказал, как мы решали задачу определения интентов пользователей в чате в условиях быстро меняющихся запросов. Доклад можно посмотреть на Ютубе, а эта статья — его текстовая версия для читателей Хабра. Разберем, какие способы решения задачи существуют и что делать с постоянно возникающими новыми интентами. 

Читать далее
Всего голосов 15: ↑15 и ↓0 +15
Просмотры 1.6K
Комментарии 2

Зоопарк ML-моделей или лучший справочник на Хабре

Блог компании Brand Analytics Машинное обучение *Искусственный интеллект Natural Language Processing *

Привет, Хабр!

Меня зовут Ирина, я работаю ML инженером в Brand Analytics. Моя работа тесно связана с NLP, ведь мы ежедневно получаем огромное количество текстовых данных со всего интернета. Сегодня я хочу поговорить о теме, которая беспокоила меня еще с тех времен, когда я только начала изучать SOTA-решения в задачах обработки естественного языка.

Читать далее
Всего голосов 16: ↑16 и ↓0 +16
Просмотры 4K
Комментарии 5

Понимают ли нейронные модели грамматику человеческого языка?

Блог компании Unistar Digital | Юнистар Диджитал Python *Машинное обучение *Искусственный интеллект Natural Language Processing *

В лингвистике принято считать, что основным свойством языковой способности человека является возможность определять, насколько грамматически корректно предложение. Подобные суждения говорящих о правильности языкового высказывания получили название «оценок грамматичности/ приемлемости». Лингвисты используют суждения о грамматичности для исследования синтаксической структуры предложений.

Читать далее
Всего голосов 7: ↑7 и ↓0 +7
Просмотры 1.7K
Комментарии 8

Экзибит, прокачай мой трансформер или Основные идеи по улучшению модели трансформера с 2018 по 2020 год (часть 2)

Блог компании ГК ЛАНИТ Машинное обучение *Natural Language Processing *
Перевод

Представляю в блоге ЛАНИТ вторую часть моего пересказа статьи “A Survey of Transformers”, в которой приведены основные модификации архитектуры стандартного трансформера, придуманные за два года после ее появления. В первой части мы кратко вспомнили, из каких основных элементов и принципов состоит трансформер, и прошлись по различным схемам, меняющим или дополняющим механизм многоголового внимания. Целью большинства этих схем являлось преодоление квадратичной зависимости сложности вычислений от длины последовательности токенов, подающихся на вход. В этой части мы коснемся модификаций других элементов архитектуры, которые уже направлены или на улучшение способности сети извлекать больше информации из токенов, или применяются на большую длину последовательности, разделяя ее на сегменты. 

Читать далее
Всего голосов 31: ↑30 и ↓1 +29
Просмотры 1.2K
Комментарии 3

Realtime-матчинг: находим матчи за считанные минуты вместо 24 часов

Блог компании Ozon Tech Python *Обработка изображений *Машинное обучение *Natural Language Processing *
✏️ Технотекст 2022

Задача матчинга в последнее время набирает всё большую популярность и используется во многих сферах: банки матчат транзакции, маркетплейсы – товары, а Google и другие IT-гиганты проводят соревнования по решению таких задач на Kaggle.

Для маркетплейса матчинг – очень важный процесс, который решает сразу несколько задач:

1. При поисковом ранжировании из множества товаров показывать сначала самые выгодные предложения.

2. Объединять множество товаров в одну сущность и показывать предложения одного и того же товара от разных селлеров.

3. Понимать, как предложения селлеров выглядят относительно друг друга, и поощрять их дополнительными бонусами.

Сегодня мы поговорим не только о решении этой задачи, но и о способах её реализации: offline (batch) vs online (realtime). Также обсудим, как и зачем переходить от первого ко второму.

Читать далее
Всего голосов 42: ↑42 и ↓0 +42
Просмотры 6.4K
Комментарии 8

Автоматическое реферирование научных статей. Обзор работ

Блог компании Unistar Digital | Юнистар Диджитал Семантика *Natural Language Processing *

Задача автоматического реферирования научного текста формулируется следующим образом: на основе текста научной статьи и, возможно, некоторой другой информации о ней, например цитат и ссылок на эту статью, содержащихся в других работах, требуется породить с помощью алгоритмов автоматической обработки текста небольшой сжатый реферат, который при этом будет максимально точно и полно передавать основные идеи, методы и результаты, описанные в статье.

Читать далее
Всего голосов 6: ↑6 и ↓0 +6
Просмотры 835
Комментарии 0

Дистилляция BERT для задачи классификации

Машинное обучение *Искусственный интеллект Natural Language Processing *
Tutorial

Большие языковые модели это конечно хорошо, но иногда требуется использовать что-то маленькое и быстрое.

Читать далее
Всего голосов 6: ↑6 и ↓0 +6
Просмотры 1K
Комментарии 0

Распознавание речи, генерация субтитров и изучение языков при помощи Whisper

Блог компании Open Data Science Data Mining *Машинное обучение *Искусственный интеллект Natural Language Processing *
⚒️ Cезон Data Mining
Tutorial

Есть ряд платных решений по переводу речи в текст (Automatic Speech Recognition). Сравнительно малыми усилиями можно сделать свое решение, — обучить на целевых данных end2end модель (например, из фреймворка NeMo от NVIDIA) или гибридную модель типа kaldi. Сверху понадобится добавить расстановку пунктуации и денормализацию для улучшения читаемости ("где мои семнадцать лет" → "Где мои 17 лет?").

Недавно в открытый доступ была выложена мультиязычная модель whisper от OpenAI. Попробовал ее large вариант на нескольких языках и расшифровал 30 выпусков "Своей игры". Результат понравился, но есть нюансы. Модель транскрибирует тексты вместе с пунктуацией и капитализацией, расставляет временные метки, умеет генерировать субтитры и определять язык. Языков в обучающем датасете порядка ста. Чтобы прикинуть по качеству, нужно посмотреть на их распределение — данных на 100 часов и более было лишь для 30 языков, более 1000 ч. — для 16, ~10 000 часов — у 5 языков, включая русский.

Модель заслуживает внимания так как умеет делать очень много "из коробки". Давайте разберемся подробнее как она устроена и научимся ей пользоваться.

Читать далее
Всего голосов 32: ↑30 и ↓2 +28
Просмотры 5.6K
Комментарии 12

Истории

Смогут ли нейросети заменить художников, копирайтеров и журналистов?

Python *Копирайт Искусственный интеллект Natural Language Processing *

Всем привет! При создании Telegram-бота TurboText_bot и нейросетей для сервиса TurboText в тех-поддержку неоднократно приходили упрёки, что мы пытаемся отнять хлеб у людей. С публикацией недавней статьи на Хабре таких сообщений стало больше. Поэтому, как один из разработчиков "нейросетей-убийц" этих профессий, решил высказать своё мнение.

Почему вообще люди боятся, что их заменят?

Этот страх возник ещё в 1950-х, когда началось сильное индустриальное развитие. С появлением интернета и доступности алгоритмов машинного обучения этот страх начал только расти. Нейросети стали решать, кому давать кредит в банке, скидку в магазине, что должно быть в ленте новостей и рекомендациях к просмотру фильмов. Они по фотографии ваших лёгких могут предсказать наличие опухоли и Covid-19. На сегодняшний день каждый житель городов-миллионников сталкивается с более чем 1000 нейросетями за месяц, но люди по-прежнему боятся технологий. Почему?

Читать далее
Всего голосов 17: ↑10 и ↓7 +3
Просмотры 6.9K
Комментарии 81

Первый нейросетевой переводчик для эрзянского языка

Семантика *Data Mining *Машинное обучение *Искусственный интеллект Natural Language Processing *
⚒️ Cезон Data Mining

Эрзянский язык из финно-угорской семьи – один из официальных в республике Мордовия, и на нём говорят сотни тысяч людей, но для него до сих пор не было почти никаких технологий машинного перевода, кроме простых словарей.
Я попробовал создать первую нейросеть, способную переводить с эрзянского на русский (и с натяжкой ещё на 10 языков) и обратно не только слова, но и целые предложения.

Пока её качество оставляет желать лучшего, но пробовать пользоваться уже можно.
Как я собирал для этого тексты и обучал модели – под катом.

Читать далее
Всего голосов 70: ↑69 и ↓1 +68
Просмотры 7.3K
Комментарии 20

Создание интеллектуальной вопросно-ответной системы

Блог компании Unistar Digital | Юнистар Диджитал Семантика *Машинное обучение *Natural Language Processing *

В последнее время все больше крупных компаний выделяют свои ресурсы на создание искусственных диалоговых помощников (Алиса от Яндекса, Ассистенты Салют от Сбер и др). С такими системами можно, хоть и не в полной мере, поддерживать диалог. Ассистенты умеют выполнять простые команды: ставить таймер или будильник, вызывать такси, управлять умным домом. Но в то же время разработка таких систем стоит больших денег, а также ресурсов на поддержку. В большинстве своем многим предприятиям не требуется, чтобы система умела поддерживать диалог, а просто отвечала на конкретный вопрос. Аналог современных вопросно-ответных систем появился в 60-х годах XX века и назывался экспертными системами. Экспертная система включала в себя оболочку на естественном языке и позволяла задавать вопросы на узкую тематику. С развитием методов обработки естественного языка вопросно-ответные системы стало возможным выделить в отдельный класс и не акцентировать их под решение специализированной задачи. В статье описан процесс создания вопросно-ответной системы, в частности, с какими трудностями пришлось столкнуться, какие технологии использовались, и приведен реальный пример практического использования на базе поступающих заявок в Приемную комиссию МТУСИ.

Читать далее
Всего голосов 8: ↑6 и ↓2 +4
Просмотры 1.2K
Комментарии 0

15 нейросетей в один Telegram-бот: история успеха и реализация помощника для создателей контента

Python *SQL *Машинное обучение *Natural Language Processing *
Из песочницы

Всем привет! Я занимаюсь NLP в сфере Data Science и хочу поделиться результатами разработки Telegram-бота, у которого под капотом уже 15 нейросетей. Речь идёт о TurboText_bot. Он будет полезен всем, кто причастен к созданию контента. К таким можно отнести блогеров, журналистов, копирайтеров и многих других специалистов.. Даже бабушек у подъезда, ведь бот способен генерировать и обрабатывать новости.

Что удалось реализовать?

Читать далее
Всего голосов 4: ↑3 и ↓1 +2
Просмотры 15K
Комментарии 15

Искусственный интеллект в юриспруденции. Зачем он нужен и как его внедрять?

Машинное обучение *Искусственный интеллект Natural Language Processing *
✏️ Технотекст 2022

Технологии искусственного интеллекта сегодня повсеместно внедряются в бизнес-процессы компаний из самых разных секторов экономики: производство, финансы, медицина и др. Поэтому вполне логично предположить, что и юридическая сфера также в скором времени подвергнется трансформации, которая позволит по-новому взглянуть на хорошо всем известные процессы анализа документов, оценки рисков, подготовки договоров и т.п.

Мы предлагаем задуматься о том, как будут выглядеть на горизонте 3-5 лет основные бизнес-процессы юридических компаний и департаментов.

Читать далее
Всего голосов 5: ↑4 и ↓1 +3
Просмотры 2.6K
Комментарии 0

Категоризация веб-ресурсов при помощи… трансформеров?

Блог компании Ростелеком-Солар Информационная безопасность *Машинное обучение *Natural Language Processing *

Привет! Меня зовут Анвар, я аналитик данных RnD-лаборатории. Перед нашей исследовательской группой стоял вопрос проработки внедрения ИИ в сервис фильтрации веб-контента SWG-решения Solar webProxy. В этом посте я расскажу, зачем вообще нужен анализ веб-контента, почему из многообразия NLP-моделей для автоматизации решения этой задачи мы выбрали модель-трансформер. Кратко объясню, как с помощью математики взвесить смысловые отношения между словами. И, конечно, опишу, как мы приземлили веб-фильтрацию в продукт.

Читать далее
Всего голосов 9: ↑8 и ↓1 +7
Просмотры 1.5K
Комментарии 0

Вклад авторов