Все потоки

Natural Language Processing *

Компьютерный анализ и синтез естественных языков

118,66

Рейтинг

СтатьиПостыНовостиАвторыКомпании

borges 8 июл 2019 в 11:21

XLNet против BERT

3 мин

14K

Блог компании Open Data ScienceNatural Language Processing * Python * Искусственный интеллектМашинное обучение *

В конце июня коллектив из Carnegie Mellon University показал нам XLNet, сразу выложив публикацию, код и готовую модель (XLNet-Large, Cased: 24-layer, 1024-hidden, 16-heads). Это предобученная модель для решения разных задач обработки естественного языка.

В публикации они сразу же обозначили сравнение своей модели с гугловым BERT-ом. Они пишут, что XLNet превосходит BERT в большом количестве задач. И показывает в 18 задачах state-of-the-art результаты.

Читать дальше →

+37

atepeq 24 июн 2019 в 05:41

Как решить старую задачу с помощью ML на Python и .Net

16 мин

9.1K

.NET * Natural Language Processing * Python * Машинное обучение *

Туториал

Бывает, что некоторые задачи преследуют тебя много лет. Для меня такой задачей стала склейка предложений текстов, в которых жестко забит переход на новую строку, а часто еще и перенос слов. На практике, это извлеченный из PDF или с помощью OCR текст. Часто можно было встретить такие тексты на сайтах он-лайн библиотек, в архивах старых документов, которые редактировались еще DOS-редакторами. И такое форматирование очень мешает затем правильной разбивке на предложения (а с переносами — и на токены) для последующей NLP-обработки. Да и банально показать такой документ в поисковой выдаче — будет некрасиво.

Решал я эту задачу несколько раз — на Delphi, C#. Тогда это был жесткий алгоритм, где руками прописывал, например, какая может быть ширина текста, чтобы этот текст считался отформатированным "по-старому". Не всегда это срабатывало идеально, но в общем, хватало.

Читать дальше →

+7

ContentAI_Team 29 мая 2019 в 12:28

Соревнование ML-систем на лингвистическом материале. Как мы учились заполнять пропуски

10 мин

3.6K

Блог компании Content AINatural Language Processing * КонференцииМашинное обучение *

Каждый год в Москве проходит конференция "Диалог", в которой участвуют лингвисты и специалисты по анализу данных. Они обсуждают, что такое естественный язык, как научить машину его понимать и обрабатывать. В рамках конференции традиционно проводятся соревнования (дорожки) Dialogue Evaluation. В них могут участвовать как представители крупных компаний, создающих решения в области обработки естественного языка (Natural Language Processing, NLP), так и отдельные исследователи. Может показаться, что если ты простой студент, то тебе ли тягаться с системами, которые крупные специалисты больших компаний создают годами. Dialogue Evaluation — это как раз тот случай, когда в итоговой турнирной таблице простой студент может оказаться выше именитой компании.

Этот год станет уже 9-ым по счету, когда на «Диалоге» проводится Dialogue Evaluation. Каждый год количество соревнований разное. Темами для дорожек уже становились такие задачи NLP, как анализ тональности (Sentiment Analysis), разрешение лексической многозначности (Word Sense Induction), нахождение опечаток (Automatic Spelling Correction), выделение сущностей (Named Entity Recognition) и другие.

В этом году четыре группы организаторов подготовили такие дорожки:

Генерация заголовков для новостных статей.
Разрешение анафоры и кореференции.
Морфологический анализ на материале малоресурсных языков.
Автоматический анализ одного из видов эллипсиса (гэппинга).

Сегодня мы расскажем про последнюю из них: что такое эллипсис и зачем учить машину восстанавливать его в тексте, как мы создавали новый корпус, на котором можно решить эту задачу, как проходили сами соревнования и каких результатов смогли добиться участники.

Читать дальше →

+11

ContentAI_Team 22 мая 2019 в 12:34

Каким будет «Диалог» лингвистов и специалистов по анализу данных

5 мин

2.8K

Блог компании Content AIМашинное обучение * КонференцииИскусственный интеллектNatural Language Processing *

С 29 мая по 1 июня в Российском государственном гуманитарном университете (РГГУ) пройдет 25-ая международная научная конференция по компьютерной лингвистике и интеллектуальным технологиям «Диалог». О том, что такое «Диалог» и почему ABBYY его основной организатор, мы уже говорили на Хабре. В этом посте мы расскажем об основных темах конференции, ключевых спикерах, их докладах и о четырех соревнованиях по созданию систем автоматического анализа текстов в рамках Dialogue Evaluation.

Читать дальше →

+13

Shnurre 14 мая 2019 в 12:07

NLP. Основы. Техники. Саморазвитие. Часть 2: NER

19 мин

64K

Блог компании Content AINatural Language Processing * Искусственный интеллектМашинное обучение *

Первую часть статьи об основах NLP можно прочитать здесь. А сегодня мы поговорим об одной из самых популярных задач NLP – извлечении именованных сущностей (Named-entity recognition, NER) – и разберем подробно архитектуры решений этой задачи.

Читать дальше →

+15

OlNikki 9 апр 2019 в 11:27

Три проблемы сервисов для проверки английской грамматики, и можно ли их решить

4 мин

5.2K

Natural Language Processing * Информационная безопасность * Машинное обучение *

Перевод

Грамматика английского языка далеко не всегда проста, и даже самые образованные люди из числа его носителей делают ошибки. Поэтому использование специализированного софта для исправления неточностей в письменном английском кажется хорошей идеей. Ее подкрепляет довольно агрессивная реклама ведущих компаний этого рынка.

На практике все не так просто, и сегодня мы поговорим о трех главных проблемах, с которыми могут столкнуться пользователи таких сервисов. Также обсудим их возможные решения.

+18

ai_borisov 5 апр 2019 в 03:03

Как в языке сформировать существительное? Сигнал («Видел мамонта»)

9 мин

4.2K

Natural Language Processing * Искусственный интеллектМозг

Попробуем сформировать описание процесса появления новой звуковой единицы в естественном языке.

Для этого рассмотрим отдельно живущее племя. И построим цепочку ситуаций, которую необходимо совместно пережить нескольким особям этого племени, приводящую к формированию в языке нового звука.

Звук, который мы попробуем сформировать, будет тождественен фразе: "Видел мамонта".

мамонт

Читать дальше →

+5

ai_borisov 30 мар 2019 в 10:11

Разрабатываем теорию алгоритмов как проект с открытым исходным кодом

5 мин

6.7K

Искусственный интеллектАнализ и проектирование систем * Алгоритмы * Open source * Natural Language Processing *

Есть проблема:

найден полезный способ описания процессов формирования и преобразования алгоритмов,
сформирован теоретический базис этого способа
публикация в чисто-теоретическом виде (без сопровождения объяснениями и примерами) будет доступна только труженикам науки,
формирование примеров — это большой объем работы, которую целесообразно выполнять постепенно,
времени для занятия этой темой мало, совершенно не хватает двух рук, а из доступной техники — пока только смартфон,
а способ красив.

нужно много рук

Под катом попытка решения проблемы с использованием странных на первый взгляд инструментов: Android-смартфон, markdown, Epsilon Notes, динамическая книга, Termux, git, bitbucket, Хабр.

Читать дальше →

+5

avobayraray 28 мар 2019 в 10:16

Автоматизация ответов на часто задаваемые вопросы в навыке для «Алисы» с помощью библиотеки DeepPavlov

5 мин

13K

Блог компании Московский физико-технический институт (МФТИ)Natural Language Processing * Искусственный интеллектМашинное обучение *

Лаборатория нейронных систем и глубокого обучения МФТИ вот уже больше года делает DeepPavlov — открытую библиотеку для создания диалоговых систем. Она содержит набор претренированных компонент для анализа языка, с помощью которых можно эффективно решать задачи бизнеса.

Например, организовать ответы на часто задаваемые вопросы клиентов. Сделать это через колл-центр, виджет на сайте или соцсети, наняв сотрудников — дело нехитрое. Актуальная задача — оптимизировать процесс, чтобы он осуществлялся автоматически, с минимальными погрешностями, и еще и в удобном пользовательском интерфейсе. Например, в голосовом помощнике «Алиса» от «Яндекса».

В этой статье мы хотим рассказать, как эффективно решить задачу ответов на FAQ с помощью обработки естественного языка и как интегрировать решение в «Алису».

Читать дальше →

+11

Kaspersky_Lab 27 мар 2019 в 22:09

ProКонтент 2019: конференция для технических писателей и всех, кто работает с текстами

1 мин

2.1K

Блог компании «Лаборатория Касперского»Подготовка технической документации * Usability * Natural Language Processing *

Мы в каждый год устраиваем отдельную конференцию для всех, кто причастен к созданию технических текстов. В этом году она пройдет 4 апреля.

На этот раз наша конференция — особенная. И тому есть две причины. Во-первых, мы впервые пригласили внешних спикеров. От «Лаборатории Касперского» будет только два доклада, а остальные — от сотрудников компаний Intel, Positive Technologies, Logrus IT и ECommPay IT.

Читать дальше →

+7

Christina29 13 мар 2019 в 09:47

Приглашаем на неделю NLP в Яндекс

2 мин

5K

Блог компании ЯндексNatural Language Processing * Алгоритмы * Искусственный интеллектМашинное обучение *

С 26 по 29 марта в Яндексе пройдёт неделя NLP, организованная совместно Школой анализа данных и Yandex.Research. Это четырёхдневный интенсив, рассчитанный на разработчиков и исследователей, хорошо знакомых с Natural Language Processing и глубинным обучением.

Лекторы курса: Mirella Lapata, профессор Школы информатики университета Эдинбурга, и Wilker Aziz, доцент (assistant professor) Института логики, языка и вычислений университета Амстердама. Лекции будут читаться на английском языке в вечернее время.

Читать дальше →

+12

pro100olga 11 мар 2019 в 12:29

Говорит и показывает: отличается ли риторика популярных украинских политиков?

4 мин

12K

Natural Language Processing * Python * Машинное обучение * Открытые данные *

Можно ли по цитате определить, кто из политиков ее автор? Украинская НКО Vox Ukraine делает проект VoxCheck, в рамках которого проверяет высказывания наиболее рейтинговых политиков. Недавно они выложили всю базу проверенных цитат. Я как раз слушаю курсы по NLP и решила проверить, насколько точно по тексту цитаты можно определить ее автора.

Disclaimer. Эта статья написана из интереса к теме и желания опробовать изученный материал на практике, без претензий на максимально точный и детальный анализ.

Читать дальше →

+39

aimydima 7 мар 2019 в 11:13

Виртуальный Джинн на 8 марта — или как удивить своих сотрудниц в самый весенний день

5 мин

17K

Блог компании Just AINatural Language Processing * DIY или Сделай сам

Туториал

Завтра по всему миру мы будем отмечать самый женский день в году. И это прекрасно! Но это значит, что сегодня — день, когда мы поздравляем наших дорогих сотрудниц. И каждый год мы (мужская часть трудового коллектива) думаем, как бы сделать это по-особенному… Цветы, вечерний банкет — все эти милые банальности приятны, но в 21-м веке всем хочется чего-то технологичненького и современненького.

Вот мы в Just AI думали-думали и таки придумали! Под катом — уже готовый туториал, который вы тоже можете запустить прямо сейчас и превратить обычное 8 марта в море позитива!

Читать дальше →

+14

mefrill 19 фев 2019 в 11:09

Реализация моделей seq2seq в Tensorflow

20 мин

13K

Машинное обучение * Алгоритмы * Natural Language Processing * Data Mining *

Туториал

Порождение данных с помощью рекурентной нейронной сети становится все более популярным методом и находит свое применение во многих областях компьютерной науки. С начала рождения концепции seq2seq в 2014 году прошло всего пять лет, но мир увидел множество применений, начиная с классических моделей перевода и распознавания речи, и заканчивая генерацией описаний объектов на фотографиях.

С другой стороны, со временем набрала популярность библиотека Tensorflow, выпущенная компанией Google специально для разработки нейронных сетей. Естественно, разработчики Google не могли обойти стороной такую популярную парадигму как seq2seq, поэтому библиотека Tensorflow предоставляет классы для разработки в рамках этой парадигмы. Эта статья посвящена описанию данной системы классов.

Читать дальше →

+15

KarinaErzina 13 фев 2019 в 10:16

Как отличить хороший ремонт от плохого, или как мы в SRG сделали из Томита-парсера многопоточную Java-библиотеку

7 мин

3.2K

Блог компании SRGJava * Natural Language Processing * Open source * Машинное обучение *

В этой статье речь пойдет о том, как мы интегрировали разработанный Яндексом Томита-парсер в нашу систему, превратили его в динамическую библиотеку, подружили с Java, сделали многопоточной и решили с её помощью задачу классификации текста для оценки недвижимости.

Читать дальше →

+10

Shnurre 23 янв 2019 в 13:05

NLP. Основы. Техники. Саморазвитие. Часть 1

12 мин

84K

Блог компании Content AINatural Language Processing * Машинное обучение *

Содержание

NLP. Основы. Техники. Саморазвитие. Часть 2: NER

Привет! Меня зовут Иван Смуров, и я возглавляю группу исследований в области NLP в компании ABBYY. О том, чем занимается наша группа, можно почитать здесь. Недавно я читал лекцию про Natural Language Processing (NLP) в Школе глубокого обучения – это кружок при Физтех-школе прикладной математики и информатики МФТИ для старшеклассников, интересующихся программированием и математикой. Возможно, тезисы моей лекции кому-то пригодятся, поэтому поделюсь ими с Хабром.

Поскольку за один раз все объять не получится, разделим статью на две части. Сегодня я расскажу о том, как нейросети (или глубокое обучение) используются в NLP. Во второй части статьи мы сконцентрируемся на одной из самых распространенных задач NLP — задаче извлечения именованных сущностей (Named-entity recognition, NER) и разберем подробно архитектуры ее решений.

Читать дальше →

+46

IvanGolubev 2 янв 2019 в 18:41

Первая видеоигра для Алисы, или голосовой помощник как игровой контроллер

3 мин

6.2K

Разработка игр * Искусственный интеллектДизайн игр * Голосовые интерфейсы * Natural Language Processing *

На работе я занимаюсь созданием полезных навыков для Алисы, а в свободное время попробовал использовать голосового помощника для игры с друзьями, в домашней обстановке. Я уже описывал свою разработку текстовой игры для одного или двух игроков, а в этот раз делюсь опытом создания видеоигры для целой компании.

Читать дальше →

+3

FError 25 дек 2018 в 23:57

Разработка навыков для Алисы. Опыт работы с голосовыми интерфейсами, советы начинающим

9 мин

60K

Яндекс API * Умный домБудущее здесьNatural Language Processing * Интернет вещей

Всего месяц назад мы захотели попробовать себя в создании расширения для функционала Алисы — навыков. По опыту общения в чате поддержки Яндекс Диалогов сложилось впечатление что уже есть, чем поделиться с начинающими особенностями работы над голосовыми интерфейсами.

В заметке хочу рассказать свои впечатления от трех недель работы нашего детского новогоднего навыка Снегурочки и о вопросах и ответах в чате разработчиков диалогов.

Для профессионала в VUI в заметке не будет ничего нового, но дельные советы и комментарии от опытных приветствуются. Пишу впервые, прошу не судить строго.

Почему стоит обратить внимание на Алису?
Зачем все это: голос, навыки?
Как создать навык?
Общий подход и типичные ошибки.
Текущие недостатки платформы.

Читать дальше →

+13

kdenisk 25 дек 2018 в 08:40

Новогодний датасет 2018: открытая семантика русского языка

12 мин

8.6K

Natural Language Processing * Машинное обучение * Открытые данные *

Открытая семантика русского языка, об истории создания которой вы можете прочитать здесь и здесь, получила большое обновление. Мы собрали достаточное количество данных, чтобы применить поверх собранной разметки машинное обучение и построить семантическую модель языка. Что из этого получилось смотрите под катом.

Читать дальше →

+29

almiradreamer 13 дек 2018 в 14:12

Как отличить шампунь от шампиньонов, а шампуры от шампанского… Elasticsearch — поиск товаров в магазинных базах данных

10 мин

13K

Data Mining * Natural Language Processing *

Из песочницы

Задача

Одна из больших задач приложения для хранения и анализа покупок — поиск одинаковых или очень близких продуктов в базе данных, где собраны разномастные и непонятные наименования продуктов, полученные из чеков. Есть два вида входного запроса:

Специфичное название с сокращениями, которое может быть понятно только кассирам местного супермаркета, либо заядлым покупателям.
Запрос на естественном языке, введенный пользователем в поисковую строку.

Запросы первого вида, как правило, исходят из продуктов в самом чеке, когда пользователю нужно подыскать продукты подешевле. Наша задача заключается в том, чтобы подобрать максимально похожий аналог товара из чека в других магазинах поблизости. Здесь важно подобрать наиболее соответствующую марку продукта и по возможности объём.

Читать дальше →

+21

1 2 ...

63