Все потоки

Natural Language Processing *

Компьютерный анализ и синтез естественных языков

СтатьиПостыНовостиАвторыКомпании

madrugado 15 апр 2020 в 12:28

Машинный перевод. От Холодной войны до наших дней

6 мин

5.2K

Блог компании HuaweiМашинное обучение * Искусственный интеллектNatural Language Processing * Data Mining *

Машинный перевод в последние годы получил очень широкое распространение. Наверняка, большинство моих читателей хоть раз пользовались сервисами Google.Translate или Яндекс.Перевод. Также вероятно, что многие помнят, что не так уж и давно, лет 5 назад пользоваться автоматическими переводчиками было очень непросто. Непросто в том смысле, что они выдавали перевод очень низкого качества. Под катом краткая и неполная история машинного перевода, из которой будет виден в этой задаче и некоторые его причины и последствия. А для начала картинка, которая показывает важную концепцию относительно машинного перевода:

Читать дальше →

+6

alexeyev 12 апр 2020 в 10:46

Что такое Emergent Communication и почему это нужно знать

10 мин

2.4K

Natural Language Processing * Искусственный интеллектМашинное обучение * Семантические сети *

Перевод

TL;DR: перевод поста Михаила Нуховича What is Emergent Communication and Why You Should Care: что это такое, зачем это нужно, какие есть точки зрения на задачу и перспективные направления исследований. Обучение с подкреплением, обработка естественного языка, теория игр и философия. Публикуется с любезного разрешения автора.

Вот уже два года как меня увлекла Emergent Communication (EC), по которой я теперь пишу магистерскую диссертацию. В этом году я участвую в организации семинара, благодаря которому у меня и возник интерес к этой области: Workshop on Emergent Communication на конференции NeurIPS. Планирую написать целую серию из постов об EC для широкой аудитории, чтобы помочь всем интересующимся заглянуть в эту сферу (ну и чтобы писать диссертацию было повеселее).

Читать дальше →

+2

Ogoun 8 апр 2020 в 17:50

Алгоритм обратного распространения ошибки на примере Word2Vec

9 мин

8K

Машинное обучение * Искусственный интеллектNatural Language Processing *

Перевод

Поскольку я столкнулся с существенными затруднениями в поисках объяснения механизма обратного распространения ошибки, которое мне понравилось бы, я решил написать собственный пост об обратном распространении ошибки реализовав алгоритм Word2Vec. Моя цель, — объяснить сущность алгоритма, используя простую, но нетривиальную нейросеть. Кроме того, word2vec стал настолько популярным в NLP сообществе, что будет полезно сосредоточиться на нем.

Читать дальше →

+8

Moryshka 7 апр 2020 в 13:55

Автоматизация обслуживания клиентов: An End-To-End решение от DeepPavlov

7 мин

3.8K

Блог компании Московский физико-технический институт (МФТИ)Машинное обучение * Искусственный интеллектPython * Natural Language Processing *

Сегодня мы все чаще используем приложения для обмена мгновенными сообщениями (Facebook Messenger, WhatsApp, Telegram и т. д.) и устройства в виде голосовых помощников (Amazon Echo и Google Home и т. д.), помогающих получать моментальный ответ на запрос. Поэтому современные компании закладывают значительный бюджет в разработку искусственных помощников, чтобы предоставлять своим пользователям наилучший клиентский сервис, когда это необходимо. В этой статье мы расскажем, как использовали технологию искусственного интеллекта DeepPavlov для расширения возможностей обслуживания клиентов компании Интерсвязь.

Читать дальше →

+3

introvertingCode 7 апр 2020 в 08:36

LDA на статьях LiveJournal + визуализация

3 мин

2.2K

Natural Language Processing * Python *

Как-то раз стало интересно, какие темы выделит LDA (латентное размещение Дирихле) на материалах «Живого Журнала». Как говорится, есть интерес — нет проблем.

Для начала немного про LDA на пальцах, вдаваться в математические подробности не будем (кому интересно — почитает). Итак, LDA — является одним из наиболее распространенных алгоритмов для моделирования тем. Каждый документ (будь то статья, книга или любой другой источник текстовых данных) представляет собой смесь тем, а каждая тема представляет собой смесь слов.

Картинка взята из Википедии

Читать дальше →

-1

snakers4 26 мар 2020 в 05:57

Понижаем барьеры на вход в распознавание речи

15 мин

21K

Машинное обучение * ЗвукNatural Language Processing * Big Data *

Технотекст 2020

Автоматическое распознавание речи (STT или ASR) прошло долгий путь совершенствования и имеет довольно обширную историю. Расхожим мнением является то, что лишь огромные корпорации способны на создание более-менее работающих "общих" решений, которые будут показывать вменяемые метрики качества вне зависимости от источника данных (разные голоса, акценты, домены). Вот несколько основных причин данного заблуждения:

Высокие требования к вычислительным мощностям;
Большое количество данных, необходимых для обучения;
В публикациях обычно пишут только про так называемые state-of-the-art решения, имеющие высокие показатели качества, но абсолютно непрактичные.

В данной статье мы развеем некоторые заблуждения и попробуем немного приблизить точку "сингулярности" для распознавания речи. А именно:

Расскажем, что можно достигнуть отличного результата в рамках разумного времени, используя лишь две видеокарты NVIDIA GeForce 1080 Ti;
На всякий случай еще раз представим датасет Open STT для русского языка на 20 000 часов;
Опишем различные подходы, позволяющие ускорить процесс тренировки STT на порядок.

В этой статье есть 3 основных блока — критика литературы и доступных инструментов, паттерны для проектирования своих решений и результаты нашей модели.

Читать дальше →

+21

itNews 25 мар 2020 в 11:45

Будущее уже здесь: как работают голосовые роботы и что они умеют делать

7 мин

8.6K

Блог компании Neuro.netNatural Language Processing * Голосовые интерфейсы * Искусственный интеллектМашинное обучение *

Роботизация рутинных операций, когда для решения простых и одновременно трудоемких задач используются роботы, а не люди — весьма активный тренд. Автоматизируется многое, включая телефонные разговоры с клиентами. Компания Neuro.net занимается созданием технологий, которые дают возможность улучшить возможности роботов.

В этой статье разработчики рассказывают о технологиях и нюансах распознавания пола собеседника по голосу и работе над важными элементами диалога.

+9

Rybolos 25 мар 2020 в 11:01

Как оценивать интеллект? Подход Google

13 мин

14K

Блог компании СберNatural Language Processing * Искусственный интеллектМашинное обучение * Тестирование IT-систем *

Перевод

От себя:

В ноябре 2019 года вышла программная статья от Google «Об оценке интеллекта» Франсуа Шолле (создатель Keras).
64 страницы посвящены тому, как появилось современное понимание ИИ, почему машинное обучение от него так далеко, и почему мы все еще не можем адекватно измерить «интеллект».

Чтобы отбор был честным, задание для всех одно: залезьте на дерево

Наша команда занимается NLP и общей методологией ИИ-тестов, учитывая последние тренды в универсальных трансформерах типа BERT, которые оцениваются тестами на логику и здравый смысл. Так, NLP забирает в себя все новые задачи, связанные с воспроизведением все более сложных действий и по сути отражающих механизмы мышления. Оказалось, что и другие области ML отхватили свой кусок пирога в этом направлении. Например, CV — «Animal AI Challenge».

Понятно, что сейчас “лучше” при возможности делать ML-модели более интерпретируемыми, не использовать 10 маленьких классификаторов, а тренировать одну модель, и так далее, но насколько это все-таки далеко от реального “интеллекта”?

Читать дальше →

+8

tanyVnirvane 24 мар 2020 в 10:39

Как мы учили искусственный интеллект отвечать на вопросы в поддержку. Опыт Яндекс.Такси

8 мин

24K

Блог компании ЯндексNatural Language Processing * Искусственный интеллектМашинное обучение * Разработка мобильных приложений *

Идеальных сервисов не бывает — иногда у пользователя возникают вопросы к техподдержке. Трудно сказать, что в таких случаях неприятнее — попытки сложить из шаблонных реплик бота комбинацию, способную решить проблему, или ожидание ответа специалиста, который уже полдня как вот-вот с вами свяжется.

В Яндекс.Такси из двух вариантов выбрали третий — с помощью машинного интеллекта создать техподдержку с человеческим лицом. Меня зовут Татьяна Савельева, моя группа занимается машинным обучением на неструктурированных данных. Под катом — делюсь пользовательскими инсайтами, рассказываю как автоматизировать сложный процесс, организовать работу совершенно разных команд и, конечно же, применить на практике Deep learning и технические хаки (куда без них).

Читать дальше →

+25

Aliaksei_Rudak 17 мар 2020 в 08:25

Как я заработал 1 000 000 $ без опыта и связей, а потом потратил их, чтобы сделать свой переводчик

20 мин

140K

Natural Language Processing * Искусственный интеллектМашинное обучение * Развитие стартапаРазработка мобильных приложений *

Технотекст 2020

Как все начиналось

Эта история началась 15 лет назад. Работая программистом в столице, я накапливал деньги и увольнялся, чтобы потом создавать собственные проекты. Для экономии средств уезжал домой, в небольшой родной город, где работал над сайтом для студентов, программой для торговли, играми для мобильных телефонов. Но из-за отсутствия опыта ведения бизнеса это не приносило дохода, и вскоре проекты закрывались. Приходилось снова ехать в столицу и устраиваться на работу. Эта история повторилась несколько раз.

Когда у меня в очередной раз закончились деньги, наступил кризис. Я не смог найти работу, ситуация стала критической. Пришло время посмотреть на все вещи трезвым взглядом. Нужно было честно признаться себе, что я не знаю, какие ниши выбрать для бизнеса. Создавать проекты, которые просто нравятся, — путь в никуда.

Читать дальше →

+211

AlexKay28 15 мар 2020 в 15:50

FastText: рецепт работы по коду

11 мин

18K

Natural Language Processing * Машинное обучение * Программирование * Социальные сети

Из песочницы

Доброго времени суток, друзья! Представляю вашему вниманию любительский перевод оригинальной статьи: FastText: stepping through the code автора Maria Mestre.

Небольшое предупреждение: часть представленной информации может оказаться не полностью верной в силу течения времени и случайных ошибок автора. В любом случае, любой фидбек будет желательным!

Возможно Вам доводилось встречаться с таким инструментом как FastText для векторизации ваших корпусов текстов, но знали ли вы что FastText так же может заниматься и их классификацией? А может и знали, но знали ли как он это делает? Давайте же посмотрим на него изнутри… в смысле, через экран.

Библиотека FastText, в первую очередь, была разработан командой Facebook для классификации текстов, но так же может быть использована для обучения эмбедингов слов. С того момента, когда FastText стал продуктом доступным для всех (2016 г.), он получил широкое применение по причине хорошей скорости тренировки и отличной работоспособности.

Читать дальше →

0

Islanna 5 мар 2020 в 17:50

Нормализация текста в задачах распознавания речи

4 мин

13K

Natural Language Processing * Open source * ЗвукМашинное обучение *

Из песочницы

При решении задач, связанных с распознаванием (Speech-To-Text) и генерацией (Text-To-Speech) речи важно, чтобы транскрипт соответствовал тому, что произнёс говорящий — то есть реально устной речи. Это означает, что прежде чем письменная речь станет нашим транскриптом, её нужно нормализовать.

Другими словами, текст нужно провести через несколько этапов:

Замена числа прописью: 1984 год -> тысяча девятьсот восемьдесят четвёртый год;
Расшифровка сокращений: 2 мин. ненависти -> две минуты ненависти;
Транскрипция латиницы: Orwell -> Оруэлл и т.д.

Normalization

В этой статье я коротко расскажу о том, как развивалась нормализация в датасете русской речи Open_STT, какие инструменты использовались и о нашем подходе к задаче.

Как вишенка на торте, мы решили выложить наш нормализатор на базе seq2seq в открытый доступ: ссылка на github. Он максимально прост в использовании и вызывается одним методом:

norm = Normalizer()
result = norm.norm_text('С 9 до 11 котики кушали whiskas')

>>> 'С девяти до одиннадцати котики кушали уискас'

Читать дальше →

+29

madrugado 2 мар 2020 в 13:35

Курс Natural Language Processing (обработка естественного языка)

2 мин

11K

Блог компании HuaweiData Mining * Natural Language Processing * Искусственный интеллектМашинное обучение *

Всем привет!

UPD. 04.03.2020: Удалось договориться о записи лекций. Для первой лекции будет организована трансляция.

Huawei Russian Research Institute (Huawei RRI) в рамках программы взаимодействия с ведущими российскими университетами (МФТИ, МГУ, МГТУ им. Н. Э. Баумана) представляет открытый курс “Natural Language Processing” или “Обработка естественного языка”, который пройдет на площадке московского корпуса Физтеха.

Читать дальше →

+8

cointegrated 26 фев 2020 в 16:44

Хакатон в Симферополе, Яндекс.Диалоги и законы чат-бото-техники

6 мин

2K

Яндекс API * ХакатоныNatural Language Processing *

1 февраля в Симферополе прошёл хакатон по разработке навыков для Алисы. Местные фронтенд-разработчики взялись его организовать, а Яндекс предоставил место. Несмотря на то, что участники создавали голосовые интерфейсы впервые, за день было создано больше десятка работающих прототипов, и некоторые из них даже опубликовались.

В этом посте мы приводим примеры навыков, которые можно сделать за несколько часов, и рассказываем какой подход лежит в их основе. Хотим, чтобы было больше навыков полезных и разных. Погнали.

На фотографии пара участников хакатона и затылок Сегаловича

Читать дальше →

-2

cointegrated 24 фев 2020 в 06:56

Как сжать модель fastText в 100 раз

12 мин

23K

Data Mining * Natural Language Processing * Python * Алгоритмы * Машинное обучение *

Модель fastText — одно из самых эффективных векторных представлений слов для русского языка. Однако её прикладная польза страдает из-за внушительных (несколько гигабайт) размеров модели. В этой статье мы показываем, как можно уменьшить модель fastText с 2.7 гигабайт до 28 мегабайт, не слишком потеряв в её качестве (3-4%). Спойлер: квантизация и отбор признаков работают хорошо, а матричные разложения — не очень. Также мы публикуем пакет на Python для этого сжатия и примеры компактной модели для русских слов.

Читать дальше →

+40

Moryshka 18 фев 2020 в 07:04

Прорывы #DeepPavlov в 2019 году: обзор и итоги года

9 мин

5.7K

Блог компании Московский физико-технический институт (МФТИ)Машинное обучение * Искусственный интеллектГолосовые интерфейсы * Natural Language Processing *

Когда еще один плодотворный год подходит к концу, хочется оглянуться назад, подвести итоги и показать, что мы смогли сделать за это время. Библиотеке #DeepPavlov, на минуточку, уже два года, и мы рады, что наше сообщество с каждым днем растет.

За год работы над библиотекой мы достигли:

Скачивания библиотеки возросли на треть по сравнению с прошлым годом. Сейчас у DeepPavlov более 100 тысяч установок и более 10 тысяч установок контейнеров.
Увеличилось количество коммерческих решений за счет state-of-art технологий, реализованных в DeepPavlov, в разных отраслях от ритейла до промышленности.
Вышел первый релиз DeepPavlov Agent.
Количество активных участников сообщества возросло в 5 раз.
Наша команда студентов и аспирантов была отобрана для участия в Alexa Prize Socialbot Grand Challenge 3.
Библиотека стала призером конкурса от компании Google «Powered by TensorFlow Challenge».

Что же помогло достичь таких результатов и почему DeepPavlov — это лучший открытый источник для построения разговорного AI? Расскажем в нашей статье.

Читать дальше →

+21

Leo_Gan 17 фев 2020 в 02:40

Null проблема в Data Science и Machine Learning

3 мин

5.9K

Data Engineering * Natural Language Processing * Алгоритмы * Машинное обучение * Семантические сети *

Существующее определение Null в Data Science сильно ограничено. Приложив немножко усилий? мы значительно улучшим обработку данных, ранее попадаемых в Null.

Читать дальше →

+6

madrugado 11 фев 2020 в 14:04

Natural Language Processing. Итоги 2019 и тренды на 2020

5 мин

8.7K

Блог компании HuaweiМашинное обучение * Искусственный интеллектNatural Language Processing * Data Mining *

Всем привет. С некоторым запозданием я решил опубликовать эту статью. Каждый год я стараюсь подвести итоги произошедшего в области обработки естественного языка (natural language processing). Не стал исключением и этот год.

BERTs, BERTs are everywhere

Начнем по порядку. Если вы не уехали в глухую Сибирскую тайгу или отпуск на Гоа на последние полтора года, то вы наверняка слышали слово BERT. Появившись в самом конце 2018-ого за прошедшее время эта модель завоевала такую популярность, что в самый раз будет вот такая картинка:

+29

ContentAI_Team 6 фев 2020 в 11:51

Как NLP-технологии ABBYY научились мониторить новости и управлять рисками

8 мин

4.9K

Блог компании Content AINatural Language Processing * Искусственный интеллектУправление проектами *

Круг задач, которые можно решить с помощью технологий ABBYY, пополнился еще одной интересной возможностью. Мы обучили свой движок работе банковского андеррайтера – человека, который из гигантского потока новостей вылавливает события о контрагентах и оценивает риски.

Сейчас такие системы на базе технологий ABBYY используют уже несколько крупных российских банков. Мы хотим рассказать о нюансах внедрения этого решения – довольно нетривиальных и неожиданных вызовах, с которыми столкнулись наши онтоинженеры.

Читать дальше →

+11

Laggg 6 фев 2020 в 11:00

Материалы NLP курса от DeepPavlov

4 мин

27K

Блог компании Open Data ScienceNatural Language Processing * Python * Искусственный интеллектМашинное обучение *

В этой статье вы найдете материалы очных курсов «Deep Learning in NLP», которые запускались командой DeepPavlov в 2018-2019 годах и которые являлись частичной адаптацией Stanford NLP course — cs224n. Статья будет полезна любым специалистам, погружающимися в обработку текста с помощью машинного обучения. Благодарю физтехов, разрабатывающих открытую библиотеку для разговорного искусственного интеллекта в МФТИ, и Moryshka за разрешение осветить эту тему на Хабре в нашем ods-блоге.

Читать дальше →

+56

1 2 ...

51