Все потоки

Natural Language Processing *

Компьютерный анализ и синтез естественных языков

134,38

Рейтинг

СтатьиПостыНовостиАвторыКомпании

tanyVnirvane 24 мар 2020 в 10:39

Как мы учили искусственный интеллект отвечать на вопросы в поддержку. Опыт Яндекс.Такси

8 мин

25K

Блог компании ЯндексРазработка мобильных приложений * Машинное обучение * Искусственный интеллектNatural Language Processing *

Идеальных сервисов не бывает — иногда у пользователя возникают вопросы к техподдержке. Трудно сказать, что в таких случаях неприятнее — попытки сложить из шаблонных реплик бота комбинацию, способную решить проблему, или ожидание ответа специалиста, который уже полдня как вот-вот с вами свяжется.

В Яндекс.Такси из двух вариантов выбрали третий — с помощью машинного интеллекта создать техподдержку с человеческим лицом. Меня зовут Татьяна Савельева, моя группа занимается машинным обучением на неструктурированных данных. Под катом — делюсь пользовательскими инсайтами, рассказываю как автоматизировать сложный процесс, организовать работу совершенно разных команд и, конечно же, применить на практике Deep learning и технические хаки (куда без них).

Читать дальше →

+25

Aliaksei_Rudak 17 мар 2020 в 08:25

Как я заработал 1 000 000 $ без опыта и связей, а потом потратил их, чтобы сделать свой переводчик

20 мин

145K

Разработка мобильных приложений * Развитие стартапаМашинное обучение * Искусственный интеллектNatural Language Processing *

Технотекст 2020

Как все начиналось

Эта история началась 15 лет назад. Работая программистом в столице, я накапливал деньги и увольнялся, чтобы потом создавать собственные проекты. Для экономии средств уезжал домой, в небольшой родной город, где работал над сайтом для студентов, программой для торговли, играми для мобильных телефонов. Но из-за отсутствия опыта ведения бизнеса это не приносило дохода, и вскоре проекты закрывались. Приходилось снова ехать в столицу и устраиваться на работу. Эта история повторилась несколько раз.

Когда у меня в очередной раз закончились деньги, наступил кризис. Я не смог найти работу, ситуация стала критической. Пришло время посмотреть на все вещи трезвым взглядом. Нужно было честно признаться себе, что я не знаю, какие ниши выбрать для бизнеса. Создавать проекты, которые просто нравятся, — путь в никуда.

Читать дальше →

+211

AlexKay28 15 мар 2020 в 15:50

FastText: рецепт работы по коду

11 мин

22K

Natural Language Processing * Машинное обучение * Программирование * Социальные сети

Из песочницы

Доброго времени суток, друзья! Представляю вашему вниманию любительский перевод оригинальной статьи: FastText: stepping through the code автора Maria Mestre.

Небольшое предупреждение: часть представленной информации может оказаться не полностью верной в силу течения времени и случайных ошибок автора. В любом случае, любой фидбек будет желательным!

Возможно Вам доводилось встречаться с таким инструментом как FastText для векторизации ваших корпусов текстов, но знали ли вы что FastText так же может заниматься и их классификацией? А может и знали, но знали ли как он это делает? Давайте же посмотрим на него изнутри… в смысле, через экран.

Библиотека FastText, в первую очередь, была разработан командой Facebook для классификации текстов, но так же может быть использована для обучения эмбедингов слов. С того момента, когда FastText стал продуктом доступным для всех (2016 г.), он получил широкое применение по причине хорошей скорости тренировки и отличной работоспособности.

Читать дальше →

0

Islanna 5 мар 2020 в 17:50

Нормализация текста в задачах распознавания речи

4 мин

15K

Машинное обучение * ЗвукOpen source * Natural Language Processing *

Из песочницы

При решении задач, связанных с распознаванием (Speech-To-Text) и генерацией (Text-To-Speech) речи важно, чтобы транскрипт соответствовал тому, что произнёс говорящий — то есть реально устной речи. Это означает, что прежде чем письменная речь станет нашим транскриптом, её нужно нормализовать.

Другими словами, текст нужно провести через несколько этапов:

Замена числа прописью: 1984 год -> тысяча девятьсот восемьдесят четвёртый год;
Расшифровка сокращений: 2 мин. ненависти -> две минуты ненависти;
Транскрипция латиницы: Orwell -> Оруэлл и т.д.

Normalization

В этой статье я коротко расскажу о том, как развивалась нормализация в датасете русской речи Open_STT, какие инструменты использовались и о нашем подходе к задаче.

Как вишенка на торте, мы решили выложить наш нормализатор на базе seq2seq в открытый доступ: ссылка на github. Он максимально прост в использовании и вызывается одним методом:

norm = Normalizer()
result = norm.norm_text('С 9 до 11 котики кушали whiskas')

>>> 'С девяти до одиннадцати котики кушали уискас'

Читать дальше →

+29

madrugado 2 мар 2020 в 13:35

Курс Natural Language Processing (обработка естественного языка)

2 мин

12K

Блог компании HuaweiМашинное обучение * Искусственный интеллектNatural Language Processing * Data Mining *

Всем привет!

UPD. 04.03.2020: Удалось договориться о записи лекций. Для первой лекции будет организована трансляция.

Huawei Russian Research Institute (Huawei RRI) в рамках программы взаимодействия с ведущими российскими университетами (МФТИ, МГУ, МГТУ им. Н. Э. Баумана) представляет открытый курс “Natural Language Processing” или “Обработка естественного языка”, который пройдет на площадке московского корпуса Физтеха.

Читать дальше →

+8

cointegrated 26 фев 2020 в 16:44

Хакатон в Симферополе, Яндекс.Диалоги и законы чат-бото-техники

6 мин

2.1K

Natural Language Processing * ХакатоныЯндекс API *

1 февраля в Симферополе прошёл хакатон по разработке навыков для Алисы. Местные фронтенд-разработчики взялись его организовать, а Яндекс предоставил место. Несмотря на то, что участники создавали голосовые интерфейсы впервые, за день было создано больше десятка работающих прототипов, и некоторые из них даже опубликовались.

В этом посте мы приводим примеры навыков, которые можно сделать за несколько часов, и рассказываем какой подход лежит в их основе. Хотим, чтобы было больше навыков полезных и разных. Погнали.

На фотографии пара участников хакатона и затылок Сегаловича

Читать дальше →

-2

cointegrated 24 фев 2020 в 06:56

Как сжать модель fastText в 100 раз

12 мин

24K

Машинное обучение * Алгоритмы * Python * Natural Language Processing * Data Mining *

Модель fastText — одно из самых эффективных векторных представлений слов для русского языка. Однако её прикладная польза страдает из-за внушительных (несколько гигабайт) размеров модели. В этой статье мы показываем, как можно уменьшить модель fastText с 2.7 гигабайт до 28 мегабайт, не слишком потеряв в её качестве (3-4%). Спойлер: квантизация и отбор признаков работают хорошо, а матричные разложения — не очень. Также мы публикуем пакет на Python для этого сжатия и примеры компактной модели для русских слов.

Читать дальше →

+40

Moryshka 18 фев 2020 в 07:04

Прорывы #DeepPavlov в 2019 году: обзор и итоги года

9 мин

6.1K

Блог компании Московский физико-технический институт (МФТИ)Машинное обучение * Искусственный интеллектГолосовые интерфейсы * Natural Language Processing *

Когда еще один плодотворный год подходит к концу, хочется оглянуться назад, подвести итоги и показать, что мы смогли сделать за это время. Библиотеке #DeepPavlov, на минуточку, уже два года, и мы рады, что наше сообщество с каждым днем растет.

За год работы над библиотекой мы достигли:

Скачивания библиотеки возросли на треть по сравнению с прошлым годом. Сейчас у DeepPavlov более 100 тысяч установок и более 10 тысяч установок контейнеров.
Увеличилось количество коммерческих решений за счет state-of-art технологий, реализованных в DeepPavlov, в разных отраслях от ритейла до промышленности.
Вышел первый релиз DeepPavlov Agent.
Количество активных участников сообщества возросло в 5 раз.
Наша команда студентов и аспирантов была отобрана для участия в Alexa Prize Socialbot Grand Challenge 3.
Библиотека стала призером конкурса от компании Google «Powered by TensorFlow Challenge».

Что же помогло достичь таких результатов и почему DeepPavlov — это лучший открытый источник для построения разговорного AI? Расскажем в нашей статье.

Читать дальше →

+21

Leo_Gan 17 фев 2020 в 02:40

Null проблема в Data Science и Machine Learning

3 мин

6.1K

Data Engineering * Natural Language Processing * Алгоритмы * Машинное обучение * Семантические сети *

Существующее определение Null в Data Science сильно ограничено. Приложив немножко усилий? мы значительно улучшим обработку данных, ранее попадаемых в Null.

Читать дальше →

+6

madrugado 11 фев 2020 в 14:04

Natural Language Processing. Итоги 2019 и тренды на 2020

5 мин

8.9K

Блог компании HuaweiМашинное обучение * Искусственный интеллектNatural Language Processing * Data Mining *

Всем привет. С некоторым запозданием я решил опубликовать эту статью. Каждый год я стараюсь подвести итоги произошедшего в области обработки естественного языка (natural language processing). Не стал исключением и этот год.

BERTs, BERTs are everywhere

Начнем по порядку. Если вы не уехали в глухую Сибирскую тайгу или отпуск на Гоа на последние полтора года, то вы наверняка слышали слово BERT. Появившись в самом конце 2018-ого за прошедшее время эта модель завоевала такую популярность, что в самый раз будет вот такая картинка:

+29

ContentAI_Team 6 фев 2020 в 11:51

Как NLP-технологии ABBYY научились мониторить новости и управлять рисками

8 мин

5.1K

Блог компании Content AIУправление проектами * Искусственный интеллектNatural Language Processing *

Круг задач, которые можно решить с помощью технологий ABBYY, пополнился еще одной интересной возможностью. Мы обучили свой движок работе банковского андеррайтера – человека, который из гигантского потока новостей вылавливает события о контрагентах и оценивает риски.

Сейчас такие системы на базе технологий ABBYY используют уже несколько крупных российских банков. Мы хотим рассказать о нюансах внедрения этого решения – довольно нетривиальных и неожиданных вызовах, с которыми столкнулись наши онтоинженеры.

Читать дальше →

+11

Laggg 6 фев 2020 в 11:00

Материалы NLP курса от DeepPavlov

5 мин

28K

Блог компании Open Data ScienceNatural Language Processing * Python * Искусственный интеллектМашинное обучение *

В этой статье вы найдете материалы очных курсов «Deep Learning in NLP», которые запускались командой [DeepPavlov](https://deeppavlov.ai/) в 2018-2019 годах. Статья будет полезна любым специалистам, погружающимися в обработку текста с помощью машинного обучения. Благодарю физтехов, разрабатывающих [открытую библиотеку](https://github.com/deepmipt/DeepPavlov) для разговорного искусственного интеллекта в МФТИ, и Moryshka за разрешение осветить эту тему на Хабре в нашем ods-блоге.

![](https://habrastorage.org/webt/5n/q8/bh/5nq8bhxq5aa1k-eezwelagrrb0g.png)

Читать дальше →

+56

pgladkov 29 янв 2020 в 15:26

Простое руководство по дистилляции BERT

8 мин

29K

Блог компании AvitoTechNatural Language Processing * Python * Машинное обучение *

Если вы интересуетесь машинным обучением, то наверняка слышали про BERT и трансформеры.

BERT — это языковая модель от Google, показавшая state-of-the-art результаты с большим отрывом на целом ряде задач. BERT, и вообще трансформеры, стали совершенно новым шагом развития алгоритмов обработки естественного языка (NLP). Статью о них и «турнирную таблицу» по разным бенчмаркам можно найти на сайте Papers With Code.

С BERT есть одна проблема: её проблематично использовать в промышленных системах. BERT-base содержит 110М параметров, BERT-large — 340М. Из-за такого большого числа параметров эту модель сложно загружать на устройства с ограниченными ресурсами, например мобильные телефоны. К тому же, большое время инференса делает эту модель непригодной там, где скорость ответа критична. Поэтому поиск путей ускорения BERT является очень горячей темой.

Нам в Авито часто приходится решать задачи текстовой классификации. Это типичная задача прикладного машинного обучения, которая хорошо изучена. Но всегда есть соблазн попробовать что-то новое. Эта статья родилась из попытки применить BERT в повседневных задачах машинного обучения. В ней я покажу, как можно значительно улучшить качество существующей модели с помощью BERT, не добавляя новых данных и не усложняя модель.

Читать дальше →

+25

IgorLuzhanskiy 29 янв 2020 в 07:28

Как стать дизайнером диалогов

5 мин

3.8K

Дизайн игр * Будущее здесьNatural Language Processing * IT-стандарты *

Из песочницы

Я предлагаю вам вперевод и выжимку со статьи моего пратнера Ханса ван Дама о том, как разрабатывать дизайн диалогов. Авторство статьи принадлежит Гансу. Я ему помогаю поделиться этими уникальными знаниями с будущими разработчиками и дизайнерами диалогов.

Если люди и ИИ будут жить и работать вместе, им необходимо общаться друг с другом. Именно тут в игру вступают дизайнеры диалогов.

Дизайнеры диалогов являются создателями текстов, которые помогают чат ботам и голосовым помощникам быть более полезными, естественными и убедительными. Они создают доверие между людьми и ИИ, а также способствуют тому, чтобы компании могли по-настоящему раскрыть коммуникационный потенциал ИИ. Если Вы посмотрите на сегодняшнюю технологическую среду в целом, Вы поймете, что дизайн виртуальных диалогов становится все более важной задачей. Поэтому, давайте рассмотрим те вопросы, о которых Вам стоит задуматься перед началом работы.

Ниже приведены 7 вопросов для обдумывания.

Читать дальше →

0

Rybolos 24 янв 2020 в 13:05

NeurIPS 2019: тренды ML, которые будут с нами следующее десятилетие

11 мин

7.3K

Блог компании СберNatural Language Processing * Искусственный интеллектИсследования и прогнозы в IT * Машинное обучение *

NeurIPS (Neural Information Processing Systems) – самая большая конференция в мире по машинному обучению и искусственному интеллекту и главное событие в мире deep learning.

Будем ли мы, DS-инженеры, в новом десятилетии осваивать еще и биологию, лингвистику, психологию? Расскажем в нашем обзоре.

+11

nlevashov 20 янв 2020 в 12:42

Хватит всё подряд называть ИИ

5 мин

21K

Машинное обучение * Клиентская оптимизация * Искусственный интеллектАлгоритмы * Natural Language Processing *

Хорошая новость в том, что я обнаружил много проблем. Плохая новость в том, что вы одна из них.

Большинство менеджеров и маркетологов называют искусственным интеллектом всё подряд: пылесосы, игрушечных роботов-трансформеров и даже подбор мобильных тарифов. Это в тренде и хорошо продаётся, только одна проблема — даже учёные не рискуют говорить, что создали ИИ.

Решили разобраться в определениях: можем ли мы вообще говорить об искусственном интеллекте, чем он отличается от машинного обучения и справедливо ли презрительно поднимать брови, когда мы видим очередную рекламу с ИИ.

Читать дальше →

+29

SubarYan 9 янв 2020 в 18:50

Как обучить нейронную сеть DeepPavlov на ноутбуке с использованием GPU

6 мин

16K

Natural Language Processing * Искусственный интеллект

Туториал

В этой статье я хочу поделиться своим опытом использования данной open-source библиотеки на примере реализации одной задачи с парсингом файлов PDF/DOC/DOCX содержащих резюме специалистов.

Здесь я также опишу этапы реализации инструмента для подготовки датасета. После чего можно будет обучить модель BERT на полученном датасете в рамках задачи распознавания сущностей из текстов (Named Entity Recognition – в дальнейшем NER).

Итак, с чего начать. Естественно для начала нужно установить и настроить среду для запуска нашего инструмента. Установку я буду выполнять на Windows 10.

На Хабре уже есть несколько статей от разработчиков этой библиотеки, где как раз есть подробная инструкция по установке. А в этой статье я хотел бы собрать все воедино, от запуска и до обучения модели. Также я укажу решения некоторых проблем, с которыми я столкнулся при работе с этой библиотекой.

Читать дальше →

+7

yury_chekhovich 31 дек 2019 в 07:09

Т — значит творчество

4 мин

3.2K

Блог компании «Антиплагиат»Программирование * Микросервисы * Машинное обучение * Natural Language Processing *

Пока весь мир, вместо того, чтобы ~~нарезать салаты~~ готовиться к встрече Нового года, следит за развитием ситуации с nginx, мы решили не усугублять и не готовить серьезную научную статью, не шокировать технологиями наступившего будущего и не грузить очень хитрым алгоритмом. Мы тоже пользуемся nginx и надеемся, что и с его создателями и с ним все будет хорошо. И нам (да и не только нам) важно, чтобы ситуация разрешилась не как подарок Деда Мороза, а как естественный ход событий.

А пока давайте просто подведем итоги уходящего 2019 года

+5

nlevashov 24 дек 2019 в 12:54

Почему автоматизация поддержки вредит бизнесу

5 мин

6.3K

Natural Language Processing * Алгоритмы * Искусственный интеллектКлиентская оптимизация * Машинное обучение *

Наша команда больше двух лет занимается автоматизацией клиентского сервиса. Недавно мы поняли, что подключение чат-ботов и виртуальных ассистентов не всегда идёт на пользу бизнесу.

Чтобы это увидеть, представьте такую ситуацию: вы менеджер в крупном банке, где клиентам сложно зайти в мобильное приложение — на этапе входа ломается каждый второй, потому что авторизироваться так же трудно, как осилить великую теорему Ферма. У вас есть два варианта:

Исправить процесс авторизации — нормально спроектировать экраны и положить мучениям пользователей конец. Это будет стоить от NNN рублей.
Автоматизировать саппорт — подключить виртуального ассистента, который научит клиентов пользоваться приложением. Это будет стоить от NN рублей.

Читать дальше →

+2

BarakAdama 12 дек 2019 в 07:43

Как Яндекс научил искусственный интеллект находить ошибки в новостях

7 мин

15K

Блог компании ЯндексNatural Language Processing * Искусственный интеллектМашинное обучение * Поисковые технологии *

Мы часто рассказываем о технологиях и библиотеках, которые зародились и сформировались в Яндексе. На самом деле мы ничуть не реже применяем и развиваем сторонние решения.

Сегодня я расскажу сообществу Хабра об одном из таких примеров. Вы узнаете, зачем мы научили нейросеть BERT находить опечатки в заголовках новостей, а не воспользовались готовой моделью, почему нельзя взять и запустить BERT на нескольких видеокартах и как мы использовали ключевую особенность этой технологии — механизм attention.

Читать дальше →

+35

1 2 ...

61