Все потоки

Natural Language Processing *

Компьютерный анализ и синтез естественных языков

СтатьиПостыНовостиАвторыКомпании

Laggg 6 фев 2020 в 11:00

Материалы NLP курса от DeepPavlov

4 мин

28K

Блог компании Open Data ScienceМашинное обучение * Искусственный интеллектPython * Natural Language Processing *

В этой статье вы найдете материалы очных курсов «Deep Learning in NLP», которые запускались командой DeepPavlov в 2018-2019 годах и которые являлись частичной адаптацией Stanford NLP course — cs224n. Статья будет полезна любым специалистам, погружающимися в обработку текста с помощью машинного обучения. Благодарю физтехов, разрабатывающих открытую библиотеку для разговорного искусственного интеллекта в МФТИ, и Moryshka за разрешение осветить эту тему на Хабре в нашем ods-блоге.

Читать дальше →

+56

pgladkov 29 янв 2020 в 15:26

Простое руководство по дистилляции BERT

8 мин

28K

Блог компании AvitoTechNatural Language Processing * Python * Машинное обучение *

Если вы интересуетесь машинным обучением, то наверняка слышали про BERT и трансформеры.

BERT — это языковая модель от Google, показавшая state-of-the-art результаты с большим отрывом на целом ряде задач. BERT, и вообще трансформеры, стали совершенно новым шагом развития алгоритмов обработки естественного языка (NLP). Статью о них и «турнирную таблицу» по разным бенчмаркам можно найти на сайте Papers With Code.

С BERT есть одна проблема: её проблематично использовать в промышленных системах. BERT-base содержит 110М параметров, BERT-large — 340М. Из-за такого большого числа параметров эту модель сложно загружать на устройства с ограниченными ресурсами, например мобильные телефоны. К тому же, большое время инференса делает эту модель непригодной там, где скорость ответа критична. Поэтому поиск путей ускорения BERT является очень горячей темой.

Нам в Авито часто приходится решать задачи текстовой классификации. Это типичная задача прикладного машинного обучения, которая хорошо изучена. Но всегда есть соблазн попробовать что-то новое. Эта статья родилась из попытки применить BERT в повседневных задачах машинного обучения. В ней я покажу, как можно значительно улучшить качество существующей модели с помощью BERT, не добавляя новых данных и не усложняя модель.

Читать дальше →

+25

IgorLuzhanskiy 29 янв 2020 в 07:28

Как стать дизайнером диалогов

5 мин

3.8K

IT-стандарты * Natural Language Processing * Будущее здесьДизайн игр *

Из песочницы

Я предлагаю вам вперевод и выжимку со статьи моего пратнера Ханса ван Дама о том, как разрабатывать дизайн диалогов. Авторство статьи принадлежит Гансу. Я ему помогаю поделиться этими уникальными знаниями с будущими разработчиками и дизайнерами диалогов.

Если люди и ИИ будут жить и работать вместе, им необходимо общаться друг с другом. Именно тут в игру вступают дизайнеры диалогов.

Дизайнеры диалогов являются создателями текстов, которые помогают чат ботам и голосовым помощникам быть более полезными, естественными и убедительными. Они создают доверие между людьми и ИИ, а также способствуют тому, чтобы компании могли по-настоящему раскрыть коммуникационный потенциал ИИ. Если Вы посмотрите на сегодняшнюю технологическую среду в целом, Вы поймете, что дизайн виртуальных диалогов становится все более важной задачей. Поэтому, давайте рассмотрим те вопросы, о которых Вам стоит задуматься перед началом работы.

Ниже приведены 7 вопросов для обдумывания.

Читать дальше →

0

Rybolos 24 янв 2020 в 13:05

NeurIPS 2019: тренды ML, которые будут с нами следующее десятилетие

11 мин

7.3K

Блог компании СберNatural Language Processing * Искусственный интеллектИсследования и прогнозы в IT * Машинное обучение *

NeurIPS (Neural Information Processing Systems) – самая большая конференция в мире по машинному обучению и искусственному интеллекту и главное событие в мире deep learning.

Будем ли мы, DS-инженеры, в новом десятилетии осваивать еще и биологию, лингвистику, психологию? Расскажем в нашем обзоре.

+11

nlevashov 20 янв 2020 в 12:42

Хватит всё подряд называть ИИ

5 мин

21K

Клиентская оптимизация * Искусственный интеллектАлгоритмы * Natural Language Processing * Машинное обучение *

Хорошая новость в том, что я обнаружил много проблем. Плохая новость в том, что вы одна из них.

Большинство менеджеров и маркетологов называют искусственным интеллектом всё подряд: пылесосы, игрушечных роботов-трансформеров и даже подбор мобильных тарифов. Это в тренде и хорошо продаётся, только одна проблема — даже учёные не рискуют говорить, что создали ИИ.

Решили разобраться в определениях: можем ли мы вообще говорить об искусственном интеллекте, чем он отличается от машинного обучения и справедливо ли презрительно поднимать брови, когда мы видим очередную рекламу с ИИ.

Читать дальше →

+29

SubarYan 9 янв 2020 в 18:50

Как обучить нейронную сеть DeepPavlov на ноутбуке с использованием GPU

6 мин

16K

Natural Language Processing * Искусственный интеллект

Туториал

В этой статье я хочу поделиться своим опытом использования данной open-source библиотеки на примере реализации одной задачи с парсингом файлов PDF/DOC/DOCX содержащих резюме специалистов.

Здесь я также опишу этапы реализации инструмента для подготовки датасета. После чего можно будет обучить модель BERT на полученном датасете в рамках задачи распознавания сущностей из текстов (Named Entity Recognition – в дальнейшем NER).

Итак, с чего начать. Естественно для начала нужно установить и настроить среду для запуска нашего инструмента. Установку я буду выполнять на Windows 10.

На Хабре уже есть несколько статей от разработчиков этой библиотеки, где как раз есть подробная инструкция по установке. А в этой статье я хотел бы собрать все воедино, от запуска и до обучения модели. Также я укажу решения некоторых проблем, с которыми я столкнулся при работе с этой библиотекой.

Читать дальше →

+7

yury_chekhovich 31 дек 2019 в 07:09

Т — значит творчество

4 мин

3.2K

Блог компании «Антиплагиат»Программирование * Микросервисы * Машинное обучение * Natural Language Processing *

Пока весь мир, вместо того, чтобы ~~нарезать салаты~~ готовиться к встрече Нового года, следит за развитием ситуации с nginx, мы решили не усугублять и не готовить серьезную научную статью, не шокировать технологиями наступившего будущего и не грузить очень хитрым алгоритмом. Мы тоже пользуемся nginx и надеемся, что и с его создателями и с ним все будет хорошо. И нам (да и не только нам) важно, чтобы ситуация разрешилась не как подарок Деда Мороза, а как естественный ход событий.

А пока давайте просто подведем итоги уходящего 2019 года

+5

nlevashov 24 дек 2019 в 12:54

Почему автоматизация поддержки вредит бизнесу

5 мин

6.3K

Машинное обучение * Клиентская оптимизация * Искусственный интеллектАлгоритмы * Natural Language Processing *

Наша команда больше двух лет занимается автоматизацией клиентского сервиса. Недавно мы поняли, что подключение чат-ботов и виртуальных ассистентов не всегда идёт на пользу бизнесу.

Чтобы это увидеть, представьте такую ситуацию: вы менеджер в крупном банке, где клиентам сложно зайти в мобильное приложение — на этапе входа ломается каждый второй, потому что авторизироваться так же трудно, как осилить великую теорему Ферма. У вас есть два варианта:

Исправить процесс авторизации — нормально спроектировать экраны и положить мучениям пользователей конец. Это будет стоить от NNN рублей.
Автоматизировать саппорт — подключить виртуального ассистента, который научит клиентов пользоваться приложением. Это будет стоить от NN рублей.

Читать дальше →

+2

BarakAdama 12 дек 2019 в 07:43

Как Яндекс научил искусственный интеллект находить ошибки в новостях

7 мин

15K

Блог компании ЯндексПоисковые технологии * Машинное обучение * Искусственный интеллектNatural Language Processing *

Мы часто рассказываем о технологиях и библиотеках, которые зародились и сформировались в Яндексе. На самом деле мы ничуть не реже применяем и развиваем сторонние решения.

Сегодня я расскажу сообществу Хабра об одном из таких примеров. Вы узнаете, зачем мы научили нейросеть BERT находить опечатки в заголовках новостей, а не воспользовались готовой моделью, почему нельзя взять и запустить BERT на нескольких видеокартах и как мы использовали ключевую особенность этой технологии — механизм attention.

Читать дальше →

+35

AloneCoder 11 дек 2019 в 15:14

Индексируем миллиарды текстовых векторов

9 мин

10K

Блог компании VKNatural Language Processing * Алгоритмы * Анализ и проектирование систем * Поисковые технологии *

Перевод

При извлечении информации часто возникает задача поиска подобных фрагментов текста. В контексте поиска запрос может быть сгенерирован пользователем (например, текст, который пользователь вводит в поисковом движке) или самой системой. Часто нам нужно сопоставлять входящий запрос с уже проиндексированными запросами. В этой статье мы рассмотрим, как можно построить систему, решающую эту задачу применительно к миллиардам запросов без траты целого состояния на серверную инфраструктуру.

Читать дальше →

+49

aimydima 11 дек 2019 в 08:42

Против всех: in-app голосовые помощники

5 мин

7.3K

Блог компании Just AIРазработка мобильных приложений * Искусственный интеллектГолосовые интерфейсы * Natural Language Processing *

Вы пользуетесь каждый день голосовыми помощниками? Я — нет. Хотя разрабатываю их уже более 7-ми лет!

Такими словами открывалась девелоперская сессия нашей конференции по разговорным технологиям в Москве.

А что, собственно, не так со всеми этими «Алисами», «Марусями» и «Google Ассистентами»? Почему пользователям с ними неудобно, а бизнесу — непонятно? И какая этому всему есть open source альтернатива?

Давайте разбираться

+7

Moryshka 6 дек 2019 в 13:54

Поговорим о жизни? Команда DREAM о соревновании Alexa Prize Socialbot Challenge 3

3 мин

1.9K

Блог компании Московский физико-технический институт (МФТИ)Машинное обучение * Искусственный интеллектГолосовые интерфейсы * Natural Language Processing *

В июне этого года компания Amazon опубликовала шорт-лист конкурса Alexa Prize Socialbot Grand Challenge 3. Из 375 заявок комитет Alexa Prize отобрал 10 финалистов, в том числе единственную из России команду МФТИ. Эти счастливчики — команда DREAM. Ребята являются сотрудниками лаборатории нейронных систем и глубокого обучения МФТИ. Но как продвигается работа, и над чем трудится команда DREAM?

Слева на право: Идрис Юсупов, Диляра Баймурзина, капитан команды Юрий Куратов, Денис Кузнецов, Дмитрий Карпов, Ле Ань, руководитель Михаил Бурцев.

Читать дальше →

+6

Yermack 5 дек 2019 в 05:55

Julia и дистрибутивная семантика

17 мин

5.7K

Программирование * Машинное обучение * Искусственный интеллектNatural Language Processing * Julia *

Туториал

С момента выхода прошлой публикации в мире языка Julia произошло много интересного:

Она заняла все первые места в плане роста вспомогательных пакетов. За это я и люблю статистику — главное выбрать удобную единицу измерения, например проценты как в приведенном ресурсе
Вышла версия 1.3.0 — из самых масштабных нововведений там модернизация менеджера пакетов и появление многопоточного параллелизма
Джулия заручается поддержкой Nvidia
Американский департамент перспективных исследований в области энергетики выделил кучу денег на решение задач оптимизации

В то же время заметен рост интереса со стороны разработчиков, что выражается обильными бенчмаркингами:

Международное энергетическое агенство проверяет пакеты реализующие многомерную оптимизацию
Датасаянтисты тестят работу с GPU
Ни капли не предвзятые ребята сравнивают интеграторы для дифуров
А энтузиасты сравнивают языки на базовых задачах.

Мы же просто радуемся новым и удобным инструментам и продолжаем их изучать. Сегодняшний вечер будет посвящен текстовому анализу, поиску скрытого смысла в выступлениях президентов и генерации текста в духе Шекспира и джулиа-программиста, а на сладкое — скормим рекуррентной сети 40000 пирожков.

Читать дальше →

+8

nlevashov 3 дек 2019 в 12:40

Бот на нейросетках: как работает и учится виртуальный ассистент

12 мин

24K

Машинное обучение * Клиентская оптимизация * Искусственный интеллектАлгоритмы * Natural Language Processing *

В 2016 году на пике популярности чат-ботов наша команда делала кнопочных помощников для бизнеса. Пока не пришла мысль поинтереснее: «А что, если автоматизировать клиентскую поддержку нейронными сетями?». Нам хотелось, чтобы роботы в чатах наконец научились понимать естественный язык и стали удобными.

Потребовалось четыре математика, шесть месяцев запойной работы, один новый язык программирования и много ошибок — и мы создали конструктор, в котором каждый может собрать виртуального ассистента с ИИ.

В материале мы расскажем

Чем виртуальный ассистент отличается от обычного чат-бота
Правда ли, что виртуальные ассистенты понимают язык
Как мы научили робота понимать контекст и написали язык lialang
Проверка кейсами: как мы автоматизировали поддержку в трёх банках
Создание Lia Platform и движка для интерфейсов
Три шага: как работает платформа для сборки виртуальных ассистентов (где собрать робота может любой, даже не-программист)

Читать дальше →

+7

dingdongyouarewrong 3 дек 2019 в 08:15

Расстояние Левенштейна и поиск контролёров

9 мин

5.7K

Data Mining * Natural Language Processing * Python * VK API * Машинное обучение *

Из песочницы

Наверное, в каждом городе Беларуси, где есть троллейбусы, существуют группы ВК или чаты в Telegram, в которых люди отслеживают местоположение контролёров. В основном это делается для того, чтобы не оплатить проезд и проехать бесплатно, хотя в описании групп почти всегда есть постскриптум “Платите за проезд”.

Читать дальше →

+10

miptru 2 дек 2019 в 11:30

NLU по-русски: ELMo vs BERT

9 мин

11K

Блог компании Московский физико-технический институт (МФТИ)Natural Language Processing * Искусственный интеллектМашинное обучение *

В данной статье речь пойдет о машинном обучении как части искусственного интеллекта. ИИ во многом подразумевает под собой разговорную составляющую, ведь общение – то, что делает нас людьми. Соответственно, если мы будем делать системы, которые могут нас понимать, отвечать на наши слова, мы в какой-то степени приблизимся к разработке искусственного интеллекта. Однако это все теория на грани философии. Давайте перейдем к практике.

Читать дальше →

+2

rssdev10 15 ноя 2019 в 08:45

Julia NLP. Обрабатываем тексты

27 мин

6.4K

Julia * Natural Language Processing * Программирование *

Туториал

Анализ и обработка текстов на естественном языке является постоянно актуальной задачей, которая решалась, решается и будет решаться всеми доступными способами. На сегодня хотелось бы поговорить о средствах решения для решения этой задачи, именно, на языке Julia. Безусловно, в виду молодости языка, здесь нет столь развитых средств анализа, как, например Stanford CoreNLP, Apache OpenNLP, GATE и пр., как, например, для языка Java. Однако, даже уже разработанные библиотеки, вполне могут использоваться как для решения типовых задач, так и быть рекомендованными в качестве точки входа для студентов, которым интересна область обработки текстов. А синтаксическая простота Julia и её развитые математические средства, позволяют с лёгкостью погрузиться в задачи кластеризации и классификации текстов.

Читать дальше →

+14

just_ai 2 ноя 2019 в 10:32

Конференция Conversations: 8 часов теории и практики разговорного AI

3 мин

2.5K

Блог компании Just AIУмный домКонференцииИскусственный интеллектNatural Language Processing *

26 ноября в Москве пройдет Conversations – конференция по разговорному искусственному интеллекту для разработчиков и бизнеса. Про инструменты, кейсы, фейлы, модели монетизации, перспективы и ограничения рынка будут говорить МТС, МегаФон, Билайн, Tikkurila, Банк Открытие, Яндекс.Облако, Speech Analytics, Cardif, iPavlov, «ДоДо пицца», МФТИ и другие интересные компании (например, международное аналитическое агентство Canalys!).

В общем, если вы неравнодушны к речевой аналитике и NLU, разрабатываете скиллы для голосовых ассистентов или чатботов, изучаете диалоговые платформы, хотите прокачать себя в voice UX/UI (или просто интересуетесь индустрией conversational AI), добро пожаловать под кат! Там подробнее про хедлайнеров и промокод на покупку билета.

+4

Moryshka 24 окт 2019 в 11:06

DeepPavlov для разработчиков: #1 инструменты NLP и создания чат-ботов

5 мин

41K

Блог компании Московский физико-технический институт (МФТИ)DevOps * Natural Language Processing * Python * Искусственный интеллект

Всем привет! Мы открываем цикл статей, посвященных решению практических задач, связанных с обработкой естественного языка (Natural Language Processing или просто NLP) и созданием диалоговых агентов (чат-ботов) с помощью open-source библиотеки DeepPavlov, которую разрабатывает наша команда лаборатории Нейронных систем и глубокого обучения МФТИ. Главная цель цикла — познакомить широкий круг разработчиков с DeepPavlov и показать, как можно решать прикладные задачи NLP, не обладая при этом глубокими познаниями в Machine Learning и PhD in Mathematics.

К NLP задачам относят определение тональности текста, парсинг именованных сущностей, определение того, что хочет от вашего бота собеседник: заказать пиццу или получить справочную информацию и многое другое. Более подробно про задачи и методы NLP вы можете прочитать тут.

В этой статье мы расскажем, как запустить REST север с предобученными моделями NLP, готовыми к использованию без какой-либо дополнительной настройки или обучения.

Все статьи цикла:
1. DeepPavlov для разработчиков: #1 инструменты NLP и создания чат-ботов
2. DeepPavlov для разработчиков: #2 настройка и деплоймент

Читать дальше →

+25

Rybolos 16 окт 2019 в 11:52

Sberbank AI Journey. Как мы учили нейросеть сдавать экзамен

8 мин

7.8K

Блог компании СберNatural Language Processing * Python * Искусственный интеллектМашинное обучение *

Если вы закончили школу уже во времена ЕГЭ, то вам известно, что все задания в нём имеют набор стандартных формулировок и упорядочены по типам. С одной стороны, это облегчает подготовку к экзамену: школьник уже знает, что нужно делать в задании, даже не читая его условия. С другой, любое изменение порядка вопросов может вызвать у него проблемы. Грубо говоря, на результат начинает больше влиять то, насколько человек довёл решения до автоматизма, а не то, как он рассуждает. Экзамен становится похож на работу скрипта.

В рамках конференции AI Journey мы решили провести конкурс на разработку алгоритма, который сможет сдать экзамен не хуже человека. Участникам предоставляются тестовые варианты заданий, которые можно использовать для валидации решений и для обучения. Мы как сотрудники Сбера не можем претендовать на призовой фонд, но тем не менее попробовали решить эту задачу и хотим рассказать о том, как мы это сделали. Спойлер — аттестат мы получили.

Читать дальше →

+20

1 2 ...

54