Pull to refresh

Как Маруся отвечает на вопросы пользователей обо всём на свете

Reading time 10 min
Views 2.4K
VK corporate blog Machine learning *Voice user interfaces *

Привет, это команда ответов на вопросы Маруси. Мы все привыкли к тому, что голосовые помощники отвечают на любые вопросы. Не всегда правильно, но обычно вполне толково и с пользой. А вы когда‑нибудь задумывались, как это устроено? Сейчас расскажем на примере нашей Маруси.

Материал состоит из двух частей, это первая часть. В ней мы дадим поверхностный обзор того как устроена Маруся, локализуем место навыка «ответов на вопросы» и расскажем на концептуальном уровне, как можно решать эту задачу.

Читать далее
Total votes 24: ↑23 and ↓1 +22
Comments 23

Исследователи выяснили, что системы ИИ не различают предложения с перемешанными словами

Reading time 2 min
Views 3.5K
Machine learning *Artificial Intelligence

Исследователи из Обернского университета пришли к выводу, что многие ИИ, предназначенные для обработки естественного языка (Natural Language Processing, NLP), не замечают, когда слова в предложении перемешиваются, а его значение меняется. Это показывает, что ИИ на самом деле не понимают язык, и создает проблемы в обучении систем NLP.

Читать далее
Total votes 14: ↑13 and ↓1 +12
Comments 20

OpenAI выпустила нейросеть, которая кратко пересказывает книги

Reading time 2 min
Views 7.4K
Algorithms *Machine learning *Artificial Intelligence Natural Language Processing *

В OpenAI представили нейросеть на основе GPT-3, которая способна генерировать краткие изложения книг. Разработчики отмечают, что подобные модели нужны для контролируемого масштабирования систем искусственного интеллекта. Работа данной нейросети покажет, насколько она справляется с работой, которую. обычно выполняют люди.

Читать далее
Total votes 10: ↑10 and ↓0 +10
Comments 6

Исследование: мозг понимает язык с помощью «автокоррекции»

Reading time 2 min
Views 4.1K
Machine learning *Artificial Intelligence Brain Natural Language Processing *

Исследователи Массачусетского технологического института применили модели искусственного интеллекта для изучения того, как и почему наш мозг понимает язык. Выяснилось, что человеческий мозг может работать примерно так же, как и функция автокоррекции на смартфоне.

Читать далее
Total votes 9: ↑9 and ↓0 +9
Comments 5

Украинский стартап Grammarly оценили в $13 млрд

Reading time 1 min
Views 9.6K
Start-up development Business Models *Finance in IT Natural Language Processing *

Основанная выходцами из Украины IT-компания Grammarly, которая разработала онлайн-сервис улучшения бизнес-текстов на английском языке, привлекла еще $200 млн. Таким образом. ее общая оценка достигла $13 млрд.

Читать далее
Total votes 19: ↑18 and ↓1 +17
Comments 7

One Day Offer для Data Scientists: приглашаем экспертов в команду SberDevices

Reading time 3 min
Views 3.7K
SberDevices corporate blog Machine learning *IT career Artificial Intelligence Natural Language Processing *


Мы продолжаем встречи с соискателями в формате “One Day Offer”, в результате которых можно получить предложение работы за один день. В этот раз приглашаем датасайентистов уровня Middle+/Senior.

Всё будет происходить онлайн, 4 декабря (это выходной) с 11:00 до 20:00. Для участия нужно зарегистрироваться, отправив заявку по адресу: 1dayoffer@sberdevices.ru.

Несколько слов о SberDevices. Наша команда создаёт современные модели обработки естественного языка (Natural Language Processing), речевые технологии, алгоритмы компьютерного зрения, разрабатывает системы биометрии, модели для генерации медиаконтента и даже нейроинтерфейсы. Мы используем последние разработки в области искусственного интеллекта и машинного обучения и очень любим работать с большими генеративными моделями. Впереди у нас ещё много интересных задач!

Итак, какие же команды нанимают в этот раз:

SmartNLP Team— выстраивает core-систему обработки естественного языка. Все запросы к виртуальным ассистентам Салют проходят через неё. Наш сервис реализует весь стек технологий NLP: от предобработки текста и выделения сущностей до определения намерения пользователя и вызова соответствующего навыка. В этом нам помогают собственные разработки в области Representation Learning, Metric Learning и Natural Language Understanding. О некоторых наших подходах можно почитать здесь, здесь и здесь.
Читать дальше →
Total votes 8: ↑7 and ↓1 +6
Comments 2

DeepMind утверждает, что ее языковая модель на 280 млрд параметров превосходит аналоги в 25 раз крупнее

Reading time 3 min
Views 5.2K
Machine learning *Artificial Intelligence Natural Language Processing *

AI-лаборатория DeepMind опубликовала три исследовательские работы, посвященные возможностям больших языковых моделей. Компания пришла к выводу, что дальнейшее масштабирование этих систем должно привести к множеству улучшений.

Читать далее
Total votes 9: ↑9 and ↓0 +9
Comments 11

OpenAI заставила GPT-3 вести себя лучше и выполнять инструкции

Reading time 2 min
Views 2.5K
API *Artificial Intelligence Natural Language Processing *

OpenAI заявила, что обучила свою языковую модель GPT-3 следовать инструкциям, благодаря чему она выдает меньше нежелательного текста.

Читать далее
Total votes 8: ↑8 and ↓0 +8
Comments 1

OpenAI открыла код системы распознавания речи Whisper

Reading time 2 min
Views 1.7K
Open source *Machine learning *Artificial Intelligence Sound Natural Language Processing *

OpenAI опубликовала исходный код системы распознавания речи Whisper. Открыты код эталонной реализации на базе фреймворка PyTorch и набор уже обученных моделей для использования под лицензией MIT.

Читать далее
Total votes 4: ↑4 and ↓0 +4
Comments 4

Семинар Natural Language Processing — открытие сезона 2010/11

Reading time 2 min
Views 742
Self Promo
image

В субботу 25-ого сентября 2010 в 17.00 мы открываем новый сезон семинара по автоматической обработке естественного языка. На первом заcедании этого учебного года выступит Эдуард Клышинский (Институт прикладной математики им. М.В. Келдыша РАН. Москва) с рассказом о принципах построения программного модуля морфологического анализа и синтеза для русского языка. Доклад называется «Давайте напишем морфологию».
Семинар будет транслироваться в он-лайне, позже мы выложим презентацию и видеозапись на сайт семинара.

Читать дальше →
Total votes 40: ↑38 and ↓2 +36
Comments 13

Компьютер IBM сыграет против двух чемпионов Jeopardy!

Reading time 2 min
Views 8.5K
Artificial Intelligence
Система обработки натуральной речи и ответов на вопросы IBM DeepQA/Watson сыграет против двух чемпионов интеллектуальной телевикторины Jeopardy! (в России викторина производится по лицензии под названием «Своя игра»). Трансляция битвы умов состоится 14, 15 и 16 февраля 2011 года на канале CBS. Будет сыграно две игры.

Викторина пройдёт по стандартным правилам. Три участника соревнуются между собой в борьбе за право первым ответить на заданный вопрос. Вопросы сформулированы, как правило, в виде утверждений, где искомое слово заменено местоимением. Игроки должны догадаться, о чём идёт речь, и дать ответ.
Читать дальше →
Total votes 27: ↑25 and ↓2 +23
Comments 41

Определение части речи слов в русском тексте (POS-tagging) на Python 3

Reading time 9 min
Views 89K
Python *Natural Language Processing *
Пусть, дано предложение “Съешьте еще этих мягких французских булок, да выпейте чаю.”, в котором нам нужно определить часть речи для каждого слова:

[('съешьте', 'глаг.'), ('еще', 'нареч.'), ('этих', 'местоим. прил.'), ('мягких', 'прил.'), ('французских', 'прил.'), ('булок', 'сущ.'), ('да', 'союз'), ('выпейте', 'глаг.'), ('чаю', 'сущ.')]

Зачем это нужно? Например, для автоматического определения тегов для блог-поста (для отбора существительных). Морфологическая разметка является одним из первых этапов компьютерного анализа текста.
Узнать, как это реализовать на Python 3
Total votes 82: ↑81 and ↓1 +80
Comments 74

Семинар: языковые платформы, основанные на правилах и диалоговые AI системы

Reading time 2 min
Views 835
Self Promo
Завтра, 12 ноября 2011, в 17.00 состоится очередной семинар из цикла Автоматическая обработка естественного языка.

На семинаре будут представлены два доклада:
1. Насколько устарели языковые платформы, основанные на правилах?
2. Наш ответ Siri или построение системы диалогового AI для нового продукта i-Free

Читать дальше →
Total votes 19: ↑17 and ↓2 +15
Comments 2

Новые бесплатные онлайн курсы от Stanford

Reading time 1 min
Views 24K
Studying in IT
В начале текущего учебного года Stanford организовал 3 бесплатных онлайн курса (основаные на трёх стационарных курсах Стэнфорда): Machine learning, Artificial intelligence и Introduction to Database. Все курсы идут с видео лекциями и домашними заданиями. Для курсов Artificial intelligence и Introduction to Database предусмотрены ещё и экзамены. После успешного окончания любого из курсов будет выслан сертификат (digital-signed pdf) от преподавателя.

И вот, были анонсированы ещё несколько онлайн курсов, которые будут стартовать в январе/феврале 2012 года.

У нас есть замечательный шанс послушать некоторые знаменитые Стэнфордские курсы, записывайтесь!

Update Спасибо recky, который заметил, что добавились ещё несколько курсов. Один из CS секции — по криптографии, и два из Entrepreneurship секции:

UUpdate продолжают радовать, новый доступный курс:

Читать дальше →
Total votes 126: ↑125 and ↓1 +124
Comments 61

Онлайн курсы от Stanford University и Berkeley University на 2012 год

Reading time 1 min
Views 14K
Studying in IT
Читать дальше →
Total votes 118: ↑108 and ↓10 +98
Comments 41

Опубликована программа конференции AINL

Reading time 3 min
Views 1K
Self Promo
26 мая в субботу в Санкт-Петербурге пройдет конференция AINL: Искусственный интеллект и естественный язык. На однодневной конференции будут представленны 25 докладов ведущих специалистов в области автоматической обработки естественного языка и искусственного интлеллекта.

Программа поделена на 7 секций:
— Искусственный Интеллект
— Речевые технологии
— Управление знаниями
— Text mining
— Лингвистические технологии
— Машинный перевод
— Интернет-технологии

Основной фокус конференции: онтологическое представление знаний, диалоговые системы, речевые технологии. Будет организована он-лайн трансляция и видеозапись докладов.
У желающих выступить с постером есть еще пять дней (до 22 мая), чтобы подать заявку на участие.
Зарегистрироваться в качестве слушателя можно на сайте конференции до 23-ого мая включительно.
Участие в конференции — бесплатное.

Посмотреть подробную программу
Total votes 25: ↑24 and ↓1 +23
Comments 19

Парсим русский язык

Reading time 8 min
Views 69K
Algorithms *Natural Language Processing *

В прошлый раз (почти год назад) мы определяли части речи в русском тексте, производили морфологический анализ слов. В этой статье мы пойдем на уровень выше, к синтаксическому анализу целых предложений.

Наша цель заключается в создании парсера русского языка, т.е. программы, которая на вход бы принимала произвольный текст, а на выходе выдавала бы его синтаксическую структуру. Например, так:

"Мама мыла раму":

(предложение
    (именная гр. (сущ мама))
    (глаг. гр. (глаг мыла)
        (именная гр. (сущ раму)))
    (. .)))


Это называется синтаксическим деревом предложения. В графическом виде его можно представить следующим образом (в упрощенном виде):

Читать дальше →
Total votes 128: ↑124 and ↓4 +120
Comments 97

Обучаем компьютер чувствам (sentiment analysis по-русски)

Reading time 12 min
Views 80K
Python *Algorithms *Natural Language Processing *


Sentiment analysis (по-русски, анализ тональности) — это область компьютерной лингвистики, которая занимается изучением мнений и эмоций в текстовых документах. Недавно на хабре появилась статья про использование машинного обучения для анализа тональности, однако, она была настолько плохо составлена, что я решил написать свою версию. Итак, в этой статье я постараюсь доступно объяснить, что такое анализ тональности, и как реализовать подобную систему для русского языка.
Читать дальше →
Total votes 90: ↑85 and ↓5 +80
Comments 40

Обработка естественного языка. Полезные инструменты

Reading time 3 min
Views 8.2K
Python *Data Mining *
Sandbox
Последнее время на Хабре зачастили статьи про обработку естественного языка.
И так уж совпало, что последнее время я работаю в этой области.
Был очень хорошо освещен sentiment analysis, и теггер частей речи pymorphy.
Но мне хотелось бы рассказать, какие средства для NLP использовал я, и что я нашел нового, чего здесь еще не было
Читать дальше →
Total votes 27: ↑26 and ↓1 +25
Comments 8

«Он видел их семью своими глазами»

Reading time 6 min
Views 64K
Open source *

Можешь выбрать подходящую к заголовку поста картинку?





Тогда научи робота! Он тоже хочет.


Команда проекта Открытый корпус просит хабралюдей помочь разметить свободно доступный (CC-BY-SA) корпус текстов. Под катом мы расскажем о том, что такое корпус, зачем он нужен, как обстоят дела с корпусами в России и за рубежом, почему так плохо и какой у нас план.

Читать дальше →
Total votes 155: ↑150 and ↓5 +145
Comments 116