Pull to refresh
  • by relevance
  • by date
  • by rating

Исследователи выяснили, что системы ИИ не различают предложения с перемешанными словами

Machine learning *Artificial Intelligence

Исследователи из Обернского университета пришли к выводу, что многие ИИ, предназначенные для обработки естественного языка (Natural Language Processing, NLP), не замечают, когда слова в предложении перемешиваются, а его значение меняется. Это показывает, что ИИ на самом деле не понимают язык, и создает проблемы в обучении систем NLP.

Читать далее
Total votes 14: ↑13 and ↓1 +12
Views 3.1K
Comments 19

OpenAI выпустила нейросеть, которая кратко пересказывает книги

Algorithms *Machine learning *Artificial Intelligence Natural Language Processing *

В OpenAI представили нейросеть на основе GPT-3, которая способна генерировать краткие изложения книг. Разработчики отмечают, что подобные модели нужны для контролируемого масштабирования систем искусственного интеллекта. Работа данной нейросети покажет, насколько она справляется с работой, которую. обычно выполняют люди.

Читать далее
Total votes 10: ↑10 and ↓0 +10
Views 4K
Comments 6

Семинар Natural Language Processing — открытие сезона 2010/11

Self Promo
image

В субботу 25-ого сентября 2010 в 17.00 мы открываем новый сезон семинара по автоматической обработке естественного языка. На первом заcедании этого учебного года выступит Эдуард Клышинский (Институт прикладной математики им. М.В. Келдыша РАН. Москва) с рассказом о принципах построения программного модуля морфологического анализа и синтеза для русского языка. Доклад называется «Давайте напишем морфологию».
Семинар будет транслироваться в он-лайне, позже мы выложим презентацию и видеозапись на сайт семинара.

Читать дальше →
Total votes 40: ↑38 and ↓2 +36
Views 664
Comments 13

Компьютер IBM сыграет против двух чемпионов Jeopardy!

Artificial Intelligence
Система обработки натуральной речи и ответов на вопросы IBM DeepQA/Watson сыграет против двух чемпионов интеллектуальной телевикторины Jeopardy! (в России викторина производится по лицензии под названием «Своя игра»). Трансляция битвы умов состоится 14, 15 и 16 февраля 2011 года на канале CBS. Будет сыграно две игры.

Викторина пройдёт по стандартным правилам. Три участника соревнуются между собой в борьбе за право первым ответить на заданный вопрос. Вопросы сформулированы, как правило, в виде утверждений, где искомое слово заменено местоимением. Игроки должны догадаться, о чём идёт речь, и дать ответ.
Читать дальше →
Total votes 27: ↑25 and ↓2 +23
Views 4.3K
Comments 41

Определение части речи слов в русском тексте (POS-tagging) на Python 3

Python *Natural Language Processing *
Пусть, дано предложение “Съешьте еще этих мягких французских булок, да выпейте чаю.”, в котором нам нужно определить часть речи для каждого слова:

[('съешьте', 'глаг.'), ('еще', 'нареч.'), ('этих', 'местоим. прил.'), ('мягких', 'прил.'), ('французских', 'прил.'), ('булок', 'сущ.'), ('да', 'союз'), ('выпейте', 'глаг.'), ('чаю', 'сущ.')]

Зачем это нужно? Например, для автоматического определения тегов для блог-поста (для отбора существительных). Морфологическая разметка является одним из первых этапов компьютерного анализа текста.
Узнать, как это реализовать на Python 3
Total votes 82: ↑81 and ↓1 +80
Views 82K
Comments 74

Семинар: языковые платформы, основанные на правилах и диалоговые AI системы

Self Promo
Завтра, 12 ноября 2011, в 17.00 состоится очередной семинар из цикла Автоматическая обработка естественного языка.

На семинаре будут представлены два доклада:
1. Насколько устарели языковые платформы, основанные на правилах?
2. Наш ответ Siri или построение системы диалогового AI для нового продукта i-Free

Читать дальше →
Total votes 19: ↑17 and ↓2 +15
Views 752
Comments 2

Новые бесплатные онлайн курсы от Stanford

Studying in IT
В начале текущего учебного года Stanford организовал 3 бесплатных онлайн курса (основаные на трёх стационарных курсах Стэнфорда): Machine learning, Artificial intelligence и Introduction to Database. Все курсы идут с видео лекциями и домашними заданиями. Для курсов Artificial intelligence и Introduction to Database предусмотрены ещё и экзамены. После успешного окончания любого из курсов будет выслан сертификат (digital-signed pdf) от преподавателя.

И вот, были анонсированы ещё несколько онлайн курсов, которые будут стартовать в январе/феврале 2012 года.

У нас есть замечательный шанс послушать некоторые знаменитые Стэнфордские курсы, записывайтесь!

Update Спасибо recky, который заметил, что добавились ещё несколько курсов. Один из CS секции — по криптографии, и два из Entrepreneurship секции:

UUpdate продолжают радовать, новый доступный курс:

Читать дальше →
Total votes 126: ↑125 and ↓1 +124
Views 13K
Comments 61

Онлайн курсы от Stanford University и Berkeley University на 2012 год

Studying in IT
image
image

Complex Systems

Computer Science


Entrepreneurship

Medicine

Civil Engineering

Electrical Engr.


Читать дальше →
Total votes 118: ↑108 and ↓10 +98
Views 7.1K
Comments 41

Опубликована программа конференции AINL

Self Promo
26 мая в субботу в Санкт-Петербурге пройдет конференция AINL: Искусственный интеллект и естественный язык. На однодневной конференции будут представленны 25 докладов ведущих специалистов в области автоматической обработки естественного языка и искусственного интлеллекта.

Программа поделена на 7 секций:
— Искусственный Интеллект
— Речевые технологии
— Управление знаниями
— Text mining
— Лингвистические технологии
— Машинный перевод
— Интернет-технологии

Основной фокус конференции: онтологическое представление знаний, диалоговые системы, речевые технологии. Будет организована он-лайн трансляция и видеозапись докладов.
У желающих выступить с постером есть еще пять дней (до 22 мая), чтобы подать заявку на участие.
Зарегистрироваться в качестве слушателя можно на сайте конференции до 23-ого мая включительно.
Участие в конференции — бесплатное.

Посмотреть подробную программу
Total votes 25: ↑24 and ↓1 +23
Views 924
Comments 19

Парсим русский язык

Algorithms *Natural Language Processing *

В прошлый раз (почти год назад) мы определяли части речи в русском тексте, производили морфологический анализ слов. В этой статье мы пойдем на уровень выше, к синтаксическому анализу целых предложений.

Наша цель заключается в создании парсера русского языка, т.е. программы, которая на вход бы принимала произвольный текст, а на выходе выдавала бы его синтаксическую структуру. Например, так:

"Мама мыла раму":

(предложение
    (именная гр. (сущ мама))
    (глаг. гр. (глаг мыла)
        (именная гр. (сущ раму)))
    (. .)))


Это называется синтаксическим деревом предложения. В графическом виде его можно представить следующим образом (в упрощенном виде):

Читать дальше →
Total votes 128: ↑124 and ↓4 +120
Views 67K
Comments 97

Обучаем компьютер чувствам (sentiment analysis по-русски)

Python *Algorithms *Natural Language Processing *


Sentiment analysis (по-русски, анализ тональности) — это область компьютерной лингвистики, которая занимается изучением мнений и эмоций в текстовых документах. Недавно на хабре появилась статья про использование машинного обучения для анализа тональности, однако, она была настолько плохо составлена, что я решил написать свою версию. Итак, в этой статье я постараюсь доступно объяснить, что такое анализ тональности, и как реализовать подобную систему для русского языка.
Читать дальше →
Total votes 90: ↑85 and ↓5 +80
Views 74K
Comments 40

Обработка естественного языка. Полезные инструменты

Python *Data Mining *
Sandbox
Последнее время на Хабре зачастили статьи про обработку естественного языка.
И так уж совпало, что последнее время я работаю в этой области.
Был очень хорошо освещен sentiment analysis, и теггер частей речи pymorphy.
Но мне хотелось бы рассказать, какие средства для NLP использовал я, и что я нашел нового, чего здесь еще не было
Читать дальше →
Total votes 27: ↑26 and ↓1 +25
Views 7.7K
Comments 8

«Он видел их семью своими глазами»

Open source *

Можешь выбрать подходящую к заголовку поста картинку?





Тогда научи робота! Он тоже хочет.


Команда проекта Открытый корпус просит хабралюдей помочь разметить свободно доступный (CC-BY-SA) корпус текстов. Под катом мы расскажем о том, что такое корпус, зачем он нужен, как обстоят дела с корпусами в России и за рубежом, почему так плохо и какой у нас план.

Читать дальше →
Total votes 155: ↑150 and ↓5 +145
Views 62K
Comments 116

pymorphy2

Python *Algorithms *Natural Language Processing *
В далеком 2009 году на хабре уже была статья "Кузявые ли бутявки.." про pymorphy — морфологический анализатор для русского языка на Python (штуковину, которая умеет склонять слова, сообщать информацию о части речи, падеже и т.д.)

В 2012м я начал потихоньку делать pymorphy2 (github, bitbucket) — думаю, самое время представить эту библиотеку тут: pymorphy2 может работать в сотни раз быстрее, чем pymorphy (втч без использования C/C++ расширений) и при этом требовать меньше памяти; там лучше словари, лучше качество разбора, лучше поддержка буквы ё, проще установка и более «честный» API. Из негатива — не все возможности pymorphy сейчас реализованы в pymorphy2.

Эта статья о том, как pymorphy2 создавался (иногда с довольно скучными техническими подробностями), и сколько глупостей я при этом наделал; если хочется просто все попробовать, то можно почитать документацию.

Читать дальше →
Total votes 103: ↑100 and ↓3 +97
Views 66K
Comments 42

Mathlingvo — блог о компьютерной лингвистике

Self Promo
Natural Language Processing — область, которая становится все популярнее и популярнее в Росссии. Но отдельных ресурсов, посвященных этой теме, в рунете практически нет. Полгода назад на Хабре представляли NLPub, каталог ресурсов по компьютерной лингвистике. Но что делать, если хочешь читать новости? Можно попробовать начать с блога mathlingvo.ru

image

Читать дальше →
Total votes 29: ↑27 and ↓2 +25
Views 4.7K
Comments 8

RuSSIR 2013: VII летняя школа по информационному поиску

Высшая школа ИТИС КФУ corporate blog Search engines *
16–20 сентября 2013 года в Казани пройдет VII Российская летняя школа по информационному поиску (RuSSIR 2013).

Её организуют Казанский Федеральный Университет (КФУ) и Российский семинар по Оценке Методов Информационного Поиска (РОМИП) при участии Яндекса, Mail.ru, Google и ABBYY.

Главной темой школы в этом году будет поиск и обработка аудиоинформации. Рабочий язык — английский.



Основная программа состоит из 7 курсов:

Voice and Music Information Retrieval:
  • Spoken Content Retrieval: Challenges, Techniques and Applications — Gareth Jones (Dublin City University)
  • Content- and Context-based Music Similarity and Retrieval — Markus Schedl & Peter Knees (University of Linz)
  • Query by Singing/Humming and Audio Fingerprinting as Two Successful Paradigms of Music Information Retrieval — Jyh-Shing Roger Jang (Taiwan University)
  • Adaptivity in Audio and Music Retrieval — Andreas Nürnberger & Sebastian Stober (OVG University Magdeburg)

General Information retrieval:

Участие в школе бесплатное, но количество мест ограничено.
Как попасть?
Total votes 33: ↑33 and ↓0 +33
Views 6.9K
Comments 6

Извлечение объектов и фактов из текстов в Яндексе. Лекция для Малого ШАДа

Яндекс corporate blog Algorithms *Natural Language Processing *
В докладе рассказывается о том, как мы извлекаем сущности (например, имена людей и географические названия) из текстов и запросов. А также об извлечении фактов, т.е. связей между объектами. Мы рассмотрим несколько подходов к решению этих задач: формулирование правил, составление словарей всевозможных объектов, машинное обучение.

Лекция рассчитана на старшеклассников — студентов Малого ШАДа, но и взрослые смогут с ее помощью восполнить некоторые пробелы.

http://video.yandex.ru/users/e1coyot/view/4/
Конспект лекции
Total votes 77: ↑71 and ↓6 +65
Views 38K
Comments 23

Что такое Томита-парсер, как Яндекс с его помощью понимает естественный язык, и как вы с его помощью сможете извлекать факты из текстов

Яндекс corporate blog Open source *
Мечта о том, чтобы машина понимала человеческий язык, завладела умами еще когда компьютеры были большими, а их производительность – маленькой. Главная проблема на пути к этому заключается в том, что грамматика и семантика естественных языков слабо поддаются формализации. Кроме того, от языков программирования их отличает присутствие многозначности.

Конечно, мечта о полноценной коммуникации с компьютером на естественном языке пока еще далека от полноценной реализации примерно настолько же, как и мечта об искусственном интеллекте. Однако некоторые результаты есть уже сейчас: машину можно научить находить нужные объекты в тексте на естественном языке, находить между ними связи и представлять необходимые данные в формализованном виде для дальнейшей обработки. В Яндексе уже достаточно давно применяется такая технология. Например, если вам придет письмо с предложением о встрече в определенном месте и в определенное время, специальный алгоритм самостоятельно извлечет нужные данные и предложит внести ее в календарь.

image

Вскоре мы планируем отдать эту технологию в open source, чтобы любой мог пользоваться ей и развивать ее, приближая тем самым светлое будущее свободного общения между человеком и компьютером. Подготовка к открытию исходных кодов уже началась, но процесс этот не такой быстрый, как нам бы хотелось, и, скорее всего, продлится до конца этого года. За это время мы постараемся как можно больше рассказать о своем продукте, для чего запускаем серию постов, в рамках которой расскажем об устройстве инструмента и принципах работы с ним.

Называется технология Томита-парсер, и по большому счету, любой желающий может воспользоваться ей уже сейчас: бинарные файлы доступны для скачивания. Однако прежде чем пользоваться технологией, нужно научиться ее правильно готовить.
Читать дальше →
Total votes 154: ↑148 and ↓6 +142
Views 83K
Comments 78

Какому языку можно научиться, задавая вопросы поисковой системе? Семинар в Яндексе

Яндекс corporate blog Search engines *Algorithms *
Языки, на которых пользователи интернет-поиска составляют свои поисковые запросы, появились на наших глазах. Лексически они слабо отличимы от более привычных нам языков, например, русского или английского, и в начале своего существования совпадали с родительскими языками. Но языки поисковых запросов быстро отошли от родительских и обзавелись собственными наборами идиом, синтаксисом и даже особыми «частями речи». Небольшой размер и простота их грамматик, а также возможность изучать полное множество высказываний, порожденных на таких языках, делают их идеальными модельными объектами для тестирования моделей усвоения языка.

Я провел небольшое исследование того языка запросов, на котором пользователи обращаются к поиску Яндекса, и на его основе подготовил доклад. Как это часто бывает, вопросов осталось больше чем ответов. Однако результаты получились достаточно интересными.



Хотелось бы также поблагодарить Елену Грунтову за одну из основных идей для исследования и помощь в подготовке доклада.
Конспект доклада
Total votes 74: ↑64 and ↓10 +54
Views 23K
Comments 8

Как использовать Томита-парсер в своих проектах. Практический курс

Яндекс corporate blog Open source *Natural Language Processing *
Tutorial

Привет, меня зовут Наталья, я работаю в Яндексе разработчиком в группе извлечения фактов. Весной мы рассказали о том, что такое Томита-парсер и для чего он используется в Яндексе. А уже этой осенью исходники парсера будут выложены в открытый доступ.

В предыдущем посте мы пообещали рассказать, как пользоваться парсером и о синтаксисе его внутреннего языка. Именно этому и посвящен мой сегодняшний рассказ.





Прочитав этот пост, вы узнаете, как составляются словари и грамматики для Томиты, а также, как извлекать с их помощью факты из текстов на естественном языке. Та же информация доступна в формате небольшого видеокурса.

Читать дальше →
Total votes 75: ↑72 and ↓3 +69
Views 42K
Comments 8