Как стать автором
Обновить
  • по релевантности
  • по времени
  • по рейтингу

Запущен первый российский поиск по wap-ресурсам

Чулан
Компания Mail.Ru запустил бета-версию wap-поисковика. Новый сервис позволит владельцам мобильных телефонов искать информацию на русскоязычных wap-сайтах.

Технология wap-поиска — полностью собственная разработка Mail.Ru. Система изначально проектировалась для русскоязычных пользователей, что предусматривало в первую очередь полномасштабную индексацию русскоязычных wap-ресурсов и использование полноценной русской морфологии

В настоящее время поисковый движок Mail.Ru производит обработку 33 миллионов wap-документов.
Рейтинг 0
Просмотры 347
Комментарии 0

Вебальта запаслась словарями

Поисковые технологии *
Можно с уверенностью сказать, что Вебальта скоро научится понимать основные европейские языки в поиске, контекстной рекламе и других сервисах. Это связано с приобретением лицензии на использование словарей ОРФО в своих продуктах.

Словари ОРФО известны тем, что в свое время применялись в Microsoft Office и к ним приложил руку Ashmanov. В число доступных возможностей входят функции по проверке правописания и орфографии, которые наверняка будут применены при разработке.
Всего голосов 14: ↑10 и ↓4 +6
Просмотры 473
Комментарии 10

Улучшение Поиска

Habr
Претензии у меня вот в чем — на хабре ужасен поиск. Поиск не поддерживает морфологию, и найти что-либо буквально невозможно — поиск работает только на точных фразах. Кроме того, нету поиска в отдельном блоге.

Что-то уж надо сделать. Если местные власти отпишутся — буду рад.
Всего голосов 32: ↑31 и ↓1 +30
Просмотры 605
Комментарии 44

Морфологический поиск

Чулан
Точный поиск, реализуемый в базах данных это очень хорошо, когда дело касается точных фраз. Но что делать, когда среди документов есть Киевская карта но нету Карты Киева? В дело включаются языковые фильтры.Во-первых уже на лексическом уровне становится сложно оперировать с монолитным блоком текста что-бы учитывать всевозможные перестановки слов и расстояния между ними. Во-вторых, чем глубже копать в язык, тем ясней становится то, что семантический web — невероятно сложная планка для автоматических анализаторов и генераторов каких-то образов и моделей, что уж говорить про то что-бы написать RDF вручную.Морфология изучает изменение формы объектов в разных областях науки (ботанике например). Поэтому есть два пути — либо
учитывать все формы при поиске, либо вырезать корень слова и искать
только по нему. Последний способ называется stemming, отличается
быстротой, простотой и не нуждается в словарях. Именно его используют Битрикс и MS Sharepoint, Sphinx. Проблемы возникают со словами где корень изменчив (бег-бежать, расти-прирост, лев-львица). Я не буду рассказывать про стемминг, посмотрите как это реализовано php с русской морфологией. Меня больше интересуют словари. Национальный корпус русского языка приводит примерно какие характеристики могут иметься у любого слова. Теперь мы плавно подходим к пониманию того что нам необходима современная морфологическая база слов (RMU, AOT), прототип для семантической сети.

Читать дальше →
Всего голосов 22: ↑20 и ↓2 +18
Просмотры 3.1K
Комментарии 11

Live Search заговорил по-русски

Поисковые технологии *
Поисковик Microsoft Live Search научился работать с морфологией русского языка и исправлять запросы, набранные в неправильной раскладке клавиатуры и с грамматическими ошибками. В этом начинании Microsoft, конечно, выступает в роли отстающего, но движение в эту сторону определенно может принести кое-какие плоды.

Менеджер продуктов в российском представительстве Microsoft Антон Данилов говорит, что «работа над поиском велась в Редмонде при тесном сотрудничестве с российским офисом». Механизм обработки русскоязычных запросов встроен в Live Search таким образом, что доступен из любой страны, а не только из России.

В механизме учитываются связанные слова: «падежи, времена, распознается множественное/единственное число», — говорит Антон. Но переходы слов в другие формы (отглагольные прилагательные, например) сейчас не обрабатываеются.

Будут ли наработки по исправлению раскладки и анализу морфологии использованы в других продуктах Microsoft, в компании не комментируют. Но перспективы аналога Punto Switcher'a в Office рисуются очень живо.
Всего голосов 29: ↑22 и ↓7 +15
Просмотры 828
Комментарии 7

Кузявые ли бутявки, т.е. пишем морфологический анализатор на Python

Python *
Морфологический анализатор для русского языка — это что-то заумное? Программа, которая приводит слово к начальной форме, определяет падеж, находит словоформы — непонятно, как и подступиться? А на самом деле все не так и сложно. В статье — как я писал аналог mystem, lemmatizer и phpmorphy на Python, и что из этого получилось.
Читать дальше →
Всего голосов 115: ↑109 и ↓6 +103
Просмотры 48K
Комментарии 44

Гибридная реализация русской морфологии

Чулан
При создание поисковых решение одним из первых с чем приходиться сталкивать разработчику это предварительная обработка текста. Разбивка на термины, фильтрация стоп слов. Важной операцией влияющей на качество поиска на данном этапе является приведение слов к нормальной форме. Ниже приведены основные подходы к этой проблеме.
Читать дальше →
Всего голосов 17: ↑15 и ↓2 +13
Просмотры 733
Комментарии 4

Zend_Search_Lucene + PHPMorphy — это просто

Zend Framework *
Когда-то смотрел документацию по Zend_Search_Lucene. Все хорошо, все понятно. Бери и встраивай в свой сайт. Только вот ни слова там нету про то, каким образом прикрутить стеммер или морфологический анализатор к этой штуке. На деле оказалось, что подружить его, например, с PHPMorphy, очень просто.
Собственно, как это сделать — под катом.
Заметка в первую очередь будет полезна разработчикам, перед которыми проблема полнотекстового поиска на сайте еще не стояла.
Тут вы не найдете мануала по настройке Lucene или PHPMorphy — этой информации и так предостаточно в интернете.

Читать дальше →
Всего голосов 15: ↑12 и ↓3 +9
Просмотры 2.4K
Комментарии 3

Семинар Natural Language Processing — открытие сезона 2010/11

Я пиарюсь
image

В субботу 25-ого сентября 2010 в 17.00 мы открываем новый сезон семинара по автоматической обработке естественного языка. На первом заcедании этого учебного года выступит Эдуард Клышинский (Институт прикладной математики им. М.В. Келдыша РАН. Москва) с рассказом о принципах построения программного модуля морфологического анализа и синтеза для русского языка. Доклад называется «Давайте напишем морфологию».
Семинар будет транслироваться в он-лайне, позже мы выложим презентацию и видеозапись на сайт семинара.

Читать дальше →
Всего голосов 40: ↑38 и ↓2 +36
Просмотры 664
Комментарии 13

Сумбурные заметки про python и django

Python *
Накопилось несколько маленьких заметок/советов про python и django, которые на отдельные топики не тянут, поэтому публикую все сразу.

Под катом:
  • как упростить код вьюх ровно в 2 раза
  • легкий способ рисования графиков
  • почему Ian Bicking воскликнул «Cool!»
  • приложения для ВКонтакте на django за 5 минут
  • хорош ли pymorphy?
  • пара фишек насчет выкладки пакетов на pypi
  • что общего между декораторами и with-контекст-менеджерами
  • принимаем оплату на django-сайтах
  • показываем Яндекс.Карту для заданного адреса

Читать дальше →
Всего голосов 159: ↑153 и ↓6 +147
Просмотры 42K
Комментарии 37

Анализатор морфологии на автоматах

Чулан
Периодически на хабре проскакивают статьи о том, как написать программу для анализа морфологии. В основном авторы пользуются базами данных, либо стандартными структурами, такими как словари. Но это не всегда удобно. Во-первых, страдает скорость. Во-вторых, некоторые алгоритмы, такие как предсказание морфологии незнакомых слов, реализуются нетривиально.

Здесь я привожу версию, основанную на конечных автоматах, где попробую избежать данных проблем. Как это работает можно посмотреть здесь.
Читать дальше →
Всего голосов 25: ↑25 и ↓0 +25
Просмотры 3.2K
Комментарии 0

Определение части речи слов в русском тексте (POS-tagging) на Python 3

Python *Natural Language Processing *
Пусть, дано предложение “Съешьте еще этих мягких французских булок, да выпейте чаю.”, в котором нам нужно определить часть речи для каждого слова:

[('съешьте', 'глаг.'), ('еще', 'нареч.'), ('этих', 'местоим. прил.'), ('мягких', 'прил.'), ('французских', 'прил.'), ('булок', 'сущ.'), ('да', 'союз'), ('выпейте', 'глаг.'), ('чаю', 'сущ.')]

Зачем это нужно? Например, для автоматического определения тегов для блог-поста (для отбора существительных). Морфологическая разметка является одним из первых этапов компьютерного анализа текста.
Узнать, как это реализовать на Python 3
Всего голосов 82: ↑81 и ↓1 +80
Просмотры 82K
Комментарии 74

«Он видел их семью своими глазами»

Open source *

Можешь выбрать подходящую к заголовку поста картинку?





Тогда научи робота! Он тоже хочет.


Команда проекта Открытый корпус просит хабралюдей помочь разметить свободно доступный (CC-BY-SA) корпус текстов. Под катом мы расскажем о том, что такое корпус, зачем он нужен, как обстоят дела с корпусами в России и за рубежом, почему так плохо и какой у нас план.

Читать дальше →
Всего голосов 155: ↑150 и ↓5 +145
Просмотры 62K
Комментарии 116

Реализация морфологического поиска на Kohana (библиотека phpMorphy)

PHP *Kohana *
Из песочницы
Доброго времени суток, Хабрасообщество!
Недавно задался целью сделать поиск на своем сайте, написанном на Kohana Framework. Решил использовать именно морфологический поиск, т.к. считаю его более правильным (относительно полнотекстового поиска с применением LIKE). Поиски готовых модулей для Kohana с требующимся функционалом не увенчались успехом, но я нашел отличную библиотеку: phpMorphy, которая замечательно подошла для решения моих задач.
Читать дальше →
Всего голосов 15: ↑13 и ↓2 +11
Просмотры 19K
Комментарии 11

Чья морфология лучше? Яндекс vs Google

Поисковые технологии *
Бытует мнение, что русская морфология у Яндекса реализована лучше чем у Google. В этой статье я покажу, что дело обстоит ровным счетом наоборот.
image
Читать дальше →
Всего голосов 183: ↑137 и ↓46 +91
Просмотры 81K
Комментарии 72

Морфология и компьютерная лингвистика для самых маленьких

Блог компании VK Блог компании ABBYY
На Хабре уже был пост о Технопарке, и даже рассказы о курсах (1, 2), которые в нем проходят. Сегодня мы публикуем первую часть мастер-класса, который для студентов Технопарка провел Андрей Андрианов из ABBYY.

Для начала не лишним будет вспомнить, что такое морфология, а также какое отношение она имеет к лингвистике. За этим предлагаю пройти под кат к содержимому первого поста серии.
Читать дальше →
Всего голосов 72: ↑66 и ↓6 +60
Просмотры 24K
Комментарии 20

Роль морфологии в компьютерной лингвистике

Блог компании VK Блог компании ABBYY

Раньше автоматический перевод работал следующим образом:
  1. Анализировал формы слов в исходном предложении;
  2. Пытался подобрать одну из синтаксических схем исходного языка, в которую подошло бы предложение с найденными формами;
  3. Находил соответствующую синтаксическую схему для целевого языка;
  4. Находил перевод для каждой из словоформ в исходном предложении;
  5. Слова-переводы ставил в форму, необходимую для целевой синтаксической схемы.

Современные технологии пытаются пойти дальше.
Читать дальше →
Всего голосов 70: ↑68 и ↓2 +66
Просмотры 21K
Комментарии 31

Морфология. Задачи и подходы к их решению

Блог компании VK Блог компании ABBYY

В прошлой статье мы вплотную подошли к решению задачи лемматизации и выяснили, что, хотим мы этого или нет, но нам придется в том или ином виде хранить словарь со всеми словами описываемого языка.

Для русского языка это несколько сотен тысяч слов. Может быть, это не экономично, зато дает нам очень много бонусов.

Во-первых, мы можем проверить, есть ли слово в словаре. С помощью правил, основанных на регулярных выражениях, мы не выясним, есть слово «мымымымыться» в русском языке. Окончание вполне подчиняется правилам русского языка, повторение слогов – тоже не исключительный случай. Регулярное выражение это слово пропустит, но на самом деле никакого «мымымымыться» в русском языке не существует.

Другая задача, которую решает словарь, хранимый в морфологии, – это исправление ошибок. Как только мы не находим в словаре какого-то слова, зато обнаруживаем там другое слово на коротком расстоянии Левенштейна до искомого, мы принимаем решение об исправлении.
Читать дальше →
Всего голосов 81: ↑78 и ↓3 +75
Просмотры 17K
Комментарии 20

Псевдолемматизация, композиты и прочие странные словечки

Блог компании VK Блог компании ABBYY
Содержание цикла статей про морфологию

Не все задачи успели мы с вами обозреть в предыдущем посте, поэтому продолжать будем в этом.

Часто случается, что в интернете появляется какой-нибудь неологизм. Например, «затроллить». Слово «тролль» в словаре есть, но «затролля» уже нет, а, как мы выяснили ранее, приставка при разборе не отделяется от корня, так что мы понятия не имеем, что это за «затроллить» и как его изменять. Чтобы проанализировать это слово, нам придётся воспользоваться псевдолемматизацией. Для этого мы снова пользуемся так называемым обратным деревом окончаний (записанных справа налево).
Читать дальше →
Всего голосов 57: ↑56 и ↓1 +55
Просмотры 11K
Комментарии 7

Новая версия Яндекс.Браузера: поиск по странице с учетом морфологии и поддержка жестов

Блог компании Яндекс
Представляем вам новую версию Яндекс.Браузера. Наиболее интересные изменения в этой версии:

  • поиск по странице научился понимать морфологию русского языка — насколько нам известно, это первый браузер, который такой поиск поддерживает;
  • появились жесты для управления навигацией в браузере;
  • проводится эксперимент с объединением омнибокса и поисковой строки на странице поискового сервиса;
  • для закладок теперь можно включить отображение фавиконок.



Подробности
Всего голосов 163: ↑145 и ↓18 +127
Просмотры 51K
Комментарии 149
1