Как стать автором
Обновить

Комментарии 13

А можно в кратце, как работает ваш алгоритм, основанный на грамматическом подходе к поиску шаблонов сущностей в тексте?
Спасибо, что уточнили, что «в кратце» :).

Мы пошли довольно сложным путем — сделали собственную реализацию поиска неизвестных сущностей. Механизм этот опирается на то, как, обычно, упоминаются различные сущности в тексте новости. Например, в новостях пишут «заявил заместитель министра финансов России Сергей Сторчак», и можно заложиться на то, что в конструкции "заявил [должность?] [организация?] Слово1 Слово2" слова «Слово1 Слово2» — это имя и фамилия человека. Да, пришлось описать тысячи таких правил, но точность такого подхода оправдывает его сложность. Можно добиться полноты и точности порядка 90% и выше (цифра взята на основе данных News360 на этапе внедрения механизма).

Подробнее об этом можно почитать как раз в тезисе Traboulsi, 2006, если в кратце — то раздел «1.4 The Approach».

Далее здесь возникет задача разрешения омонимии среди найденных сущностей (если находится много людей с ФИО «Слово1 Слово2», то нам хочется знать, про кого из них интересно читать пользователю). Для решения этой задачи мы использовали внешние базы знаний (Freebase.com, YAGO), и контексты упоминаний в самой новости.
А для какого языка вы сделали эти тысячи правил?
Только для английского. Мы пробовали запускать систему на других языках с разными успехами, но полноценное решение есть только для английского.
То-то я запарился искать русский и немецкий
А вы пробовали использовать Open Calais?
Пробовали года три назад. Но уже тогда было сложно мириться с их ограничениями по производительности, а сейчас — тем более. Сейчас в пике семантическая платформа обрабатывает до 50 статей в секунду. Open Calais предлагает 4, при том, что они не делают разрешение омонимии. Думаю с ними можно договориться на увеличение, но даже в 10 раз, кажется, недостаточно.

Из-за этого мы не пытались исследовать их качество подробнее, хотя думаю, что оно должно быть неплохим (судя по тому, что ClearForest работали над этой системой с 1998 г.)
Проблема перенасыщения информацией решается на нескольких уровнях и в несколько этапов.

Со стороны сервиса:
1. куча различных источников — один rss-ридер, несколько представлений (новости за сегодня, новости по темам, связи и т.д.)
2. дублирование статей — определяем дату 1 поста, ищем похожие статьи (сливаем копипаст)
2.1. простой подход — по ключевым словам выводим список похожих статей, ранжируем по авторитетности издания
2.2. продвинутый подход — находим обновления, при прочтении пользователю выводим нотификацию о появление подробностей
3. парсинг статей — выкидываем «воду», ключевые слова подсвечиваем (можно в виде #хеш-тегов)
3.1 вводим в статью структуризацию — в заголовке пишем «кто», «что», «куда»… статью умещаем в 140 символов :)
3.999 сливаем все статьи в одну — остальные статьи указываем в качестве источника, самый сложный и самый продвинутый вариант
4. собираем граф — «умный» вариант тегов со связами, например ssd (тип диска) -> marvell (компания) -> nvram (технология), можно подсвечивать насколько «горячая» тема по каждому тегу
5. делаем таймлайн — при клике по тегу в графе показываем предыдущие публикации по теме и переходы на связанные темы

Со стороны клиента:
1. периодически предлагаем добавлять новые источники в зависимости от интересов — многие не знают о появлении новых ресурсов (профит: реклама и продвижение при условии качественного контента)
2. ранжирование изданий по просмотрам (на основании этого подкручиваем общий рейтинг ресурса)
3. предпочтения по просмотру «сокращенной» или «полной» статьи, по просмотру подробностей (формируем главную страницу, важные новости с описанием, неважные в список)
4. прозрачная «подписка» на теги, вывод связанных новостей по предпочтениям
5. пользовательский граф-таймлайн с учетом просмотренного контента — просмотренное можно положить в закладки, на закладке видим «обновления» по теме

Профили интересов:
Одному и тому же пользователю могут быть интересно что-то по работе, по хобби, по фану.
Сливать эту информацию в одно место — плохо, помогать автоматически разделять профили — хорошо :)

Мета информация:
Было бы круто посмотреть кого и когда покупал Google
Какие технологии применяли и от каких отказались в Sony
Какие актуальные продукты/характеристики Apple и их сравнение с другими конкурентами
Это уже аналитическая и энциклопедическая информация (и поиск в обратном порядке, чего многие «новостные» сайты не умеют) без «ручной» работы здесь не обойтись, но упростить ее реально.
news360.com/meta/apple/products с интерактивной инфографикой и быстрой подпиской — это хороший вариант привлечения новых пользователей :)
Отчасти можно попробовать решить эту проблему с помощью crowdsource с верификацией экспертами.
Что-то ваш аддон не работает. Один раз показался и всё, непонятна его функциональность, как вызвать то попап на новости?
Вы имеете ввиду, плагин для браузера? А в каком браузере вы его установили? Последние полгода мы не поддерживаем эти плагины, как раз потому что пользователям не понятно, как они работают. Удалили из маркетов, если где-то остался — косяк, удалим.

Плагин открывается автоматически когда пользователь заходит на страницу статьи на сайте СМИ, в случае, если эта новость есть у нас в базе.
в FF, предложился поставиться попап-баром сверху, как только зашел на news360.com. Ну я и подумал, что туда будет лента посылаться, что-то подобное, а его даже не видно
Скажите пожалуйста, а у вас есть API, которым можно пользоваться, или какая-нибудь другая система партнерства?
Какого-либо отлаженного процесса предоставления доступа к нашему API пока нет, но партнерам доступ предоставляем. Для получения доступа надо написать нам (info@news360.ru) письмо с описанием того, зачем вам нужно API, как вы хотите его использовать, что у вас за продукт. В общем рассказать нам что-то, чтобы нам тоже это партнерство было интересно.

Доступа к аналитическим средствам мы предоставить не можем, только к лентам новостей.
Зарегистрируйтесь на Хабре , чтобы оставить комментарий

Публикации

Истории