Как стать автором
Обновить
10
0
Ypag @Ypag

Пользователь

Отправить сообщение

Сортировка неструктурированного потока данных

Время на прочтение1 мин
Количество просмотров1.1K
В прошлой статье Я писал как мы на YPAG.RU сортируем компании по разделам с помощью нейронной сети.
Многие просили описать алгоритм. Я опишу универсальный подход для сортировки данных.

1. Нужно проанализировать добавленный текст и определить в нем ключевые слова. Есть много алгоритмов для определения ключевых слов, Я использовал законы Зипфа, кстати по этой теме мне пришлось писать дипломный проект.

2. После определению ключевых слов нужно сделать релевантный поиск по этим ключевым словам по базе уже структурированных документов.

3. Отбираются 20 самых релевантных документов и строится по ним рейтинг разделов. После этого отбираются самые популярные разделы из этой выборки. Этот порог настраивается сугубо индивидуально, у нас стоит порог – больше 5.

4 У нас на YPAG.RU еще назначается позиция документа в разделе. Позиция вычисляется следующим образом: определяются позиции найденных документов раздела и вычисляется средняя позиция. Если компания интересует посетителей – позиция постепенно растет.

Таким образом можно эффективно структурировать данные. Погрешность составляет 3-5%.
Основные проблемы возникают, если текст ни точно сформулирован. Например: оптовые закупки. Ни понятно что, как.
Всего голосов 11: ↑7 и ↓4+3
Комментарии9

Какие будут справочные системы в будущем?

Время на прочтение2 мин
Количество просмотров669
Я являюсь создателем бизнес-справочника YPAG.RU, хотел бы осветить данную отрасль, рассказать недостатки и преимущества их, в какую сторону они будут развиваться.
Ни для кого, ни секрет, что классические бумажные бизнес справочники ушли в историю, с ними было трудно работать, сложно находить нужную информацию, они были громоздкие. На смену им пришли электронные справочники такие как КОМПАСС и Интернет справочники. Основной недостаток этих справочников доступ к актуальным данным. Любая большая справочная система требует постоянно проверку актуальности данных. Для это нужно иметь большой штат работников, регулярно обзванивать все компании, запрашивать корректные данные. Это очень дорогое удовольствие, бизнес справочных систем не имеет высокой рентабельности, по этому данные практические всех справочных систем имеют около 30% устаревшей информации.
Читать дальше →
Всего голосов 14: ↑9 и ↓5+4
Комментарии8

Вирусами могут разрушить бизнес

Время на прочтение1 мин
Количество просмотров430
Хочу Вам рассказать про случай, который произошел в начале этой недели с моим проектом YPAG.RU (по посещаемости сопоставим с желтыми страницами Yell.ru)

image

данные Google Trends

В справочнике есть раздел бесплатных тендеров http://www.ypag.ru/tenders/, на который можно подписаться и получать рассылки, в которых информируется о новых тендерах. Услуга пользуется популярностью и имеет большую базу подписчиков.

Вечером стали приходить жалобы, что мы рассылаем нашим подписчикам спам, сразу приходит по 100-200 писем на один ящик одного содержания. В письмах ссылки ведут на наши тендеры. Дизайн и оформление рассылки полностью слизано с нашей рассылки. В тот день робот рассылок не делал. Сразу стало понятно, что акция направлена.на уничтожение имиджа проекта.

Стали разбираться, у одного из наших администраторов нашли Троян. Он ни какими известными антивирусами ни определялся. У нас есть хороший системщик, он его расковырял – Троян цепляет только пароли администратора сервера (BD, cron (ни чего другого его не интересовало)). Как он к нему попал, сложно представить. Админ толковый и тупо прислать ему письмо – «Посмотри тут девки» не пройдет. Пытались разобраться кто получатель, отправка идет на буржуйский почтовик mail2web.com. Понятно что с них добиться какой-то информации не реально.

Спамили 5 дней!!!

В базе осталось 5% подписчиков!!!

Вот так можно убить бизнес за 5 дней, который строился несколько лет!
Всего голосов 56: ↑40 и ↓16+24
Комментарии32

Опять Мастерхост радует своей стабильностъю

Время на прочтение1 мин
Количество просмотров395
В очередной раз полетела внешка Мастерхоста.
На Украине ни один сайт Мастерхоста не открывается, даже 1tv.ru
Честно говоря, терпению когда-то приходит конец.
Присоветуйте приличный и стабильный хостинг.
Всего голосов 16: ↑5 и ↓11-6
Комментарии13

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность