Comments 9
Далеко не с первого раза понял, о чем идет речь. Вообще, такое лучше описывать на примерах.
Например, так (пользуясь компаниями и разделами Вашего сайта):
Задача:
На сайт добавляется новая компания. Нужно автоматически определить рубрики, к которым ее отнести.
1) Добавляем новую компанию
Название: ООО Автодорсервис
Описание: Спецтехника и запасные части ДЗ-98, А-120, ДЗ-180, ДЗ-143, ГС-14, ДЗ-122, К-700, К-701, К-702, Т-170, Т-130, Б-10, Урал, БелАЗ, МоАЗ, ЯМЗ, КрАЗ, ДЭК-251, РДК, Автокраны
2) Определяем ключевые слова в данном описании при помощи закона Зипфа. Допустим, этими словами оказались слова: «Спецтехника» и «Автокраны».
3) Проводим поиск по каждому из этих слов в базе компаний, заполненной ранее. Отбираем 20 первых по релевантности компаний и определяем рубрики, к которым они относятся.
4) Из полученной выборки рубрик, отбираем только те, которые встречаются в этой выборке более 5 раз. Этими рубриками являются «Автомобили» и «Автозапчасти для грузовых автомобилей».
5) Отправляем нашу компанию «ООО Автодорсервис» в рубрики «Автомобили» и «Автозапчасти для грузовых автомобилей».
Например, так (пользуясь компаниями и разделами Вашего сайта):
Задача:
На сайт добавляется новая компания. Нужно автоматически определить рубрики, к которым ее отнести.
1) Добавляем новую компанию
Название: ООО Автодорсервис
Описание: Спецтехника и запасные части ДЗ-98, А-120, ДЗ-180, ДЗ-143, ГС-14, ДЗ-122, К-700, К-701, К-702, Т-170, Т-130, Б-10, Урал, БелАЗ, МоАЗ, ЯМЗ, КрАЗ, ДЭК-251, РДК, Автокраны
2) Определяем ключевые слова в данном описании при помощи закона Зипфа. Допустим, этими словами оказались слова: «Спецтехника» и «Автокраны».
3) Проводим поиск по каждому из этих слов в базе компаний, заполненной ранее. Отбираем 20 первых по релевантности компаний и определяем рубрики, к которым они относятся.
4) Из полученной выборки рубрик, отбираем только те, которые встречаются в этой выборке более 5 раз. Этими рубриками являются «Автомобили» и «Автозапчасти для грузовых автомобилей».
5) Отправляем нашу компанию «ООО Автодорсервис» в рубрики «Автомобили» и «Автозапчасти для грузовых автомобилей».
Я хотел описать общий подход к данной проблеме, а не опираться на конкретную реализацию.
У каждого свои задачи.
У каждого свои задачи.
Ну так общий подход давно известен и ничего нового в нем нет. А Вы пишете, что «Многие просили описать алгоритм», то есть интересен был именно алгоритм, который Вы применили в Вашем проекте.
А тут получается ни то, ни сё. Порог > 5, 4-й пункт и слова про погрешность относятся к Вашему проекту, а остальное общие слова.
Вам же уже в комментариях к прошлому посту говорили, что без конкретики — это просто реклама.
А тут получается ни то, ни сё. Порог > 5, 4-й пункт и слова про погрешность относятся к Вашему проекту, а остальное общие слова.
Вам же уже в комментариях к прошлому посту говорили, что без конкретики — это просто реклама.
Основные проблемы возникают, если текст ни точно сформулирован. Например: оптовые закупки. Ни понятно что, как.
Многие представители компаний, добавляя свою организацию, даже не могут точно сформулировать, чем они занимаются. Таких по нашем региону (Ярославская область) более 70%. А вы о нейронной сети говорите. Только ручная проверка сведений может дать близкий к 100% точности результат.
Ну не знаю где Вы таких находите :)
по нашим данным не более 5%
по нашим данным не более 5%
Мы таких не находим, они сами нас находят )) У нас с вами специфика разная, вот и данные разнятся.
Кстати, Яндекс тоже не использует полностью автоматизированный разбор добавляемых организаций. Слишком велика погрешность.
Кстати, Яндекс тоже не использует полностью автоматизированный разбор добавляемых организаций. Слишком велика погрешность.
Вот несколько примеров:
www.ypag.ru/cat/kompaniy981966/s644694454.html — почему бы его в полиграфические услуги не добавить? Там же в описании четко прописано: «Полиграфические услуги». Еще его можно добавить к «Компьютеры», т.к. в описании написано: «Продажа и обслуживание офисной техники, компьютеров». Еще его можно добавить в раздел «Ремонт бытовой и офисной техники», опять-такие, исходя из описания.
www.ypag.ru/cat/kompaniy989348/s1002480394.html — вместо рубрики «Программное обеспечение» их надо в «Бизнес-образование» и/или в «Информационные технологии».
И так далее.
www.ypag.ru/cat/kompaniy981966/s644694454.html — почему бы его в полиграфические услуги не добавить? Там же в описании четко прописано: «Полиграфические услуги». Еще его можно добавить к «Компьютеры», т.к. в описании написано: «Продажа и обслуживание офисной техники, компьютеров». Еще его можно добавить в раздел «Ремонт бытовой и офисной техники», опять-такие, исходя из описания.
www.ypag.ru/cat/kompaniy989348/s1002480394.html — вместо рубрики «Программное обеспечение» их надо в «Бизнес-образование» и/или в «Информационные технологии».
И так далее.
Я ж говорю, погрешность есть, но работы на много меньше, чем если исправлять все после них :)
К сожалению полностью автоматизировать нельзя да и выборку надо качественную и большую иметь.
А Я беру существующую выборку, большую часть которой делалась модераторами в ручном режиме.
От сюда и погрешность.
Если б была 100% качественная выборка — таких бы косяков было б куда меньше.
К сожалению полностью автоматизировать нельзя да и выборку надо качественную и большую иметь.
А Я беру существующую выборку, большую часть которой делалась модераторами в ручном режиме.
От сюда и погрешность.
Если б была 100% качественная выборка — таких бы косяков было б куда меньше.
Sign up to leave a comment.
Сортировка неструктурированного потока данных