Comments 10
Сам занимался похожим, но решил задачу по-другому: брал новостные сайты (там тексты уже размечены человеком :) ), достаточно пары тройки крупных сайтов для нескольких десятков тысяч текстов.
+1
А о каком виде разметки идет речь? Ключевые слова являются ссылками на другие ресурсы, или же это встраиваемая в сайт разметка, которую тот же гугл предлагает в целях «правильной интерпретации информации»?
0
z использовал ту штуку, которая, например, на ленте называется «рубрика» (то есть каждая статья отнесена к политике, экономике, спорту и т.п.), ее можно получить как просто качая статьи из категорий, и так же она есть непосредственно в html разметке страницы статьи
0
Если у вас была цель сделать качественную выборку большого объема, плюс сделать это быстро и просто — вы выбрали наиболее правильный вариант)
Мне не удалось в полной мере отразить свою задумку в статье, но подход у меня был скорее исследовательский, чем направленный на извлечение практической пользы
Я хотел бы сделать нечто универсальное, дабы минимизировать участие человека в составлении выборки
Мне не удалось в полной мере отразить свою задумку в статье, но подход у меня был скорее исследовательский, чем направленный на извлечение практической пользы
Я хотел бы сделать нечто универсальное, дабы минимизировать участие человека в составлении выборки
0
Я не думаю, что эта выборка является качественной, она не репрезентативна в том плане, что по факту используется ограниченное число авторов текстов (журналисты сайтов, их сравнительно мало), из-за чего могут быть ошибки связанные с «обучился на стиль», а по поводу участия человека, так его тут нет, только запуск программы.
0
От вас да — только написание алгоритма и запуск программы, но ведь статьи до вас кто-то рубрицировал, те же самые журналисты в вашем случае. Я говорю о том, что мне было интересно, как поведет себя модель, обученная на смешанных и относительно непредсказуемых данных (я не знаю всех алгоритмов, которые использует гугл для оценки релевантности выдачи и ранжирования, могу догадываться о некоторых).
0
Хотел было написать про googlecl, но он, оказывается, всё. Зато нашёл пакет duckduckgo для одноименного поисковика (есть в репозитории Fedora). По-видимому, не первой свежести проект, но работает. Исходник здесь.
Скрытый текст
$ duckduckgo cat
WWW::DuckDuckGo HTTP request failed: 501 Protocol scheme 'https' is not supported (LWP::Protocol::https not installed) at /usr/share/perl5/vendor_perl/WWW/DuckDuckGo.pm line 116.
WWW::DuckDuckGo Can't access https://api.duckduckgo.com/ falling back to: http://api.duckduckgo.com/ at /usr/share/perl5/vendor_perl/WWW/DuckDuckGo.pm line 117.
Cat (disambiguation)
Related Topics:
- Cat A small, typically furry, domesticated, and carnivorous mammal. They are often called house...
https://duckduckgo.com/Cat
- Cat ZinganoAn American mixed martial artist who competes in the UFC. On April 13, 2013, she became the first...
https://duckduckgo.com/Cat_Zingano
- Cat Stevens A British singer-songwriter, multi-instrumentalist, humanitarian, and education philanthropist.
https://duckduckgo.com/Cat_Stevens
$
0
Могу также порекомендовать GoogleScrapper для извлечения ссылок, заголовков и сниппетов из поисковой выдачи. Хотя свой корпус новостных текстов собирал так же как и Kwent, кроулер ходил по рубрикам крупных новостных сайтов, а newspaper делал всю остальную работу.
Если можно в двух словах, что будете использовать непосредственно для классификации текстов?
Если можно в двух словах, что будете использовать непосредственно для классификации текстов?
+1
Sign up to leave a comment.
Простой метапоисковый алгоритм на Python