Pull to refresh

Comments 69

И вот он, век SEO-технологий: в правой колонке в рейтинге запросов «секс» — на 12-м месте, «порно» — на 15-м. :)
А вообще вы молодец, я думаю та же Nigma приблизительно так же начинала. Да и подобный поиск как решение для небольшого интернет-портала по-моему самое то.
по поводу запросов «клубнички» — их гораздо больше, я их просто регулярно чищу, чтобы не превратить в порно-поисковик )
так уж сложилось, что именно про это запросы очень часто попадаются
Даешь качественный порно-поисковик!


Один мальчик видел в столовке котлеты.
— А ну, — думает, — попробую вылепить котлету сам!?
Из чего делают котлеты он не знал. Не знал он и о том, что повара не скрывают, из чего сделаны котлеты. И сделал он котлеты из говна.
— Опа! — подумал мальчик, — а котлета-то как настоящая вышла!
Обрадовался он и стал их лепить всё больше и больше. И радовался, что у его их о-о-очень много.

А окружающие разделились на две группы.

Первые — хвалили мальчика:
— Лепи-лепи, очень похоже получается.

Вторые — читали кулинарные книги; и пока мальчик лепил котлетки из говна, становились первоклассными поварами. Но про них мальчик так и не узнал.

Всё лепил и лепил он свои котлетки.

В этой истории все были счастливы.

Кстати, история создания нигмы — не секрет. И нигма начиналась не так.
Действительно, не надо ничего пытаться сделать самому, не нужно пытаться, нужно жрать, что дают.
Пусть автор делает то, что делает. Это его эксперименты. Он ведь не упер код Яндекса и не выдал его за свою принципиально новую (с) поисковую систему.
Да я не об этом!

Как раз надо действовать! Не надо тратить время на автошколу! — сразу за руль! Надо экспериментировать! Нажимать разные педали! Крутить баранку! Не теряйте время на учёбу! Сразу по газам! Так вы уедете дальше, чем те, кто месяцами учат педали!

А если кроме шуток, то логика ваша меня просто потрясает. Значит либо делаем очертя голову непонятно что. Либо не пытаемся ничего делать вообще. Вариант «подумать» вы даже не рассматриваете. Сразу резать! Семь раз отмеряют только трусы! Так по-вашему? Потрясающая логика!
А кому мешают эксперименты автора? Его эксперименты как-то угрожают вашей жизни? Он занял ваш сервер?
При чём тут я? Обо мне не было ни слова. Они мешают только автору. И если принять во внимание тот факт, что его жизнь конечна, то они угрожают его жизни.
Возможно, он будет более счастлив, чем вы :)
Теория без практики бессильна. И лично по-моему все начинается именно с практики. Уже после, упершись в первую серьезную преграду, можно начинать читать книжки, и потом с начать по новой с новыми подходами и знаниями. В противном случае есть шанс просто бросить все дело, устав читать теорию. Программирование это весело, не думаю что имеет смысл лишать себя удовольствия только ради того чтобы делать все «методологически правильно».
Конечно! Лучший план:
1) Покупаем машину, — и сразу за руль! Пару старушек переедем! Машину в лепёшку! Автолюбительство «это весело»! Нет смысла «лишать себя удовольствия»!
2) После того, как первая машина сдана в утиль, садимся читать теорию.
3) Снова садимся за руль.

Причём, первый пункт из этого плана исключить никак нельзя. Если не разбить первую машну, то непонятно зачем учить правила и мат. часть. (Ну просто совсем не ясно!)

А теперь по делу.

Поищите этим поисковиком слово каша. Он вам найдёт кашарель, кашалот, кашаса,… что проще: (1) сделать «поисковик» и обнаружить эту «фичу» на практике; или (2) просто 15 секунд подумать головой, прежде, чем писать код?
1. сравнение некорректное.

но попробую продолжить ваши аналогии. Как ребенок должен учиться ходить? Наверное нужно посадить его читать маны, книги, технологии, описания, истории успеха уже научившихся ходить да?
или он должен просто пробовать?

заметьте что научившийся ходить ребенок может сбить кого-то.
Но вы наверное увидив что он ходит начали бы орать на него, немедленно лежать. Вот тебе книжки, читай как правильно ходить. Смотри ноги в разные стороны, и шатаешься.

теперь без идиотских крайностей.
Чтобы что-то сделать нужно что-то делать. Я не говорю что теория это плохо. Я говорю что практика это прекрасно.

Ну что тут скажешь? :-) Вы, совершенно точно, не видели, как ребенок учится ходить.

Вы думаете, что он сразу пробует ходить, а он постепенно учится ходить. Когда он ползает, садится, встаёт, покачивается и переступает, у него даже нет мысли ходить! «Учиться ходить» != «не правильно ходить». А если во время учёбы ребёнок совершает опасные действия. На пример ползёт на четвереньках под стул, где может удариться головой, или на кафель, где может стукнуться, то его действительно полезно остановить. Пусть учится на своём одеяльце. Орать, конечно, не надо.
Вы действительно думаете, что звёзды находятся за любыми терниями? То есть, чтобы попасть к звёздам достаточно залезть в ближайшие колючки? Мне казалось, что логика этого выражения другая.
Устройтесь на работу в Яндекс или Google и все что вас интересует вы узнаете.

PS. сейчас честно говоря, по сравнению с гуглом очень медленно ищет.
Вы хотите сказать что у Google стоит один выделенный сервер? И скорость его обработки зависит только от оптимизации запросов?
думаю что у гугла этих серверов ооочень много, мне до них далеко.
Вы почему-то очень большое значение придаёте количеству. У гугла действительно много серверов, но (и это главное) не таких.
У гугла больше штат работников, поэтому он быстрее ищет, не печальтесь, будет и на вашем дворе праздник.
Ах да, гуглоконкурент или гугл это наноритконкурент, кто знает как сложится судьба вашего проекта…
Как придумали название, почему нанорит?
nano — очень модная и популярная нынче фишка
RIT — Russian Information Technology
нет, тут видимо про какой-то другой поисковик, пусть сами ко мне едут )
А Ваш робот написан на php? Интересует как вы реализовали краулера, простыми регулярками или еще что?
ага, весь на PHP
для парсинга сайтов использовал в основном eregi и split
На будущее — split отмечен как DEPRECATED, аж с 5.3.0.
Извините, но это — ппц.

По делу — советую начать учить C или хотя бы Perl и посмотреть в сторону Sphinx, а ещё лучше — бросить это дело вообще.
Изначально был вроде как спортивный интерес… А не попытка конкурировать с монстрами.
в базе находится сейчас около 1.5 документов

удивительно, но у вас действительно получился нанопоисковик )
пробовал среди студентов найти заинтересованных, сделал SVN с доступом, но среди студентов нашего ВУЗа не нашлось тех, кому интересно.
ну интернет то поболее чем студенты
кому интересно, могу сообщить SVN проекта.
может найдутся желающие изучать алгоритмы поисковиков вместе?
буду рад новым идеям.
При попытке воспользоваться Вашим поисковиком, получаю:
xss ispravluai a ne udaluai iz zaprosov tupo, v titlule toze xss, smotri gofled v baze
меня тут уже активно ломать начали )
правлю на лету!
уже пофиксил
здорово!
вообще говоря хотелось бы видеть в альтернативном поисковике нечно такое, что не умеют поисковики текущие…

Например ранжирование блогов и технических сайтов по убыванию новизны публикации. Мне не интересно находить инфу по SEO или PHP по высокочастотным запросам в публикациях трехлетней давности т.к. они уже прокачались по ссылочному продвижению и т.д.

Игнорирование noindex (хотя бы если ноиндексом закрыто болеее 1 предложения) — не всегда гугль|яндекс могут что то найти на форумах

жесткое ранжирование сайтов по тематике. Например, если на сайт часто ссылаются с айтишных ресурсов вроде Хабра — то он наверняка тоже около-айтишный. Проблема только в выборе необходимого и достаточного базиса сайтов, которые будут задавать темы (это скорее всего надо делать вручную)

Еще закойте пжлста сайт от поисковиков. не известно как отнесутся они к дублированию информации, и во что это выльется для ресурсов, которые Ваш поисковик индексирует.
убрал сайт от поисковиков, мне все говорили, что может косяк получиться.
а гугл уже по-моему понял, и сам убрал
Покажите вы русскому школьнику карту звездного неба, о которой он до сих пор не имел никакого понятия, и он завтра же возвратит вам эту карту исправленной. Достоевский.
не отнимайте у автора (и никого другого) право быть недовольным субъективным
Неправильно указан адрес сайта, необходимо указывать адрес без http:// только название, либо такой сайт сейчас не существует

ввожу все как надо, даже с www попробовал, не воспринимает сайты с "-" в адресе?
круто, домены с цифрами тоже не добавляются. или сайты на таких доменах не являются интернетом? и их можно не индексировать? =)
Я решил на практике изучить, что же это такое – поисковый движок


Автор изучает, пробует, развивается.
Как было в одном фильме — «В это стране тренировка ума уже преступление?»
Изучать на практике, игнорируя теорию — это не развитие, это очередной велосипед с квадратными колёсами.
теория это классно, я обожаю теорию.
но есть одно НО, если бы я любил теорию больше чем практику, я бы никогда не стал программистом ) а был бы я наверное сейчас кандидатом наук и ездил бы по крутым конференциям и рассказывал бы про теоретические основы алгоритмов самообучения. И может быть лет в 40, решился бы выдать задание своей лаборатории на разработку поисковика, и они бы мне выдали что-то наподобие nanorit.com, и я бы начал проводить серьезную научную работу в этом направлении.
и понял бы — ВСЕ ВОКРУГ НАС — ПЛОД НАШИХ ТРУДОВ.
Зачем вообще что-то придумывать? Лучше просто писать высокомерные комментарии.
Я решил разбить все заголовки на отдельные слова и составить реестр данных слов и связанную таблицу – в которой для каждого заголовка идет перечисление идентификаторов слов.


Это вы так inverted index описываете?
В названии вроде аббревиатура связанная с ru, а сам поисковик в домене .com :) Что-то тут не чисто…
А это ваша разворачивалка для ЖЖ? Если да — большое спасибо, много раз пригождалась.
Если долго-долго искать одно и то же слово, то оно постепенно выйдет в топ. К примеру, без особых проблем вывел слово «ня» на 21 место. При этом ни разу не нашло анимешных сайтов :)
Ааааа паника!)) Спасибо, поржал) Кстати, ищу «каша», получаю «кашарель», «кашалот», и т.д.

В общем, я думаю, вы поняли. Просто по вхождениям никто не ищет.
Вы так пестрите цифрами, у вас наверное должно дух захватывать :). Вообще же это понты для приезжих) у студента первого курса (если он не забивает на учебу), за пол дня получится написать все, что есть у вас.
Думаю, неплохо было бы вам попробовать при поиске нафиг отказаться от LIKE, взять либу, которая слова ставит в разных временах, и при поиске учитывать все множество слов во всех временах. Ладно, не буду тыкать пальцем в небо. Только одно: LIKE не покатит!
а кто-нибудь пробовал набирать слово test в поиске гугла.
он пишет — найдено: 612 000 000 (0,40 сек.)
итак посчитаем — 612 000 000 / 10 = 612 000 00 страниц
а кто-нибудь пробовал листать до этих страниц?
я один раз попробовал — и все что получилось, максимум 90 страниц, а дальше пусто, как в фильме «13 этаж»
всем кажется, что они живут в огромном непознанном мире, а стоит только доехать до границы, чуть чуть потыркать ее и оказывается, что эта граница всего-лишь «сложившееся общественное мнение», и вот дальше начинается самое интересное.
Не понял, к чему вы это написали? Да и вообще, отсыпьте, что там у вас…

Я просто хочу сказать,-- что все ваши эксперименты, если подойти со скептической точки зрения — не поисковик, это только паук (а паук ли?), который ereg'ом (кстати, ereg уже давноооо как депрекейтед) вытаскивает тайтлы страниц, пишет в БД (да, еще разбивает на слова), а еще фронтенд, с одним-двумя запросами к БД и использованием LIKE. Мне не будет стыдно, если я скажу, что это — хуета, недостойная топика на Хабре. Если бы вы выложили сурсы (хотя кому они нужны?) это еще хоть как-то покатило бы, можно было бы подумать, что это обучения начинающих ПХП, а так…
Гугл выдает не больше то ли 100, то ли 500 страниц с результатами. При этом производится офигенная обработка найденной информации по многим факторам. В частности, отсеиваются похожие страницы. С одного сайта в общих результатах поиска как правило берется только одна-две страницы.
Можно сделать сайт с кучей взаимосвязанных страниц, на каждой из которых будет написано test. Но ва же не надо в результатах туеву хучу одинаковых страничек с одного и того же сайта?
Напомнило анекдот с баша:

Сообщение на одном из сайтов по фрилансу:

— Ищу человека, который поможет сделать поисковик а-ля гугл. Нужно всего-навсего сделать поиск! Дизайн я уже нарисовала.


Как-то так.
Программируем коллективный разум [Тоби Сегаран] (2008)
помоему 4ая глава посвящена поисковому боту, обработке страничек, оптимизации алгоритмов поиска, так же рассматриваются алгоритмы ранжирования.
все примеры на Питоне.
очень интересно и доступно, советую к прочтению.
UFO landed and left these words here
Человек написал, что на практике изучает что такое поисковый движок. Что-то типа курсовой работы на младших курсах, где каждый (каждый!) должен написать своей простейший аналог.
Это правильное направление, это очень хорошая практика. Автор — молодец.

Главное — чётко разделять готовый коммерческий продукт от курсовой. И самому автору, и посетителям.

Сделать самому прототип — неоценимо для получения первого опыта, столкновения с основными проблемами поисковиков. После этого должен идти этап активного изучения теории: анализ, хранение, выборка, и т.д. Потом поисковик должен быть переписан раза два-три как минимум, прежде чем он станет хотя бы минимально серьёзным ресурсом. Но дорогу осилит идущий! (с)

Если бы я в школе не писал такие вещи как стратегическая игра (в текстовом режиме, lol), а также простые и не очень двухмерные или трёхмерные движки, я бы никогда не получил тот опыт, который позволил мне уже в институте заниматься этими вещами профессионально, в профессиональной студии. Так что, я желаю автору успехов на его пути. Ну и конечно же адекватно оценивать результаты своего труда.
Блин, да чувак две таблицы создал и запросы с LIKE поделал! Какая курсовая?
Не забывайте, что уровень обучения в разных шарагах разный. У нас вообще на третьем (и последнем) курсе учились писать на дельфях «стрельбу по тарелочкам» (появляется и исчезает кружок, на него надо кликнуть), и то не все освоили :)
Sign up to leave a comment.

Articles