Comments 69
И вот он, век SEO-технологий: в правой колонке в рейтинге запросов «секс» — на 12-м месте, «порно» — на 15-м. :)
А вообще вы молодец, я думаю та же Nigma приблизительно так же начинала. Да и подобный поиск как решение для небольшого интернет-портала по-моему самое то.
А вообще вы молодец, я думаю та же Nigma приблизительно так же начинала. Да и подобный поиск как решение для небольшого интернет-портала по-моему самое то.
по поводу запросов «клубнички» — их гораздо больше, я их просто регулярно чищу, чтобы не превратить в порно-поисковик )
так уж сложилось, что именно про это запросы очень часто попадаются
так уж сложилось, что именно про это запросы очень часто попадаются

Один мальчик видел в столовке котлеты.
— А ну, — думает, — попробую вылепить котлету сам!?
Из чего делают котлеты он не знал. Не знал он и о том, что повара не скрывают, из чего сделаны котлеты. И сделал он котлеты из говна.
— Опа! — подумал мальчик, — а котлета-то как настоящая вышла!
Обрадовался он и стал их лепить всё больше и больше. И радовался, что у его их о-о-очень много.
А окружающие разделились на две группы.
Первые — хвалили мальчика:
— Лепи-лепи, очень похоже получается.
Вторые — читали кулинарные книги; и пока мальчик лепил котлетки из говна, становились первоклассными поварами. Но про них мальчик так и не узнал.
Всё лепил и лепил он свои котлетки.
В этой истории все были счастливы.
Кстати, история создания нигмы — не секрет. И нигма начиналась не так.
Действительно, не надо ничего пытаться сделать самому, не нужно пытаться, нужно жрать, что дают.
Пусть автор делает то, что делает. Это его эксперименты. Он ведь не упер код Яндекса и не выдал его за свою принципиально новую (с) поисковую систему.
Пусть автор делает то, что делает. Это его эксперименты. Он ведь не упер код Яндекса и не выдал его за свою принципиально новую (с) поисковую систему.
Да я не об этом!
Как раз надо действовать! Не надо тратить время на автошколу! — сразу за руль! Надо экспериментировать! Нажимать разные педали! Крутить баранку! Не теряйте время на учёбу! Сразу по газам! Так вы уедете дальше, чем те, кто месяцами учат педали!
А если кроме шуток, то логика ваша меня просто потрясает. Значит либо делаем очертя голову непонятно что. Либо не пытаемся ничего делать вообще. Вариант «подумать» вы даже не рассматриваете. Сразу резать! Семь раз отмеряют только трусы! Так по-вашему? Потрясающая логика!
Как раз надо действовать! Не надо тратить время на автошколу! — сразу за руль! Надо экспериментировать! Нажимать разные педали! Крутить баранку! Не теряйте время на учёбу! Сразу по газам! Так вы уедете дальше, чем те, кто месяцами учат педали!
А если кроме шуток, то логика ваша меня просто потрясает. Значит либо делаем очертя голову непонятно что. Либо не пытаемся ничего делать вообще. Вариант «подумать» вы даже не рассматриваете. Сразу резать! Семь раз отмеряют только трусы! Так по-вашему? Потрясающая логика!
А кому мешают эксперименты автора? Его эксперименты как-то угрожают вашей жизни? Он занял ваш сервер?
Теория без практики бессильна. И лично по-моему все начинается именно с практики. Уже после, упершись в первую серьезную преграду, можно начинать читать книжки, и потом с начать по новой с новыми подходами и знаниями. В противном случае есть шанс просто бросить все дело, устав читать теорию. Программирование это весело, не думаю что имеет смысл лишать себя удовольствия только ради того чтобы делать все «методологически правильно».
Конечно! Лучший план:
1) Покупаем машину, — и сразу за руль! Пару старушек переедем! Машину в лепёшку! Автолюбительство «это весело»! Нет смысла «лишать себя удовольствия»!
2) После того, как первая машина сдана в утиль, садимся читать теорию.
3) Снова садимся за руль.
Причём, первый пункт из этого плана исключить никак нельзя. Если не разбить первую машну, то непонятно зачем учить правила и мат. часть. (Ну просто совсем не ясно!)
А теперь по делу.
Поищите этим поисковиком слово каша. Он вам найдёт кашарель, кашалот, кашаса,… что проще: (1) сделать «поисковик» и обнаружить эту «фичу» на практике; или (2) просто 15 секунд подумать головой, прежде, чем писать код?
1) Покупаем машину, — и сразу за руль! Пару старушек переедем! Машину в лепёшку! Автолюбительство «это весело»! Нет смысла «лишать себя удовольствия»!
2) После того, как первая машина сдана в утиль, садимся читать теорию.
3) Снова садимся за руль.
Причём, первый пункт из этого плана исключить никак нельзя. Если не разбить первую машну, то непонятно зачем учить правила и мат. часть. (Ну просто совсем не ясно!)
А теперь по делу.
Поищите этим поисковиком слово каша. Он вам найдёт кашарель, кашалот, кашаса,… что проще: (1) сделать «поисковик» и обнаружить эту «фичу» на практике; или (2) просто 15 секунд подумать головой, прежде, чем писать код?
1. сравнение некорректное.
но попробую продолжить ваши аналогии. Как ребенок должен учиться ходить? Наверное нужно посадить его читать маны, книги, технологии, описания, истории успеха уже научившихся ходить да?
или он должен просто пробовать?
заметьте что научившийся ходить ребенок может сбить кого-то.
Но вы наверное увидив что он ходит начали бы орать на него, немедленно лежать. Вот тебе книжки, читай как правильно ходить. Смотри ноги в разные стороны, и шатаешься.
теперь без идиотских крайностей.
Чтобы что-то сделать нужно что-то делать. Я не говорю что теория это плохо. Я говорю что практика это прекрасно.
но попробую продолжить ваши аналогии. Как ребенок должен учиться ходить? Наверное нужно посадить его читать маны, книги, технологии, описания, истории успеха уже научившихся ходить да?
или он должен просто пробовать?
заметьте что научившийся ходить ребенок может сбить кого-то.
Но вы наверное увидив что он ходит начали бы орать на него, немедленно лежать. Вот тебе книжки, читай как правильно ходить. Смотри ноги в разные стороны, и шатаешься.
теперь без идиотских крайностей.
Чтобы что-то сделать нужно что-то делать. Я не говорю что теория это плохо. Я говорю что практика это прекрасно.
Ну что тут скажешь? :-) Вы, совершенно точно, не видели, как ребенок учится ходить.
Вы думаете, что он сразу пробует ходить, а он постепенно учится ходить. Когда он ползает, садится, встаёт, покачивается и переступает, у него даже нет мысли ходить! «Учиться ходить» != «не правильно ходить». А если во время учёбы ребёнок совершает опасные действия. На пример ползёт на четвереньках под стул, где может удариться головой, или на кафель, где может стукнуться, то его действительно полезно остановить. Пусть учится на своём одеяльце. Орать, конечно, не надо.
Вы думаете, что он сразу пробует ходить, а он постепенно учится ходить. Когда он ползает, садится, встаёт, покачивается и переступает, у него даже нет мысли ходить! «Учиться ходить» != «не правильно ходить». А если во время учёбы ребёнок совершает опасные действия. На пример ползёт на четвереньках под стул, где может удариться головой, или на кафель, где может стукнуться, то его действительно полезно остановить. Пусть учится на своём одеяльце. Орать, конечно, не надо.
per aspera ad astra
Устройтесь на работу в Яндекс или Google и все что вас интересует вы узнаете.
PS. сейчас честно говоря, по сравнению с гуглом очень медленно ищет.
Вы хотите сказать что у Google стоит один выделенный сервер? И скорость его обработки зависит только от оптимизации запросов?
PS. сейчас честно говоря, по сравнению с гуглом очень медленно ищет.
Вы хотите сказать что у Google стоит один выделенный сервер? И скорость его обработки зависит только от оптимизации запросов?
У гугла больше штат работников, поэтому он быстрее ищет, не печальтесь, будет и на вашем дворе праздник.
Ах да, гуглоконкурент или гугл это наноритконкурент, кто знает как сложится судьба вашего проекта…
Как придумали название, почему нанорит?
Ах да, гуглоконкурент или гугл это наноритконкурент, кто знает как сложится судьба вашего проекта…
Как придумали название, почему нанорит?
nano — очень модная и популярная нынче фишка
RIT — Russian Information Technology
RIT — Russian Information Technology
В правительстве всерьез размышляют над идеей национальной поисковой системы
Уже готовитесь к переезду в Сколково?
Уже готовитесь к переезду в Сколково?
А Ваш робот написан на php? Интересует как вы реализовали краулера, простыми регулярками или еще что?
в базе находится сейчас около 1.5 документов
удивительно, но у вас действительно получился нанопоисковик )
Ну ждём публикации под GPL или Public Domain :)
При попытке воспользоваться Вашим поисковиком, получаю:
xss ispravluai a ne udaluai iz zaprosov tupo, v titlule toze xss, smotri gofled v baze
здорово!
вообще говоря хотелось бы видеть в альтернативном поисковике нечно такое, что не умеют поисковики текущие…
Например ранжирование блогов и технических сайтов по убыванию новизны публикации. Мне не интересно находить инфу по SEO или PHP по высокочастотным запросам в публикациях трехлетней давности т.к. они уже прокачались по ссылочному продвижению и т.д.
Игнорирование noindex (хотя бы если ноиндексом закрыто болеее 1 предложения) — не всегда гугль|яндекс могут что то найти на форумах
жесткое ранжирование сайтов по тематике. Например, если на сайт часто ссылаются с айтишных ресурсов вроде Хабра — то он наверняка тоже около-айтишный. Проблема только в выборе необходимого и достаточного базиса сайтов, которые будут задавать темы (это скорее всего надо делать вручную)
Еще закойте пжлста сайт от поисковиков. не известно как отнесутся они к дублированию информации, и во что это выльется для ресурсов, которые Ваш поисковик индексирует.
вообще говоря хотелось бы видеть в альтернативном поисковике нечно такое, что не умеют поисковики текущие…
Например ранжирование блогов и технических сайтов по убыванию новизны публикации. Мне не интересно находить инфу по SEO или PHP по высокочастотным запросам в публикациях трехлетней давности т.к. они уже прокачались по ссылочному продвижению и т.д.
Игнорирование noindex (хотя бы если ноиндексом закрыто болеее 1 предложения) — не всегда гугль|яндекс могут что то найти на форумах
жесткое ранжирование сайтов по тематике. Например, если на сайт часто ссылаются с айтишных ресурсов вроде Хабра — то он наверняка тоже около-айтишный. Проблема только в выборе необходимого и достаточного базиса сайтов, которые будут задавать темы (это скорее всего надо делать вручную)
Еще закойте пжлста сайт от поисковиков. не известно как отнесутся они к дублированию информации, и во что это выльется для ресурсов, которые Ваш поисковик индексирует.
Покажите вы русскому школьнику карту звездного неба, о которой он до сих пор не имел никакого понятия, и он завтра же возвратит вам эту карту исправленной. Достоевский.
Неправильно указан адрес сайта, необходимо указывать адрес без http:// только название, либо такой сайт сейчас не существует
ввожу все как надо, даже с www попробовал, не воспринимает сайты с "-" в адресе?
ввожу все как надо, даже с www попробовал, не воспринимает сайты с "-" в адресе?
Зачем создавать велосипед?
Я решил на практике изучить, что же это такое – поисковый движок
Автор изучает, пробует, развивается.
Как было в одном фильме — «В это стране тренировка ума уже преступление?»
Изучать на практике, игнорируя теорию — это не развитие, это очередной велосипед с квадратными колёсами.
теория это классно, я обожаю теорию.
но есть одно НО, если бы я любил теорию больше чем практику, я бы никогда не стал программистом ) а был бы я наверное сейчас кандидатом наук и ездил бы по крутым конференциям и рассказывал бы про теоретические основы алгоритмов самообучения. И может быть лет в 40, решился бы выдать задание своей лаборатории на разработку поисковика, и они бы мне выдали что-то наподобие nanorit.com, и я бы начал проводить серьезную научную работу в этом направлении.
и понял бы — ВСЕ ВОКРУГ НАС — ПЛОД НАШИХ ТРУДОВ.
но есть одно НО, если бы я любил теорию больше чем практику, я бы никогда не стал программистом ) а был бы я наверное сейчас кандидатом наук и ездил бы по крутым конференциям и рассказывал бы про теоретические основы алгоритмов самообучения. И может быть лет в 40, решился бы выдать задание своей лаборатории на разработку поисковика, и они бы мне выдали что-то наподобие nanorit.com, и я бы начал проводить серьезную научную работу в этом направлении.
и понял бы — ВСЕ ВОКРУГ НАС — ПЛОД НАШИХ ТРУДОВ.
Зачем вообще что-то придумывать? Лучше просто писать высокомерные комментарии.
Я решил разбить все заголовки на отдельные слова и составить реестр данных слов и связанную таблицу – в которой для каждого заголовка идет перечисление идентификаторов слов.
Это вы так inverted index описываете?
По слову «nanorit» выдает 0 результатов.
nanorit.com/?q=%E1%EB%EE%EA%ED%EE%F2
выдает результаты:
Вывод: вы забыли удалить location.hash.
Как оценивается релевантность результатов? Попробуйте, кстати, учитывать скорость загрузки сайта, как это делает гугл.
выдает результаты:
www.respublica.ru/news/338
www.respublica.ru/news/338#comments
Вывод: вы забыли удалить location.hash.
Как оценивается релевантность результатов? Попробуйте, кстати, учитывать скорость загрузки сайта, как это делает гугл.
В названии вроде аббревиатура связанная с ru, а сам поисковик в домене .com :) Что-то тут не чисто…
А это ваша разворачивалка для ЖЖ? Если да — большое спасибо, много раз пригождалась.
Если долго-долго искать одно и то же слово, то оно постепенно выйдет в топ. К примеру, без особых проблем вывел слово «ня» на 21 место. При этом ни разу не нашло анимешных сайтов :)
Ааааа паника!)) Спасибо, поржал) Кстати, ищу «каша», получаю «кашарель», «кашалот», и т.д.
В общем, я думаю, вы поняли. Просто по вхождениям никто не ищет.
В общем, я думаю, вы поняли. Просто по вхождениям никто не ищет.
Вы так пестрите цифрами, у вас наверное должно дух захватывать :). Вообще же это понты для приезжих) у студента первого курса (если он не забивает на учебу), за пол дня получится написать все, что есть у вас.
Думаю, неплохо было бы вам попробовать при поиске нафиг отказаться от LIKE, взять либу, которая слова ставит в разных временах, и при поиске учитывать все множество слов во всех временах. Ладно, не буду тыкать пальцем в небо. Только одно: LIKE не покатит!
а кто-нибудь пробовал набирать слово test в поиске гугла.
он пишет — найдено: 612 000 000 (0,40 сек.)
итак посчитаем — 612 000 000 / 10 = 612 000 00 страниц
а кто-нибудь пробовал листать до этих страниц?
я один раз попробовал — и все что получилось, максимум 90 страниц, а дальше пусто, как в фильме «13 этаж»
всем кажется, что они живут в огромном непознанном мире, а стоит только доехать до границы, чуть чуть потыркать ее и оказывается, что эта граница всего-лишь «сложившееся общественное мнение», и вот дальше начинается самое интересное.
он пишет — найдено: 612 000 000 (0,40 сек.)
итак посчитаем — 612 000 000 / 10 = 612 000 00 страниц
а кто-нибудь пробовал листать до этих страниц?
я один раз попробовал — и все что получилось, максимум 90 страниц, а дальше пусто, как в фильме «13 этаж»
всем кажется, что они живут в огромном непознанном мире, а стоит только доехать до границы, чуть чуть потыркать ее и оказывается, что эта граница всего-лишь «сложившееся общественное мнение», и вот дальше начинается самое интересное.
Не понял, к чему вы это написали? Да и вообще, отсыпьте, что там у вас…
Я просто хочу сказать,-- что все ваши эксперименты, если подойти со скептической точки зрения — не поисковик, это только паук (а паук ли?), который ereg'ом (кстати, ereg уже давноооо как депрекейтед) вытаскивает тайтлы страниц, пишет в БД (да, еще разбивает на слова), а еще фронтенд, с одним-двумя запросами к БД и использованием LIKE. Мне не будет стыдно, если я скажу, что это — хуета, недостойная топика на Хабре. Если бы вы выложили сурсы (хотя кому они нужны?) это еще хоть как-то покатило бы, можно было бы подумать, что это обучения начинающих ПХП, а так…
Я просто хочу сказать,-- что все ваши эксперименты, если подойти со скептической точки зрения — не поисковик, это только паук (а паук ли?), который ereg'ом (кстати, ereg уже давноооо как депрекейтед) вытаскивает тайтлы страниц, пишет в БД (да, еще разбивает на слова), а еще фронтенд, с одним-двумя запросами к БД и использованием LIKE. Мне не будет стыдно, если я скажу, что это — хуета, недостойная топика на Хабре. Если бы вы выложили сурсы (хотя кому они нужны?) это еще хоть как-то покатило бы, можно было бы подумать, что это обучения начинающих ПХП, а так…
Гугл выдает не больше то ли 100, то ли 500 страниц с результатами. При этом производится офигенная обработка найденной информации по многим факторам. В частности, отсеиваются похожие страницы. С одного сайта в общих результатах поиска как правило берется только одна-две страницы.
Можно сделать сайт с кучей взаимосвязанных страниц, на каждой из которых будет написано test. Но ва же не надо в результатах туеву хучу одинаковых страничек с одного и того же сайта?
Можно сделать сайт с кучей взаимосвязанных страниц, на каждой из которых будет написано test. Но ва же не надо в результатах туеву хучу одинаковых страничек с одного и того же сайта?
Напомнило анекдот с баша:
Как-то так.
Сообщение на одном из сайтов по фрилансу:
— Ищу человека, который поможет сделать поисковик а-ля гугл. Нужно всего-навсего сделать поиск! Дизайн я уже нарисовала.
Как-то так.
Программируем коллективный разум [Тоби Сегаран] (2008)
помоему 4ая глава посвящена поисковому боту, обработке страничек, оптимизации алгоритмов поиска, так же рассматриваются алгоритмы ранжирования.
все примеры на Питоне.
очень интересно и доступно, советую к прочтению.
помоему 4ая глава посвящена поисковому боту, обработке страничек, оптимизации алгоритмов поиска, так же рассматриваются алгоритмы ранжирования.
все примеры на Питоне.
очень интересно и доступно, советую к прочтению.
Человек написал, что на практике изучает что такое поисковый движок. Что-то типа курсовой работы на младших курсах, где каждый (каждый!) должен написать своей простейший аналог.
Это правильное направление, это очень хорошая практика. Автор — молодец.
Главное — чётко разделять готовый коммерческий продукт от курсовой. И самому автору, и посетителям.
Сделать самому прототип — неоценимо для получения первого опыта, столкновения с основными проблемами поисковиков. После этого должен идти этап активного изучения теории: анализ, хранение, выборка, и т.д. Потом поисковик должен быть переписан раза два-три как минимум, прежде чем он станет хотя бы минимально серьёзным ресурсом. Но дорогу осилит идущий! (с)
Если бы я в школе не писал такие вещи как стратегическая игра (в текстовом режиме, lol), а также простые и не очень двухмерные или трёхмерные движки, я бы никогда не получил тот опыт, который позволил мне уже в институте заниматься этими вещами профессионально, в профессиональной студии. Так что, я желаю автору успехов на его пути. Ну и конечно же адекватно оценивать результаты своего труда.
Это правильное направление, это очень хорошая практика. Автор — молодец.
Главное — чётко разделять готовый коммерческий продукт от курсовой. И самому автору, и посетителям.
Сделать самому прототип — неоценимо для получения первого опыта, столкновения с основными проблемами поисковиков. После этого должен идти этап активного изучения теории: анализ, хранение, выборка, и т.д. Потом поисковик должен быть переписан раза два-три как минимум, прежде чем он станет хотя бы минимально серьёзным ресурсом. Но дорогу осилит идущий! (с)
Если бы я в школе не писал такие вещи как стратегическая игра (в текстовом режиме, lol), а также простые и не очень двухмерные или трёхмерные движки, я бы никогда не получил тот опыт, который позволил мне уже в институте заниматься этими вещами профессионально, в профессиональной студии. Так что, я желаю автору успехов на его пути. Ну и конечно же адекватно оценивать результаты своего труда.
Блин, да чувак две таблицы создал и запросы с LIKE поделал! Какая курсовая?
Sign up to leave a comment.
Поисковик своими руками