Обновить
27.1

Поисковые технологии *

От AltaVista до Яндекса

Сначала показывать
Порог рейтинга
Уровень сложности

Поиск от Яндекс.Ответов: сила поисковых алгоритмов плюс массовость UGC

Время на прочтение2 мин
Охват и читатели960
Недавно Яндекс запустил сервис Яндекс.Ответы http://ask.yandex.ru. На первый взгляд, классический вопросно-ответный сервис. Однако если заглянуть поглубже, то яндексоиды представили нам интересный концепт новой поисковой системы.

Многие из нас сталкивались с проблемами в обсуждении разных тем в блогах и на форумах. Действительно, получить нужный ответ на заданный вопрос можно, но это – очень непросто. Люди не умеют читать и отвечают не на то, о чем идет речь в вопросе, люди отвечают, не разбираясь в теме, люди занимаются рекламой. Я сама попыталась задать вопрос на сайте Яндекс.Ответов (намерено вопрос задавался в такой, не очень детализированной форме), результат очевиден – ответа я так и не получила.

Так вот, главное преимущество, которое предоставляют Яндекс.Ответы — поиск по уже готовым ответам. Зачем спрашивать то, что уже кто-то спросил до нас? Зачем тратить свое время на комментарии к некорректным ответам, если можно воспользоваться тем, что люди уже сделали это раньше и просто воспользоваться плодами их труда?
Читать дальше →

PageRank предсказывает нобелевских лауреатов

Время на прочтение2 мин
Охват и читатели851
Ранжирование учёных по количеству ссылок на их работы — неблагодарное дело. Кто угодно может называть несколько уязвимых мест такой системы.

1. Не все ссылки одинаковы. Значимость ссылающейся работы — это важный фактор.
2. Учёные из разных областей науки пользуются цитатами и ссылками по-разному. Работа в области наук о жизни цитируется шесть раз, работа по физике — три раза, а по математике — всего один.
3. Прорывные работы могут цитироваться реже обычного, потому что они затрагивают нишевые научные области на раннем этапе их развития.
4. Важные работы часто прекращают цитировать, когда они попадают в учебники.

Паттерн перекрёстных ссылок между научными работами формирует сложную сеть, похожую на сеть гиперссылок в интернете. Может быть, именно в этом состоит ключ к открытию лучшего способа оценки значимости конкретной работы?

Сергей Маслов из Брукхейвенской национальной лаборатории в Нью-Йорке и Сидни Реднер из Бостонского университета задали себе такой же вопрос и предположили, что алгоритм Google PageRank может помочь немного разобраться в проблеме.
Читать дальше →

Изменение в государственном правлении США

Время на прочтение1 мин
Охват и читатели439
Одной иннагурацией Обамы не закончились нововведения в правлении США.
19 января на сайте whitehouse.gov (официальный сайт Белого Дома) файл robots.txt выглядел так:
User-agent: *
Disallow: /cgi-bin
Disallow: /search
Disallow: /query.html
Disallow: /omb/search
Disallow: /omb/query.html
Disallow: /expectmore/search
Disallow: /expectmore/query.html
Disallow: /results/search
Disallow: /results/query.html
Disallow: /earmarks/search
Disallow: /earmarks/query.html
Disallow: /help
Disallow: /360pics/text
Disallow: /911/911day/text
Disallow: /911/heroes/text

И так еще 2400 (две тысячи четыреста) строк ограничений.

На следующий день этот файл стал выглядеть так:
User-agent: *
Disallow: /includes/
Всё! www.whitehouse.gov/robots.txt

В правительство идут компьютеро-образованные люди?

Введение в поиск по тексту

Время на прочтение5 мин
Охват и читатели3.9K
Наверное любой программист хоть раз в жизни стоял перед задачей поиска в строке какой-нибудь подстроки. Когда-то столкнуться с этим пришлось и мне. С тех пор это дело мне весьма полюбилось. Не сказать, что я в этом многого достиг, но останавливаться не собираюсь.
Потому и решил написать, но, чтоб начать более или менее плавно, вступление сделать в виде нескольких вводных статеек по основам текстового поиска.

читать дальше

Коллекция Nigma-фич 2008

Время на прочтение1 мин
Охват и читатели776
Итак, 2008 год неумолимо подходит к концу — пора подводить итоги. Этот год для Nigma был настоящим творческим прорывом. Мы много работали и смогли запустить рекордное количество полезных сервисов для наших любимых пользователей.

Представляем вашему вниманию коллекцию Nigma-фич 2008:
  1. Расшифровка сокращений — база из 200 тысяч англо-и русскоязычных аббревиатур. ВВП
  2. Решение уравнений. Nigma умеет решать уравнения, системы уравнений — еще много всего cписок решаемых задач. x2-3x+2=0
  3. Свежие новости — возможность видеть самые свежие новости, связанные с запросом, прямо на странице результатов поиска. Путин
  4. Автозаполнение с возможностью перейти на самый популярный сайт уже на этапе ввода запроса в строку поиска.
  5. Nigma-химия — поиск по базе неорганических реакций. КOH+H2SO4
  6. Nigma-музыка. С помощью этой функции все пользователи могут прослушать любимую мелодию прямо на странице результатов поиска. вивальди времена года
Читать дальше →

Nigma.ru запустила поиск по музыкальным файлам

Время на прочтение1 мин
Охват и читатели3.1K
Всем привет! Nigma запустила улучшенный поиск по музыке. Теперь, через вкладку «Музыка», пользователи Nigma.ru смогут найти и сразу послушать любимую песню прямо на странице результатов поиска (вивальди времена года).

Поисковый робот Nigma.ru находит в Интернете музыкальные файлы и индексирует теги, содержащиеся в этих файлах. Когда пользователь ищет во вкладке «музыка», то Nigma находит музыкальные файлы, а пользователь в качестве результатов получает прямые ссылки на них. Сейчас поисковая система проиндексировала 1.600.000 аудио файлов.

К вопросу об авторских правах, мы считаем, что ничего не нарушаем, а напротив, помогаем авторам найти те сайты, которые не уважают их авторские права. Что касается функции воспроизведения mp3 непосредственно на страницах Nigma.ru, то на Нигме лежит только код плеера, музыкальный файл загружается с сайта, который разместил у себя аудиозапись, на личный компьютер пользователя.

Nigma научилась искать по химическим реакциям

Время на прочтение1 мин
Охват и читатели1.2K
Всем привет! Сегодня мы запустили поиск по химическим реакциям. Прямо в строку поиска можно забить химические реакции и получить молекулярную, ионную и сокращенную ионную формулу реакции, например, KOH + H2SO4 =. В поисковой строке можно написать как исходное вещество, так и продукт (= NaCl + H2S). В некоторых случаях, когда реакция не идет, Нигма может объяснить почему та или иная реакция не идет: «K + NaOH»

Сейчас в нашей базе более 12 тысяч реакций. В ближайшее время мы собираемся пополнить ее до 20 тысяч. Вот тут лежит новость про наш сервис, а тут — полный список решаемых задач.

Перед запуском мы посоветовались с Загорским Вячеславом Викторовичем, доктором педагогических наук, профессором химии СУНЦ МГУ, который давно работает над привлечением внимания молодежи к химии и внедрением сетевых форм обучения в массы. Он был приятно удивлен нашими разработками (особенно ему понравилось, что мы делаем это бесплатно, цитата: «продвинутому в химии пользователю сервис поможет углубляться в своих изысканиях») и предложил дальнейшее сотрудничество для улучшения этого сервиса.

Помимо текстового ответа мы решили, что для типовых реакций будем выдавать еще и видео ответ. Правда, пока мы нарисовали всего 1 ролик: (см. тут). Если кто-нить хочет помочь нам с отрисовкой образовательных роликов, или вы найдете баги в реакциях, то пишите, пожалуйста, мне в личку :)

Заранее спасибо!

Нигма понимает с одной буквы

Время на прочтение1 мин
Охват и читатели963
Мы, разработчики Nigma.ru, ввели новую фичу — теперь пользователи могут переходить на популярные сайты, нажав лишь одну клавишу.

У других поисковиков также недавно появились формы автозаполнения (подсказок), которые мало чем отличаются от форм операционных систем. Наша же форма лучше тем, что почти к каждому слову в форме сопоставлен релевантный сайт, переход на который можно осуществить нажатием стрелки вправо.

Стрелку вправо можно нажать и сразу после набора нескольких букв — тогда выбирается сайт, соответствующий самому популярному слову, начинающемуся на эти буквы. Например, набрав «li», и нажав стрелку вправо, вы попадете на linux.org.ru

Для самых популярных сайтов даже стрелку вправо не надо нажимать — можно просто зажать на несколько секунд соответствующую клавишу и перейти на нужный сайт. Например, нажав на «в» и отпустив клавишу через пару секунд, вы попадете на vkontakte.ru

Полностью новость про эту фичу: тут

Новость про новости

Время на прочтение1 мин
Охват и читатели784
Всем привет! Мы добавили новую фичу для наших пользователей ― Свежие новости на Nigma.ru. Теперь, в ответ на запрос, пользователи увидят три самые свежие новости прямо на странице результатов поиска.

Для того, чтобы сделать этот сервис, мы проиндексировали более 3500 rss-лент СМИ и популярных блогов. И, конечно, любимый Хабр попал в этот список. Новостная база обновляется каждые 5 минут.
Также, мы добавили форму, через которую можно добавить свои новостные ресурсы и новостные блоги в индекс поисковой системы. Так что, дорогие графоманы — Welcome!
Вот пример работы: Кризис

Мы будем очень признательны, если вы поможете нам улучшить этот сервис. Подскажите: чего вам не хватает в уже существующих системах поиска по новостям?

Кого «Одноклассники» пугали «гуглом»?

Время на прочтение1 мин
Охват и читатели794
Журнал «Секрет фирмы» собрал мнения экспертов по поводу странного события, случившегося на прошлой неделе. Напомним, в прошлый понедельник на сайте социальной сети на один час появилась поисковая строка Google. Руководство «Одноклассников» хранит гордое молчание по этому поводу, скромно упоминая лишь о некоем «тестировании».

Однако, компетентные товарищи из компаний-конкурентов раскрывают нам глаза на то, что происходит в самом деле. По их мнению, тестирование поиска Google — это способ давления на компанию «Яндекс», с которой сейчас идут переговоры по поводу дележа прибыли от контекстной рекламы.

«Обычно соотношение доходов — 50:50. Но важно понимать, что сотрудничество с действительно крупными площадками полезно для поисковиков, а значит, сайты-партнёры вправе рассчитывать на более выгодные условия, — говорит вице-президент Mail.ru Анна Артамонова. — Вероятно, точно так же на страницах «Одноклассников» может появиться поиск от «Яндекса». Наверняка «Одноклассники» просто торгуются, выбирая наилучшие условия».

То есть поисковая строка Google — это просто жест в сторону «Яндекса», эдакий намёк предложить более выгодные условия сделки.

Новый поисковик Keyboardr не любит мышей

Время на прочтение1 мин
Охват и читатели811
Появился любопытный поисковик Keyboardr



Поиск начинается одновременно с набором запроса, навигация стрелочками по результатам с Google, Wikipedia и Youtube.

Википоиск в Google

Время на прочтение2 мин
Охват и читатели819
На специальном мероприятии, которое прошло 25 ноября в московском офисе Google, компания официально анонсировала сервис Википоиск (SearchWiki) — индивидуальная настройка поисковой выдачи. Собственно, еще неделю назад этот сервис обнаружил и описал хабрачеловек k48. Чуть позже хабрачеловек zakalka скопировал новость Cnews об этом. А гораздо раньше, о чем многие уже забыли, эксперименты Google заметил kossnocorp. Теперь мы знаем обо всем точно — это не просто эксперимент.

Да, теперь каждый залогиненный пользователь Google сможет ранжировать ссылки в выдаче по своему усмотрению — какие-то поднимать на самый верх, а какие-то вовсе из нее исключать. Эти оценки будут влиять только на выдачу, которая показывается самому этому пользователю, причем любые свои оценки он сможет откатить.

Если по поисковому запросу Google не показал страницу, которая кажется пользователю самой подходящей, он сможет добавить ссылку на нее в специальной форме внизу страницы. Добавленная ссылка автоматически встанет на первое место.
Подтверждение старого и кое-что новое читайте дальше

Поиск Google на «Одноклассниках»

Время на прочтение1 мин
Охват и читатели2.4K
Сегодня в «Коммерсанте» опубликована сенсационная новость о том, что в самое ближайшее время на одном из самых посещаемых сайтов России появится поисковая строка от Google. Если информация подтвердится, то Google может существенно увеличить свою долю рынка на рынке российских поисковых систем (по оценке iContext, доля Google в поисковых запросах Рунета сразу вырастет с нынешних 33,1% до 38%).

Вчера поисковая строка Google появилась на «Одноклассниках» примерно на один час. Президент компании Никита Шерман подтвердил, что они тестируют новый сервис.

Для «Одноклассников» это ещё один способ монетизации. По предварительным оценкам, за счёт контекстной рекламы они могут зарабатывать около $150 тыс. в месяц. Уже в следующем году «Одноклассники» могут заработать с помощью Google от $1,5 млн до $2 млн. По итогам прошлого года основными участниками российского рынка контекстной рекламы являлись «Яндекс-Директ» (примерно $135 млн), «Бегун» ($70 млн) и Google ($10 млн).

Аналитики пытаются предположить, в какой пропорции Google и «Одноклассники» будут делить доходы от поисковой рекламы. Сделка является взаимовыгодной, поэтому каждая сторона может выставлять свои условия. Конкретные условия определятся в результате переговоров и вряд ли их разгласят прессе.

Ближайшие события

Ашманов: Google перестанет расти в рунете

Время на прочтение2 мин
Охват и читатели1K
Доля поисковика Google в рунете достигла своего потолка, и вырасти она сможет только благодаря серьезным вложениям в маркетинг. Такое мнение высказал Игорь Ашманов, глава компании «Ашманов и партнеры», на пресс-завтраке в прошедший четверг. Он считает, что Google уже привлек всю аудиторию, которую мог. А именно — людей, которым близок его «технологичный» имидж, и принципиальных «западников». При этом «вещи, которые делает компания, массового пользователя не цепляют», — добавляет Ашманов.

Прогноз Игоря на 2009 год для Яндекса, наоборот, оптимистичен. Ему он пророчит хоть и медленный, но рост — за счет доли Рамблера, который будет отдавать ее катастрофическими темпами. Компания окончательно преодолела «кризис роста» (полтора года до середины 2007 года), утрясла штат и резко улучшила качество работы сервисов.
Читать дальше →

Google подключил OCR-движок для индексации PDF

Время на прочтение1 мин
Охват и читатели1.3K
Google сделал значительный шаг на пути к индексированию так называемой Невидимой сети, то есть той львиной части сетевого контента, которая до сих пор не поддаётся роботам поисковых систем. Это, в основном, запароленые сайты и различные базы данных, а также огромные массивы отсканированных документов в формате PDF.

И Google, и многие другие поисковики без проблем индексируют PDF, если в нём есть текстовый слой (он хранится в стандартном текстовом формате в контейнере файла). Но подобных «правильных» PDF на самом деле довольно мало. Гораздо больше документов представляют собой обычные отсканированные копии в графическом формате, просто сохранённые в PDF. Поэтому для их индексации Google сейчас подключил OCR-движок. Теперь в индекс попадут миллионы недоступных ранее государственных отчётов, судебных решений и академических исследований. Вот некоторые примеры работы нового движка.

Нужно напомнить, что в апреле Google научился обрабатывать выпадающие меню и другие HTML-формы в различных интерфейсах баз данных, это тоже важная технология по индексации Невидимой сети.

ККККК: Команда Кодирующих кроликов копает клад

Время на прочтение2 мин
Охват и читатели2.5K
Команда КК продолжает поиски клада с металлодетектором. Начало статьи.



Часть третья. Деньги из грязи


Как всегда под катом — текст и немного картинок.

Читать дальше →

Найдется даже икс

Время на прочтение3 мин
Охват и читатели1.2K
Nigma.ru добавила в свою копилку новую фичу для пользователей. Теперь прямо через строку поиска можно решать различные математические задачи, например, x2-3x+2=0, sin2 x + cos2 x, 2 ч * 30 м/мин = х, системы уравнений типа 2x-y=4, 3y+x=9, x2+y=1, x*y=0 и т.п. (подробный список тут). Сервис рассчитан на школьников 6-10 класса.

Подробнее о системе можно узнать, прочитав документацию и новость на нашем сайте.
Читать дальше →

Реинкарнация или возрождение Вебальты?

Время на прочтение1 мин
Охват и читатели759
Так что там с Вебальтой?

Выдача на домене webalta.ru — есть. Счетчик, правда, закрыть обещают с 1 декабря (снимайте, у кого еще стоит).

Каталог оживился и шлет приглашения наивным вебмастерам заплатить смской или вебманями за место в обновленном пиаристом(?) ресурсе в течение очередного «финансового года».

Я сейчас вижу в выдаче новые сайты (хотя не вижу некоторых старых, давеча бывших в топе).

Кое-кто писал кое-где про новые веяния и новые вливания, после года нейминговых и концептуальных метаний.

Вебальта, ау!..

Кодирующие кролики ищут клад

Время на прочтение2 мин
Охват и читатели1.4K

Часть первая. Google Earth в тумане


Погода в эти выходные благоприятствовала, поэтому Команда Кодирующих Кроликов в составе rabbitone и restorer, вооружившись металлодетектором, решила выбраться в зону за хабаром. Идти далеко не хотелось, поэтому мы занялись поиском находящихся неподалеку аномалий.



Под катом текст и полтора мегабайта картинок.

Читать дальше →

Вклад авторов