Поисковые технологии *

От AltaVista до Яндекса

Статьи Посты Новости Авторы Компании

ganzmavag 7 ноя 2023 в 19:12

Вас забанила нейросеть: как новый алгоритм Яндекса постепенно выкидывает из поиска региональные СМИ

Простой

9 мин

45K

Поисковые технологии*Поисковая оптимизация*

✏️ Технотекст 2023

Пару недель назад я совершенно случайно обнаружил в Яндекс Вебмастере плашку о фатальной ошибке. Там было написано, что мой сайт может угрожать безопасности пользователя, или на нём были обнаружены нарушения правил поисковой системы. Других ошибок не было: индекс качества даже немного подрос.

Удивительно было, что этот сайт — известное в регионе СМИ, и вопросов к нему со стороны Яндекса не было все восемь лет его существования. Потому что мы и на самом деле нарушениями правил поисковиков не занимаемся. Но сначала я, конечно, подумал, что проблема в нас самих — где‑то спрятался баг или, того хуже, взломали. Однако всё оказалось куда интереснее.

Дело оказалось в новом алгоритме Яндекса, который теперь буквально запрещает писать новости. В нашей области он уже забанил примерно треть независимых региональных СМИ. Причём под удар, на удивление, попали одни из самых качественных. Поэтому я считаю, что проблема здесь не столько в сайтах, сколько в самом алгоритме, создатели которого придумали хорошую идею по борьбе за уникальность контента, но не до конца её протестировали. Почему я пришёл к такому выводу и что конкретно с алгоритмом не так, я здесь и расскажу.

На КПДВ: «Региональный журналист пишет новость» глазами другой нейросети Яндекса — «Шедеврум».

+252

304

alizar 14 авг 2023 в 12:00

Почему нельзя доверять Google

Простой

6 мин

65K

Блог компании RUVDS.comПоисковые технологии*Google ChromeБраузерыIT-компании

Мнение

В 2005 году компания Google решила вступить в конкуренцию с ICQ, MSN и Skype — и выпустила мессенджер Google Talk (Gchat) на открытом протоколе XMPP с распределённой архитектурой. Казалось бы, замечательно: Google продвигает открытый свободный протокол! Как бы не так.

Google не уважала спецификации, не поддерживала все функции XMPP. В итоге разработка открытого стандарта затормозилась, чтобы адаптироваться к действиям Google. Классные новые функции (например, аватарки) никто не использовал, потому что их не поддерживал Google Talk. Разработчики XMPP стали выполнять роль сисадминов для серверов Google.

Финал немного предсказуем: в 2013 году Google решила закрыть Gtalk/XMPP и забыть о нём, что практически остановило развитие XMPP на долгие годы. Сообщество до сих пор не восстановилось от того удара. Это пример вреда, который Google/Meta*/Microsoft наносят IT-индустрии. И так у них во всём… Главное — собственные интересы, на остальных наплевать.

Читать дальше →

+142

274

franky_d_zoro 30 янв 2023 в 14:17

SEO Выводы из утечки кода поисковика Яндекс

6 мин

102K

Поисковые технологии*Веб-аналитика*Повышение конверсии*Поисковая оптимизация*

Мнение

Я был в восторге, когда узнал об утечке проприетарного исходного кода Яндекса. И после анализа данных я должен сказать, что выводы оказались весьма интересными! Итак, без лишних слов, давайте окунемся в основные выводы, которые я сделал.

+182

130

anazarta 25 янв 2023 в 10:02

Как Яндекс научился распознавать, что написано в рукописных архивах

11 мин

31K

Блог компании ЯндексПоисковые технологии*Обработка изображений*Машинное обучение*Искусственный интеллект

✏️ Технотекст 2023

Привет, Хабр. Меня зовут Саша, в прошлый раз я рассказывал сообществу про поиск организаций в Яндексе. В этот раз мы вновь поговорим про поиск, но уже совершенно другого рода. Сегодня расскажем про «Поиск по архивам». Этот проект вырос из моего личного интереса к истокам семьи, но в итоге (хочется верить!) поможет тысячам других таких же пользователей чуть больше узнать о своих корнях.

Генеалогическое исследование — очень трудоёмкий процесс. Информация о родственниках разбросана по разным архивам, запросы на получение данных могут обрабатываться долго, а доступ даже в открытые архивы ограничен. Несмотря на то что оцифровка архивных документов ведётся уже более десяти лет, по ним не так-то просто искать — придётся отсматривать вручную множество сканов в надежде найти фамилию предка.

Чтобы упростить этот процесс, мы научились превращать в текст сканы архивных документов. Основная сложность этой задачки заключалась в том, что текст в архивах написан от руки. Машинописный текст всё-таки создан по предсказуемым правилам: автор использует набор уже известных шрифтов. А рукописный текст уникальный, потому что каждый человек пишет по-своему. Кроме того, архивные документы написаны не просто от руки, но и на дореволюционном русском языке, который существенно отличается от современного.

Решению этой задачи мы и посвятим историю. А поможет мне с ней Таня @miryable из команды, которая уже много лет развивает в Яндексе технологию оптического распознавания символов (OCR).

+143

103

ManticoreSearch 18 июл 2022 в 10:33

Manticore — альтернатива Эластику на C++ с 21-летней историей

53 мин

24K

Поисковые технологии*Sphinx*Администрирование баз данных*

5 лет назад мы форкнули Manticore из open source версии некогда популярного open source поискового движка Sphinx 2.3.2. У нас было ~~два пакетика травы, семьдесят пять ампул мескалина~~, три C++ разработчика, один саппорт-инженер, опытный пользователь, менеджер, мать пятерых детей, помогающая нам на полставки и гора багов, крэшей и технических долгов. И вот, по прошествии 5 лет и сотен новых пользователей мы готовы сказать, что Manticore можно использовать как альтернативу Elasticsearch и для полнотекстового поиска и для аналитики данных.

В этой статье хочется: вспомнить как всё начиналось и что было до SOLR и Elasticsearch, максимально объективно обрисовать текущую ситуацию, попытаться понять куда нам двигаться дальше.

+117

PatientZero 16 фев 2022 в 12:54

Поиск Google умирает

7 мин

135K

Поисковые технологии*Поисковая оптимизация*

Перевод

Сегодня самый популярный поисковый движок — это Reddit. Единственные, кто этого не знает — команда Reddit, которая не может отвлечься на создание приличного интерфейса поиска. Поэтому вместо этого нам приходится прибегать к Google и добавлять в строку запроса слово «reddit».

Пол Грэм считает, что такая ситуация означает, что Reddit как сайт социальной сети «всё ещё не достиг своего пика». На самом деле это означает, что количество людей, использующих Reddit как поисковый движок, растёт.

Пол Грэм: «Reddit — уникальная соцсеть. Спустя 15 лет после запуска она всё ещё не достигла своего пика».

Почему люди ищут именно на Reddit? Короткий ответ: очевидно, что поисковые результаты Google умирают. Длинный ответ: бОльшая часть веба стала слишком недостоверной, чтобы ей доверять.

Читать дальше →

+136

436

host_m 11 янв 2021 в 11:01

Какой софт и базы использует Bellingcat в своих расследованиях?

7 мин

122K

Блог компании VDSina.ruИнформационная безопасность*Поисковые технологии*Обработка изображений*Законодательство в IT

Весь мир обсуждает последнее расследование детективного агентства Bellingcat. Кажется невероятным, что группа обычных пользователей способна распутать такое дело. При этом они используют стандартные инструменты и базы данных, зачастую доступные в интернете.

Неужели сегодня можно раскрыть преступление вообще не вставая из-за компьютера? Только на основании следов, которые люди оставляют в базах данных, в истории мессенджеров, в логах операторов связи, на камерах наблюдения?

Или это фантастический киберпанк?

Читать дальше →

+216

864

ragequit 7 апр 2020 в 15:09

Как SEO-оптимизация и алгоритмы Google уничтожили настоящий интернет

5 мин

58K

Блог компании ITSummaПоисковые технологии*Контент и копирайтинг*Поисковая оптимизация*История IT

Перевод

Примечание от переводчика: этот текст — перевод-компиляция двух небольших англоязычных заметок, которые автор почему-то разделил на два разных текста. Я уверен, что логически они связаны и представляют некоторую ретроспективную ценность. В первую очередь тем, что оспаривают устоявшееся мнение о том, что раньше интернет был похож на бурлящий котел, первичный бульон, а сейчас он — стройный, понятный и с каждым годом становится все лучше. Конечно, местами автор перегибает палку, но во многом с ним сложно не согласиться. Текст достаточно эмоционален, что я, конечно же, попытался максимально передать и адаптировать в ходе перевода. Приятного чтения.

Как SEO-оптимизация уничтожила интернет

В промежутке между 1998 и 2003 годом поиск в Google был просто волшебным. Я помню, как вводил какую-то смутную комбинацию, типа «oil mother's milk» и в итоге попал на страницу Wired с интервью Томаса Голда, астрофизика, который рассказывал о том, что залежи углеводородов (oil) пополняются за счет давления внутри геологических пластов.

Если вы сегодня ищете что-то техническое, конкретное, академическое или вообще — некоммерческое, то удачи вам. Лучшая в мире информационно-поисковая система превратилась в нечто, напоминающее Digg эры 2006 года: индексы популярности контролируются небольшим количеством финансово мотивированных игроков. Они называют себя «оптимизаторами».

Читать дальше →

+157

238

Divisi0n 20 фев 2020 в 15:37

Яндекс помогает распространять вредоносное ПО?

4 мин

125K

Информационная безопасность*Поисковые технологии*IT-компании

По роду деятельности мне приходится наблюдать за работой сотен рядовых пользователей ПК. Человек, который не первый день держит мышку, всё чаще сталкивается с проблемами при банальном скачивании бесплатного ПО. При разборе выясняется, что он всего лишь набрал в Яндексе «скачать Вайбер», а дальше что-то пошло не так. Я давно слежу за распространением заразы при непосредственном участии Яндекса. Когда-то это были единичные случаи, но теперь явление уже приобрело массовый характер. Объясню, в чём суть. Введём в запросе название любой популярной программы, которую условный домашний пользователь хочет скачать, и получим примерно такую выдачу:

Читать дальше →

+256

452

GlobalSign_admin 13 янв 2020 в 11:42

Обратный поиск изображений: руководство от детективного агентства Bellingcat

4 мин

72K

Блог компании GlobalSignИнформационная безопасность*Поисковые технологии*Обработка изображений*Машинное обучение*

Кадр одного из онлайновых расследований Bellingcat

Международное агентство Bellingcat опубликовало несколько советов по идентификации людей и географических локаций на фотографиях с помощью функции «Поиск изображений» в поисковых системах.

Оказалось, что в этом отношений нет равных российской поисковой системе «Яндекс. Картинки». По одному образцу движок находит фотографии этого лица в совершенно другой обстановке и освещении, что говорит о продвинутом распознавании лиц. У Google и других компаний нет ничего подобного, признают специалисты. Таким образом, «Яндекс» можно назвать безусловным лидером по обратному поиску изображений.

В опубликованном руководстве разъясняются базовые методы онлайн-расследований, с акцентом на идентификацию лиц и адресов.

Читать дальше →

+123

Data_center_MIRAN 8 янв 2020 в 09:05

Я потратил $40 тыс. и запорол отличную идею для стартапа

8 мин

66K

Блог компании Дата-центр «Миран»Поисковые технологии*Data Mining*Научно-популярноеЗдоровье

Перевод

Из хорошей идеи не всегда выходит бизнес

Голова буквально раскалывается. Вы стоите в аптеке, массируете виски и ищете на витрине что-нибудь — что угодно — лишь бы прекратить эту адскую боль.

Что же взять? Тайленол? Адвил? Напроксен?

Полагаю, большинство схватит что-то подешевле или что попадётся под руку, или что-нибудь знакомое. Но если вы достаточно щепетильны, то спрóсите у Google о лучшем обезболивающем без рецепта (OTC). Вот что ответит наш дружелюбный технический бегемот:

Ох спасибо, Google, ты перечислил все варианты.

Читать дальше →

+134

165

arttom 29 окт 2019 в 17:01

Обыскать 314 км² за 10 часов — финальное сражение инженеров-поисковиков против леса

15 мин

39K

Поисковые технологии*Геоинформационные сервисы*Производство и разработка электроники*DIY или Сделай самИнженерные системы*

Представьте задачу — в лесу пропали два человека. Один из них еще подвижен, другой лежит на месте и не может пошевелиться. Известна точка, где их видели последний раз. Радиус поиска вокруг нее — 10 километров. Получается территория площадью 314 км². У вас есть десять часов на поиск с помощью новейших технологий.

Услышав условие в первый раз, я подумал: «пфф, подержите мое пиво». Но потом увидел, как передовые решения спотыкаются обо все, что возможно и невозможно учесть. Летом я писал, как около 20 инженерных команд пытались решить задачу в десятки раз проще, но делали это на пределе возможностей, и только четыре команды справились. Лес оказался территорией скрытых подвохов, где современные технологии бессильны.

Тогда это был лишь полуфинал конкурса «Одиссея», организованного благотворительным фондом «Система» — цель которого придумать, как модернизировать поиск пропавших в дикой природе людей. В начале октября в Вологодской области прошел его финал. Четыре команды столкнулись с той самой задачей. Я отправился на место, чтобы понаблюдать за одним из конкурсных дней. И в этот раз ехал с мыслью, что задача — нерешаемая. Но я никак не ждал увидеть «Настоящий детектив» для любителей DIY-электроники.

+106

248

arttom 26 июн 2019 в 18:16

Инженеры спасают пропавших в лесу людей, но лес пока не сдается

11 мин

35K

Поисковые технологии*Геоинформационные сервисы*ГаджетыБудущее здесь

Каждый год спасатели ищут десятки тысяч пропавших в диких условиях людей. Из городов наша технологическая мощь кажется настолько огромной, что ей по плечу любая задача. Вроде, возьми десяток дронов, повесь на каждый по камере и тепловизору, прикрути нейросетку и все — найдет кого угодно за 15 минут. Но это совсем не так.

До сих пор технологии упираются в массу ограничений, а спасательные отряды прочесывают огромные площади сотнями волонтеров.

В прошлом году благотворительный фонд «Система» запустил проект «Одиссея» чтобы найти новые технологии поиска людей. В нем приняли участие сотни инженеров и конструкторов. Но даже подкованные технически и опытные люди иногда не подозревали, насколько лес непробиваем для технологий.

Читать дальше →

+131

446

LukaSafonov 11 янв 2019 в 07:32

Подмена поисковой выдачи Google

1 мин

46K

Блог компании Инфосистемы ДжетИнформационная безопасность*Поисковые технологии*

Перевод

Эксперт по информационной безопасности Wietze Beukema обнаружил довольно простую логическую уязвимость в формировании поисковой выдачи Google, позволяющую производить манипуляцию результатами выдачи. Несмотря на простоту уязвимости, последствия от ее применения могут быть довольно серьезными.

Читать дальше →

+109

d-sky 29 окт 2018 в 10:23

Как Яндекс пытался скопировать мой сервис тепловых карт

2 мин

117K

Поисковые технологии*

Примерно год назад я сделал такую штуку как тепловые карты цен, я тогда описал весь процесс вот в этой статье. Сервис получился интересный, но денег он не приносит совсем, просто красивая картинка наглядно показывающая где дорого, а где дешево, так сказать, имиджевая составляющая — аналогов на наших сайтах по недвижимости почему-то не было, до недавнего времени. Но на днях то же самое сделал Яндекс.

Читать дальше →

+300

335

BarakAdama 29 мая 2018 в 11:30

Яндекс.Станция. Как мы создавали первое устройство с Алисой

8 мин

107K

Блог компании ЯндексПоисковые технологии*ГаджетыИскусственный интеллектГолосовые интерфейсы*

Несколько минут назад на конференции YaC 2018 мы впервые рассказали о Яндекс.Станции. Это первое мультимедийное устройство с Алисой, которое воспроизводит музыку и фильмы, рассказывает детям сказки, помогает в повседневных делах, а также поддерживает навыки от сторонних разработчиков.

Может показаться, что для создания подобных устройств достаточно взять голосового помощника, добавить к нему простой микрофон из смартфона и спрятать всё это в корпусе недорогой аудиоколонки. На практике перед разработчиками подобных систем стоят серьёзные технологические проблемы, о решении которых в Станции мы и расскажем сегодня читателям Хабра. Вы также узнаете, что именно представляет собой технологическая платформа Yandex.IO, на основе которой и создано устройство.

Читать дальше →

+152

598

kravets 9 ноя 2017 в 18:09

Как черные SEO-оптимизаторы собирают миллионы посетителей по высоко-актуальным запросам в Яндексе

4 мин

58K

Поисковые технологии*Growth Hacking*Интернет-маркетинг*Поисковая оптимизация*

Мне казалось, что поисковики давно победили black hat тактики с помощью машинного обучения и других мощных технологий. Сети дорвеев если и остались, то только где-то на обочине интернета, в маргинальных тематиках типа казино или контента для взрослых.

Но недавно я наткнулся сразу на целую кучу спамных сайтов, которые собирают миллионы посетителей из Яндекса, легко побеждают качественные и авторитетные проекты даже в белых нишах.

Читать дальше →

+100

206

BarakAdama 22 авг 2017 в 20:06

Как Яндекс научил искусственный интеллект понимать смысл документов

10 мин

78K

Блог компании ЯндексПоисковые технологии*Семантика*Машинное обучение*

Сегодня мы расскажем о новой поисковой технологии «Королёв», которая включает в себя не только более глубокое применение нейронных сетей для поиска по смыслу, а не по словам, но и значительные изменения в архитектуре самого индекса.

Но зачем вообще понадобились технологии из области искусственного интеллекта, если еще лет двадцать назад мы прекрасно находили в поиске искомое? Чем «Королёв» отличается от прошлогоднего алгоритма «Палех», где также использовались нейронные сети? И как архитектура индекса влияет на качество ранжирования? Специально для читателей Хабра мы ответим на все эти вопросы. И начнем с самого начала.

Читать дальше →

+135

405

BarakAdama 18 июл 2017 в 12:19

Яндекс открывает технологию машинного обучения CatBoost

6 мин

102K

Блог компании ЯндексПоисковые технологии*Open source*Python*Машинное обучение*

Сегодня Яндекс выложил в open source собственную библиотеку CatBoost, разработанную с учетом многолетнего опыта компании в области машинного обучения. С ее помощью можно эффективно обучать модели на разнородных данных, в том числе таких, которые трудно представить в виде чисел (например, виды облаков или категории товаров). Исходный код, документация, бенчмарки и необходимые инструменты уже опубликованы на GitHub под лицензией Apache 2.0.

CatBoost – это новый метод машинного обучения, основанный на градиентном бустинге. Он внедряется в Яндексе для решения задач ранжирования, предсказания и построения рекомендаций. Более того, он уже применяется в рамках сотрудничества с Европейской организацией по ядерным исследованиям (CERN) и промышленными клиентами Yandex Data Factory. Так чем же CatBoost отличается от других открытых аналогов? Почему бустинг, а не метод нейронных сетей? Как эта технология связана с уже известным Матрикснетом? И причем здесь котики? Сегодня мы ответим на все эти вопросы.

+214

128

alsafr 2 ноя 2016 в 11:01

Искусственный интеллект в поиске. Как Яндекс научился применять нейронные сети, чтобы искать по смыслу, а не по словам

12 мин

130K

Блог компании ЯндексПоисковые технологии*Семантика*Машинное обучение*

Сегодня мы анонсировали новый поисковый алгоритм «Палех». Он включает в себя все те улучшения, над которыми мы работали последнее время.

Например, поиск теперь впервые использует нейронные сети для того, чтобы находить документы не по словам, которые используются в запросе и в самом документе, а по смыслу запроса и заголовка.

Уже много десятилетий исследователи бьются над проблемой семантического поиска, в котором документы ранжируются, исходя из смыслового соответствия запросу. И теперь это становится реальностью.

В этом посте я постараюсь немного рассказать о том, как у нас это получилось и почему это не просто ещё один алгоритм машинного обучения, а важный шаг в будущее.

Читать дальше →

+129

130

2 3

Поисковые технологии *

Вас забанила нейросеть: как новый алгоритм Яндекса постепенно выкидывает из поиска региональные СМИ

Новости

Почему нельзя доверять Google

SEO Выводы из утечки кода поисковика Яндекс

Как Яндекс научился распознавать, что написано в рукописных архивах

Истории

Manticore — альтернатива Эластику на C++ с 21-летней историей

Поиск Google умирает

Какой софт и базы использует Bellingcat в своих расследованиях?

Как SEO-оптимизация и алгоритмы Google уничтожили настоящий интернет

Как SEO-оптимизация уничтожила интернет

Яндекс помогает распространять вредоносное ПО?

Обратный поиск изображений: руководство от детективного агентства Bellingcat

Я потратил $40 тыс. и запорол отличную идею для стартапа

Из хорошей идеи не всегда выходит бизнес

Обыскать 314 км² за 10 часов — финальное сражение инженеров-поисковиков против леса

Инженеры спасают пропавших в лесу людей, но лес пока не сдается

Ближайшие события

Подмена поисковой выдачи Google

Как Яндекс пытался скопировать мой сервис тепловых карт

Яндекс.Станция. Как мы создавали первое устройство с Алисой

Как черные SEO-оптимизаторы собирают миллионы посетителей по высоко-актуальным запросам в Яндексе

Как Яндекс научил искусственный интеллект понимать смысл документов

Яндекс открывает технологию машинного обучения CatBoost

Искусственный интеллект в поиске. Как Яндекс научился применять нейронные сети, чтобы искать по смыслу, а не по словам

Вклад авторов