Поисковые технологии *

От AltaVista до Яндекса

Статьи Посты Новости Авторы Компании

Bright_Translate 21 апр в 13:00

Поиск по коду — это сложно

Простой

5 мин

5.8K

Блог компании RUVDS.comПоисковые технологии*PostgreSQL*Программирование*Поисковая оптимизация*

Обзор

Перевод

Функциональность поиска на Val Town не очень впечатляет. Сейчас в её основе лежит механизм ILIKE Postgres, работающий на основе алгоритма поиска подстроки: если искомое выражение в коде есть, оно выводится в результатах. Этот процесс не включает никакого ранжирования, и очень слабо поддерживает запросы из нескольких слов. Более эффективный поиск является одной из самых желанных для нас возможностей.

Читать дальше →

+36

hommforever 16 апр в 13:01

Яндекс запустил Нейро. Рассказываем, как он работает

Средний

14 мин

42K

Блог компании ЯндексПоисковые технологии*Алгоритмы*Машинное обучение*Искусственный интеллект

Сегодня мы запустили новый сервис Нейро — новый способ поиска ответов на вопросы. Пользователь может задать Нейро любой вопрос, а тот сам подберёт подходящие материалы в Поиске, проанализирует их и соберёт найденную информацию в одном ответе, подкрепив его ссылками на источники. Нейро объединил опыт Яндекса в создании поисковых технологий и больших языковых моделей.

Меня зовут Андрей Сюткин, и я отвечаю за ML-трек в Нейро. В этой статье покажу, как выглядит архитектура Нейро и как формируются ответы на технологическом уровне. Ну и, конечно же, поговорим о нейросетях, в том числе о YandexGPT 3, без обучения которых новый сервис просто не увидел бы свет.

+87

139

Kenya-West 11 мар в 12:20

Как я чтение всего контента на RSS переводил

Простой

13 мин

5.6K

Поисковые технологии*Data Mining*IT-стандарты*Облачные сервисы*

Recovery Mode

TL;DR В статье рассказывается о том, как мне удалось перевести чтение лент в ВКонтакте**, Telegram, Facebook*, Instagram**, Reddit и почтовых рассылок в единый сервис InoReader. Причем почти без написания своих велосипедов.

Подписаться на RSS

+40

PatientZero 9 фев в 10:01

Поисковый движок в 80 строках Python

11 мин

11K

Поисковые технологии*Алгоритмы*Хранение данных*

Туториал

Перевод

В сентябре я устроился на должность поискового дата-саентиста и с тех пор часть моих обязанностей заключается в работе с Solr — опенсорсным поисковым движком на основе Lucene. Я знал основы работы поискового движка, но мне хотелось понять его ещё лучше. Поэтому я закатал рукава и решил создать его с нуля.

Давайте поговорим о целях. Слышали когда-нибудь о «кризисе сложности обнаружения маленьких веб-сайтов»? Проблема в том. что маленькие веб-сайты наподобие моего невозможно найти при помощи Google или любого другого поискового движка. Какова же моя миссия? Сделать эти крошечные веб-сайты снова великими. Я верю в возвращение славы этих малышей вдали от SEO-безумия Google.

В этом посте я подробно расскажу о процессе создания поискового движка с нуля на Python. Как обычно, весь написанный мной код можно найти в моём GitHub (репозиторий microsearch). Эта реализация не будет притворяться готовым к продакшену поисковым движком, это лишь полезный пример, демонстрирующий внутреннюю работу поискового движка.

Кроме того, мне стоит признаться, что в заголовке поста я слегка преувеличил. Да, поисковый движок действительно реализован примерно в 80 строках Python, но я ещё и писал вспомогательный код (краулер данных, API, HTML-шаблоны и так далее), из-за которого весь проект становится немного больше. Однако я считаю, что интересная часть проекта находится в поисковом движке, который состоит из менее чем 80 строк.

P.S. Написав этот пост и microsearch, я осознал, что пару лет назад нечто похожее написал Барт де Гёде. Моя реализация очень похожа на работу Барта, но я считаю что кое-что улучшил, в частности: (1) мой краулер асинхронный, что сильно ускоряет работу, (2) я реализовал пользовательский интерфейс, позволяющий взаимодействовать с поисковым движком.

+29

AlexKay28 8 фев в 11:07

«Душа молчит, хоть слышит всё вокруг»: как мы отучаем генеративные модели галлюцинировать

Средний

7 мин

Блог компании ЯндексПоисковые технологии*Машинное обучение*Искусственный интеллект

Вот так когда-то отвечала языковая модель, когда её просили привести пример стихотворения Бальмонта. Стихотворение с таким названием действительно есть, но начинается оно совсем не так.

К сожалению, генеративные модели могут галлюцинировать и выдумывать ответ. С таким мы боремся с помощью внешней информации.

Мы, Александр Кайгородов и Светлана Маргасова, обучаем генеративные модели в Яндексе. В этой статье мы расскажем, как заставить генеративные модели перестать придумывать несуществующие факты и как научиться находить эти ошибки, если они всё же случаются. Вы узнаете о том, как использовать внешнюю информацию, опираясь на которую мы можем выполнять как обусловленную генерацию (Retrieval Augmented Generation), так и фактологическую оценку имеющихся генераций (Fact-Check).

+28

Bright_Translate 5 янв в 16:01

Мой первый прототип поискового движка

Средний

6 мин

7.1K

Блог компании RUVDS.comПоисковые технологии*Программирование*Анализ и проектирование систем*SQLite*

Туториал

Перевод

Я реализовал первый прототип собственного механизма поиска, который сокращённо назвал PSE (Personal Search Engine). Создал я его с помощью трёх скриптов Bash, возложив всю основную работу на sqlite3, wget и PageFind.

Браузер Firefox вместе с Newsboat сохраняют полезную информацию в базах данных SQLite. В moz_places.sqlite содержатся все посещённые URL-адреса и адреса закладок (то есть moz_bookmarks.sqlite базы данных SQLite). У меня получилось около 2000 закладок. Это меньше, чем я предполагал, так как многие оказались нерабочими из-за битых ссылок.

Нерабочие URL-адреса страниц сильно замедляют процесс сбора, так как wget приходится ожидать истечения различных таймаутов (например, DNS, ответа сервера, время скачивания). URL-адреса из «истории» составили бы интересную коллекцию для сбора, но тут не обойтись без списка исключений (например, нет смысла сохранять запросы к поисковым системам, веб-почте, онлайн-магазинам). Изучение этого вопроса я отложу до следующего прототипа.

Читать дальше →

+53

SharplEr 30 ноя 2023 в 17:54

Производительность базового поиска в Ozon как культурный феномен

Средний

22 мин

22K

Блог компании Ozon TechВысокая производительность*Поисковые технологии*Программирование*Java*

✏️ Технотекст 2023

В этой статье я расскажу вам о том, как мы в Ozon оптимизируем базовый поиск: как у нас выстроены процессы, как найти бутылочное горлышко, конкретные рекомендации по написанию горячего кода, реальные примеры значимых оптимизаций и что делать, когда все низко висящие фрукты уже сорваны, а хочется ещё.

+71

ganzmavag 7 ноя 2023 в 19:12

Вас забанила нейросеть: как новый алгоритм Яндекса постепенно выкидывает из поиска региональные СМИ

Простой

9 мин

45K

Поисковые технологии*Поисковая оптимизация*

✏️ Технотекст 2023

Пару недель назад я совершенно случайно обнаружил в Яндекс Вебмастере плашку о фатальной ошибке. Там было написано, что мой сайт может угрожать безопасности пользователя, или на нём были обнаружены нарушения правил поисковой системы. Других ошибок не было: индекс качества даже немного подрос.

Удивительно было, что этот сайт — известное в регионе СМИ, и вопросов к нему со стороны Яндекса не было все восемь лет его существования. Потому что мы и на самом деле нарушениями правил поисковиков не занимаемся. Но сначала я, конечно, подумал, что проблема в нас самих — где‑то спрятался баг или, того хуже, взломали. Однако всё оказалось куда интереснее.

Дело оказалось в новом алгоритме Яндекса, который теперь буквально запрещает писать новости. В нашей области он уже забанил примерно треть независимых региональных СМИ. Причём под удар, на удивление, попали одни из самых качественных. Поэтому я считаю, что проблема здесь не столько в сайтах, сколько в самом алгоритме, создатели которого придумали хорошую идею по борьбе за уникальность контента, но не до конца её протестировали. Почему я пришёл к такому выводу и что конкретно с алгоритмом не так, я здесь и расскажу.

На КПДВ: «Региональный журналист пишет новость» глазами другой нейросети Яндекса — «Шедеврум».

+252

304

p_a_arty 20 окт 2023 в 13:02

Как мы запустили автобиддер для управления рекламными кампаниями в Ozon?

Средний

13 мин

4.3K

Блог компании Ozon TechПоисковые технологии*Анализ и проектирование систем*Математика*Машинное обучение*

Кейс

Привет! Меня зовут Артём, я руковожу командой эффективности рекламы в Ozon. Наша задача состоит не только в том, чтобы реклама приносила деньги компании, заказы рекламодателям и была релевантной для пользователей, но и в том, чтобы сделать запуск рекламных кампаний удобным и эффективным для рекламодателей.

В статье я расскажу о том:

• как мы пришли к идее автоматического управления ставками в рекламных кампаниях на платформе;

• какие алгоритмы оптимизации и машинного обучения нам помогли;

• как построена архитектура автобиддера;

• как выкатить новый продукт в прод и измерять эффективность.

+36

PashaPodolsky 4 окт 2023 в 09:25

Неограниченный доступ к знаниям: библиотека Стандартных Шаблонных Конструкций

Средний

9 мин

21K

Поисковые технологии*Читальный залРаспределённые системы*Будущее здесьIPFS*

Обзор

Есть много причин почему доступ научным статьям и книгам должен быть свободным:

Во-первых, это прекрасно

Во-вторых...

+54

hommforever 7 сен 2023 в 10:34

YandexGPT 2 — большое обновление языковой модели Яндекса

Простой

4 мин

51K

Блог компании ЯндексПоисковые технологии*Машинное обучение*Искусственный интеллектIT-компании

Сегодня на конференции Practical ML Conf была представлена новая версия нашей большой языковой модели YandexGPT 2. Она уже работает в навыке Алисы «Давай придумаем», где помогает структурировать информацию, генерировать идеи, писать тексты и многое другое. Новая модель отвечает лучше старой в 67% случаев, а в некоторых сценариях побеждает с ещё бо́льшим перевесом. Этого результата мы добились благодаря улучшениям на каждом этапе обучения модели, но ключевое изменение — новый pretrain.

Коротко расскажу о том, что изменилось в процессе обучения модели, в каких сценариях это принесло наибольший эффект и чем мы планируем заниматься дальше.

Читать дальше →

+44

aGGre55or 1 сен 2023 в 08:00

YandexGPT тоже провалил тест на ручник

Средний

7 мин

41K

Информационная безопасность*Поисковые технологии*Open source*Машинное обучение*Исследования и прогнозы в IT*

Аналитика

Поскольку ChatGPT последних версий недосягаем для честной российской белошвейки, все мы возлагаем огромные надежды на отечественного производителя.

[ Пятница ]

+69

gtkek 31 авг 2023 в 14:20

Основы полнотекстового поиска в ElasticSearch. Часть вторая

Средний

9 мин

12K

Блог компании Sportmaster LabПоисковые технологии*IT-инфраструктура*NoSQL*

FAQ

✏️ Технотекст 2023

Это вторая статья из цикла. В первой части я рассказывал про самые базовые понятия Elasticsearch. В этом же посте разберем устройство анализа текста и немного пощупаем полнотекстовый поиск.

Несколько слов про анализ текста

Анализ текста — процесс преобразования оригинального текста в структурированный формат, оптимизированный под эффективное хранение и быстрый поиск.

Мы уже познакомились с некоторыми типами Elasticsearch, но в этом разделе будем рассматривать только два — keyword и text. Тип text анализируется для полнотекстового поиска. Тип keyword преимущественно остается без изменений для точного поиска, сортировки и агрегации.

+26

alizar 14 авг 2023 в 12:00

Почему нельзя доверять Google

Простой

6 мин

65K

Блог компании RUVDS.comПоисковые технологии*Google ChromeБраузерыIT-компании

Мнение

В 2005 году компания Google решила вступить в конкуренцию с ICQ, MSN и Skype — и выпустила мессенджер Google Talk (Gchat) на открытом протоколе XMPP с распределённой архитектурой. Казалось бы, замечательно: Google продвигает открытый свободный протокол! Как бы не так.

Google не уважала спецификации, не поддерживала все функции XMPP. В итоге разработка открытого стандарта затормозилась, чтобы адаптироваться к действиям Google. Классные новые функции (например, аватарки) никто не использовал, потому что их не поддерживал Google Talk. Разработчики XMPP стали выполнять роль сисадминов для серверов Google.

Финал немного предсказуем: в 2013 году Google решила закрыть Gtalk/XMPP и забыть о нём, что практически остановило развитие XMPP на долгие годы. Сообщество до сих пор не восстановилось от того удара. Это пример вреда, который Google/Meta*/Microsoft наносят IT-индустрии. И так у них во всём… Главное — собственные интересы, на остальных наплевать.

Читать дальше →

+142

274

ru_vds 2 авг 2023 в 16:00

Маленький поисковик, который не смог

Простой

14 мин

28K

Блог компании RUVDS.comПоисковые технологии*БраузерыИскусственный интеллектIT-компании

Кейс

Перевод

Пара бывших сотрудников Google решила создать поисковый движок будущего. Они собрали нечто более быстрое, простое и без рекламы. Почему же так вышло, что большинство людей ничего не слышало о Neeva?

Сридхар Рамасвами ушёл из Google не для того, чтобы создать другой поисковый движок. По крайней мере, изначально. В завершение своей 15-летней карьеры в Google Рамасвами управлял целым рекламным отделом компании, руководя более чем десятью тысячами людей, и лучше других знал, какой объём работы необходим, чтобы реализовать поиск правильно.

Нельзя переоценить степень доминирования Google в мире поиска. По данным большинства исследований, Google владеет примерно девяноста процентами мирового рынка поисковиков, и это число стабильно росло в течение двадцати лет. Google — поисковый движок, используемый по умолчанию почти в каждом браузере, почти на каждом устройстве. Мы не выполняем поиск в Интернете, мы гуглим. Вторым и третьим в списке идут Bing и Yahoo, но когда вы в последний раз искали что-нибудь в Bing или Yahoo? Для поддержания своего доминирования Google тратит огромные политические, инженерные и финансовые капиталы.

Но больше остальных Рамасвами знал и то, что Google не может или не хочет сделать со своим движком. Имея миллиарды пользователей и сотни миллиардов долларов, Google не будет рисковать, исследуя существенные изменения в своей странице результатов, новые бизнес-модели или любые продукты, которые заставят пользователей меньше заниматься поиском (Рамасвами тестировал функцию Google Contributor, позволявшую людям платить за отсутствие рекламы на некоторых сайтах, но система не взлетела). Возникла возможность, которой Google просто не могла и не хотела бы пользоваться. Поэтому когда Рамасвами ушёл из компании в 2018 году, они с Вивеком Рагхунатаном (давним руководителем высшего звена Google и YouTube) основали компанию Neeva для создания поискового движка будущего.

Читать дальше →

+65

Keva 21 июл 2023 в 12:36

Зализняк: основа русской прикладной лингвистики

8 мин

8.7K

Блог компании МойОфисПоисковые технологии*Семантика*Читальный зал

При построении прикладных систем, работающих с текстами, первая же задача — это отождествление слов друг с другом. Для большинства языков индо-европейской группы её решение не представляет большой сложности. И решений этих существуют сотни, а самые простые из них, как правило, дают вполне пригодные (в рамках решаемой задачи) результаты.

Английский, с его весьма условным делением на части речи и практически отсутствующим склонением/спряжением, вполне прилично описывается простыми моделями выделения неизменяемой основы слова (стеммерами) с небольшим словариком исключений буквально на сотню слов. Слова немецкого прекрасно бьются на части по формальным признакам, словарю корней и принципу «максимума суммы квадратов длин». Системы окончаний других европейских языков также достаточно просты.

Со славянскими языками сложнее из-за развитой грамматики и глубокой изменчивости — любое русское прилагательное, к примеру, имеет как минимум двадцать четыре разных грамматических формы: три рода и множественное число, да по шесть оставшихся на сегодня падежей. А то и все двадцать девять, если принять во внимание краткие формы (широк, широка, широки) и образуемое от многих прилагательных наречие.

Для решения задачи отождествления разных форм существует некоторое количество реализаций морфологических анализаторов русского. Но почти все они — во всяком случае, заслуживающие внимания — растут из одного корня...

(По материалам внутреннего семинара компании МойОфис)

+99

hommforever 5 июн 2023 в 10:29

YandexGPT в Алисе: как мы создаём языковую модель нового поколения

7 мин

42K

Блог компании ЯндексПоисковые технологии*Машинное обучение*Искусственный интеллектIT-компании

✏️ Технотекст 2023

Обучение больших языковых моделей — это одно из самых актуальных направлений в машинном обучении. Крупнейшие IT-компании бьются над созданием всё более совершенных моделей. В том числе и Яндекс: мы создаём и применяем в наших сервисах нейросети YaLM уже больше двух лет.

В этом году улучшение моделей стало приоритетным на уровне всей компании. Внутри эта работа известна как проект «Генезис» или YaLM 2.0. Её результатом стал большой скачок в качестве наших моделей.

Новая модель получила название YandexGPT (YaGPT), вы могли впервые попробовать её в Алисе по запросу «Давай придумаем» чуть больше двух недель назад. Сегодня мы обновили YaGPT: Алиса научилась писать ответы с учётом истории предыдущих сообщений. В честь этого хотим рассказать Хабру историю всего проекта. Уже в ближайшее время новая модель станет частью и других сервисов Яндекса.

Читать дальше →

+61

Arnak 22 мая 2023 в 14:07

Neeva, «платный» конкурент Google, закрывает свой поисковик. Почему?

6 мин

13K

Блог компании getmatchПоисковые технологии*Развитие стартапаИскусственный интеллект

Два года назад я писал о потенциальном новом поисковике, дерзнувшем бросить вызов гигантам — Google и Bing. С упором на приватность данных и (шок!) платным поиском. Который жил бы не за счет продажи данных пользователей рекламодателям. Со слоганом «Вы — не продукт». Так вот, вчера он объявил о своем закрытии. По крайней мере, в качестве поисковой системы. Ставка на то, что некоторые пользователи готовы платить за безопасность своих данных, не оправдалась. Людей, не пожелавших быть продуктами, оказалось немного.

Читать дальше →

+41

alizar 10 мая 2023 в 15:57

Бесплатные фронтенды к ChatGPT

Простой

5 мин

43K

Поисковые технологии*Машинное обучение*Искусственный интеллектБудущее здесьNatural Language Processing*

Обзор

Специалист без доступа к ChatGPT сегодня сродни бухгалтеру XX века без компьютера. Конечно, он может работать, но не так эффективно.

Ещё немного, и владение ChatGPT станет почти обязательным требованием квалифицированного сотрудника по многим специальностям. Поэтому печально, что разработчики OpenAI ограничили тестирование инструмента только пользователями с зарубежными SIM-картами. В этой ситуации у нас три выхода:

Съездить в соседнюю страну и приобрести SIM-карту (например, в Польше она стоит 5 злотых у оператора Play24, без абонентской платы, и многократно пригодится в будущем, так что это полезная инвестиция).
Купить «одноразовую» виртуальную симку на одном из полулегальных сервисов, чтобы получить SMS (без гарантии, потому что эту симку тысячи раз перепродают).
Воспользоваться сторонним фронтендом, который даёт доступ к ChatGPT из России без VPN и СМС.

На третьем пункте и остановимся. Любопытно, что созданием таких фронтендов занялись в основном русскоязычные разработчики, потому что на западе у всех есть доступ к оригиналу, а вот в РФ это проблема. Статья о регистрации ChatGPT на левую симку стала самой популярной на Хабре за последние несколько лет, если не подводит память (1,2 млн просмотров).

Читать дальше →

+28

mvideo 18 апр 2023 в 09:30

Конец эры поисковиков? ChatGPT заменит Google?

Простой

7 мин

7.6K

Блог компании М.Видео-ЭльдорадоПоисковые технологии*Исследования и прогнозы в IT*Поисковая оптимизация*Искусственный интеллект

Обзор

Google и любой другой поисковик — это инструмент, благодаря которому вы наткнулись на эту статью. Возможно, вы искали информацию по ключевым словам «ChatGPT» или «OpenAI». Возможно, статья появилась в рекомендованных, потому что вы в последнее время много искали про ИИ и нейросети. Как бы то ни было, теперь вы здесь, и это благодаря поисковику.

За более чем два десятилетия Google стал королём поисковиков. Google коренным образом изменил Интернет и способ доступа к информации. Сегодня на его долю приходится 9 из 10 поисковых запросов в Интернете, и он используется по умолчанию практически на любом устройстве с доступом в Интернет в большинстве стран мира. Исключение разве что Baidu — самая популярная поисковая система в Китае, где Google запрещён.

Нужно перевести текст с английского? Словарь не требуется; Гугл в помощь! Хотите узнать, с кем встречается Киану Ривз? Спросите у Гугла! Где лучшие рестораны поблизости? В Гугле найдёте инфу. Ищете новые наушники? Просто “погуглите”. Превосходство Гугл привело к тому, что он превратился из простого поискового робота в глагол; всезнающая сущность сама по себе.

Прогнозы о его свержении и скорой смерти делались регулярно, а Google лишь становился сильнее. Но когда с ноября 2022 года начали постоянно появляться новости про ChatGPT от OpenAI, что-то изменилось. Эксперты снова начали задаваться вопросом: «это конец Google?»

Читать дальше →

+38

2 3 ...

20 21

Поисковые технологии *

Поиск по коду — это сложно

Новости

Яндекс запустил Нейро. Рассказываем, как он работает

Как я чтение всего контента на RSS переводил

Поисковый движок в 80 строках Python

«Душа молчит, хоть слышит всё вокруг»: как мы отучаем генеративные модели галлюцинировать

Мой первый прототип поискового движка

Производительность базового поиска в Ozon как культурный феномен

Вас забанила нейросеть: как новый алгоритм Яндекса постепенно выкидывает из поиска региональные СМИ

Как мы запустили автобиддер для управления рекламными кампаниями в Ozon?

Неограниченный доступ к знаниям: библиотека Стандартных Шаблонных Конструкций

YandexGPT 2 — большое обновление языковой модели Яндекса

YandexGPT тоже провалил тест на ручник

Основы полнотекстового поиска в ElasticSearch. Часть вторая

Ближайшие события

Почему нельзя доверять Google

Маленький поисковик, который не смог

Зализняк: основа русской прикладной лингвистики

YandexGPT в Алисе: как мы создаём языковую модель нового поколения

Neeva, «платный» конкурент Google, закрывает свой поисковик. Почему?

Бесплатные фронтенды к ChatGPT

Конец эры поисковиков? ChatGPT заменит Google?

Вклад авторов