Обновить
23.46

Поисковые технологии *

От AltaVista до Яндекса

Сначала показывать
Порог рейтинга
Уровень сложности

DAT: новый способ гибридного поиска в RAG с динамической настройкой альфа-параметра

Уровень сложностиСредний
Время на прочтение15 мин
Охват и читатели8.1K

Привет, Хабр! Недавно у меня появилась задача - собрать RAG-систему для интернет-энциклопедии. В поисках решения я вышел на новый подход к гибридному RAG - “DAT: Dynamic Alpha Tuning for Hybrid Retrieval in Retrieval-Augmented Generation” (Динамическая настройка Альфа-параметра для гибридного поиска в RAG). 

Поиск по Хабру и Рунету показал, про подход DAT на русском языке еще не рассказывали, поэтому спешу поделиться находкой с вами и обсудить преимущества и недостатки этого метода. Эта статья - упрощённый пересказ научной работы. Материал будет интересен как продвинутым, так и начинающим разработчикам RAG-систем.

Читать далее

Новости

Трафик из нейросетей: как попасть в выдачу ИИ и превратить нейроответы в новый канал продвижения

Уровень сложностиПростой
Время на прочтение12 мин
Охват и читатели11K

С 2007 года я занимаюсь SEO и развиваю собственное рекламное агентство. Последние 9 месяцев плотно погрузился в исследование нейросетей как источника трафика, и мы с командой запустили отдельное направление GEO и AEO-продвижения. Такое решение продиктовано двумя причинами:

Читать далее

Как LinkedIn масштабировал поиск людей на 1,3 млрд пользователей

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели6.3K

LinkedIn запускает обновлённый поиск людей на базе генеративного ИИ — и делает это спустя, казалось бы, удивительно долгую паузу для функции, которая напрашивалась сама собой. Появление новой системы происходит три года спустя после выхода ChatGPT и через полгода после запуска ИИ-поиска вакансий в LinkedIn.

Для технических руководителей это — наглядный урок: внедрение генеративного ИИ в настоящих корпоративных условиях, да ещё в масштабе 1,3 млрд пользователей, — процесс медленный, тяжёлый и требующий постоянной прагматичной оптимизации.

Читать далее

Выявление скрытых дефектов печатных плат с помощью электротестирования

Время на прочтение3 мин
Охват и читатели8.5K

При определении разрыва цепи однозначными критерием служит отсутствие меди на определенном участке, а в случае короткого замыкания между цепями, наоборот, наличие меди там, где ее не должно быть. Однако, существуют скрытые дефекты, при которых есть нарушение работы печатной платы, но для ее обнаружения нужно сверхчувствительное оборудование. О классификации таких дефектов и их обнаружении пойдет речь в этой статье.

Скрытые дефекты опасны тем, что могут привести к отказам оборудования в самый неподходящий момент. Здесь перечислены виды срытых дефектов:

Читать далее

Чипсы вместо поиска: рекомендации пользователям, когда о них ничего не известно

Уровень сложностиСредний
Время на прочтение14 мин
Охват и читатели4.9K

На mir-kvestov.ru нужно давать рекомендации пользователям, про которых мы почти ничего не знаем: большинство не авторизованы, истории просмотров нет, на сайте только точный поиск по названию квеста. Т.е. не было даже нормальной истории текстовых запросов, из которой можно было бы собрать частотные подсказки или похожие запросы. Я обучил решающее дерево на 6500 анкетах пользователей, превратив 60 вопросов анкеты в 5 кликов по чипсам под строкой поиска. Так появилась фича, которая за пять шагов отправляет человека в нужный тип квестов. По пути пришлось согласовать математическую модель с пониманием стейкхолдеров о том «как правильно». Из этого конфликта родилось гибридное дерево, понятное и людям, и метрикам.

Читать далее

Нейросеть — это хорошо, но дайте выбор. Как я убрал «Алису» из поиска Яндекса

Уровень сложностиСредний
Время на прочтение3 мин
Охват и читатели8.8K

Привет, Хабр! Нейросети стремительно входят в нашу жизнь, и вот уже Яндекс встроил свою «Алису» прямо в поисковую выдачу. Иногда это удобно, но часто хочется видеть классический список ссылок, а не огромный блок сгенерированного текста, который отодвигает всё остальное вниз.

Я решил вернуть себе контроль над поиском и написал простое браузерное расширение, которое убирает всё лишнее, например когда пишешь олимпиаду с проктором. Назвал его «Bye Bye Alice AI». В этой короткой статье я покажу, как оно устроено.

Читать далее

Выбираем open-source эмбеддинг-модель для AI-консультанта на русском (RAG-подход)

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели8.8K

Разрабатывая AI-консультантов и ассистентов на базе RAG-архитектуры, работающих с корпоративными базами знаний на русском языке, мы столкнулись с вопросом: какие открытые эмбеддинг-модели дают лучший баланс качества семантического поиска на русском и скорости работы. Особенно это актуально, когда запросы и документы русскоязычные, но внутри часто попадаются фрагменты кода/SQL и англоязычной терминологии.

Мы прогнали 9 open-source эмбеддинг-моделей через несколько тестов, включающих проверки:

Читать далее

AI‑поиск по патентам от Perplexity: для чего использовать?

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели6.1K

AI‑поиск по патентам в Perplexity: смысл вместо ключевых слов. Оценка патентного поверенного: применимость, ограничения, риски.

Читать далее

Айсберг регистрации товарного знака: что упускает быстрый поиск и вскрывает полноценная проверка

Уровень сложностиПростой
Время на прочтение12 мин
Охват и читатели7.5K

Бесплатная проверка товарного знака за 5 минут не даёт полную картину. Когда (и как?) можно проверить самому и когда нужен специалист — чтобы не потерять бюджеты на 10 месяцев продвижения бренда и вынужденный ребрендинг.

Читать далее

Я протестировал все AI браузеры. ChatGPT Atlas — далеко не топ, и вот почему

Уровень сложностиПростой
Время на прочтение16 мин
Охват и читатели17K

Я протестировал все доступные для скачивания AI браузеры, чтобы это не пришлось делать вам: ChatGPT Atlas, Comet, Fellou, Genspark, Dia, Brave, Яндекс Браузер, Edge. Рассказываю про каждый из них — про плюсы, минусы и фишки, — а процесс тестирования приложен на видео, чтобы вы все видели своими глазами.

Читать далее

ChatGPT Atlas: реальные отзывы пользователей показывают разрыв между обещаниями и практикой

Время на прочтение8 мин
Охват и читатели15K

OpenAI выпустила ChatGPT Atlas 21 октября 2025 года — первый браузер с AI-агентами, встроенными прямо в ядро. Компания обещала революцию в том, как мы работаем в интернете. Спустя несколько дней после релиза люди уже протестировали браузер на реальных задачах — и результаты получились неоднозначными.

Агентный режим работает крайне медленно и часто не справляется с задачами, батарея на Mac разряжается с космической скоростью, а обещанная «революция в браузинге» пока больше похожа на сырой бета-продукт. При этом главный конкурент — браузер Comet от Perplexity — показывает себя в 8 раз быстрее при выполнении тех же задач.

Читать далее

Как RuStore читает мысли пользователей (и причём тут теги)

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели6.5K

Когда пользователь открывает RuStore и вводит запрос вроде «тренировки дома» или «обои с кошками», он ищет не конкретное приложение, а способ решить задачу. Наша цель, как стора, — понять, какое приложение действительно поможет ему это сделать.

За этим стоит сложный ML-пайплайн: сначала модель отбирает кандидатов по смысловой близости запроса, затем ранжирует их по релевантности. А поисковые теги помогают системе уловить контекст — в каких ситуациях и по каким запросам ваше приложение должно оказаться в топе выдачи.

Меня зовут Анастасия Войцешко, я продакт-менеджер в RuStore. В этой статье расскажу, как устроен поиск внутри стора, какую роль теги играют и как подобрать их так, чтобы повысить шансы приложения попасть в релевантную выдачу.

Читать далее

Документный хаос? RAG-система придёт на помощь

Уровень сложностиСредний
Время на прочтение13 мин
Охват и читатели6.6K

Статья описывает практическую реализацию системы Retrieval-Augmented Generation (RAG) для превращения документов в интерактивную базу знаний. Показано, как хранение эмбеддингов в Qdrant и интеграция с языковой моделью (LLM) позволяют быстро получать точные ответы на вопросы. Рассматриваются архитектура, ключевые компоненты и внутренние механизмы работы системы, полезные для разработчиков и новичков в области RAG.

Читать далее

Ближайшие события

Как Google S2R (speech-to-retrieval) решает проблему непонимания голосовых запросов

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели6.6K

«Чай. Эрл‑Грей. Горячий». Помните эту фразу капитана Пикара из «Звёздного пути»?

Меня всегда поражало, с какой лёгкостью компьютер «Энтерпрайза» понимает команды Пикара. И вы замечали — никому на мостике корабля никогда не приходится повторять сказанное?

Никто не раздражается, когда просит компьютер выдать информацию. Машина не превращает слова в текст, не сверяет звучание похожих слов, не ищет в базе совпадения. Она просто... понимает. Проще говоря, намерение переходит от речи к действию без трения — мгновенно и безошибочно.

Читать далее

Как включить ИИ-поиск Google по умолчанию в браузере Chrome

Уровень сложностиПростой
Время на прочтение1 мин
Охват и читатели14K

Короткая инструкция, как включить новый режим Google AI Mode и сделать его поиском по умолчанию в Chrome. Теперь запросы из адресной строки сразу открываются в «Режиме ИИ».

Читать далее

«Первые плоды неправильного использования ИИ» или «Что же случилось с поиском работы на должность разработчика?»

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели32K

Всем привет, я Кирилл, и я оказался на рынке труда осенью 2025 года. Давайте разберем, почему же нам, разработчикам с большим стажем перестали приходить отклики, количество собеседований уменьшилось до нуля, а со всех сторон все HR-специалисты трубят о нехватке кадров в IT. А также рассмотрим новую боль всех HR-ов. Статья носит статистический характер, пару советов и философские высказывания автора, и немного юмора.

Читать далее

Reddit в SEO 2025: как выигрывать на новом поле битвы

Уровень сложностиСредний
Время на прочтение25 мин
Охват и читатели6.3K

Пока вы оптимизировали meta-теги, Reddit стал третьим по влиянию SEO-сайтом в США. Разбираемся, почему Google теперь любит форумы больше ваших статей — и что с этим делать.

Читать далее

Что такое LLMS.TXT и почему эксперты продают бесполезный файл

Уровень сложностиСредний
Время на прочтение3 мин
Охват и читатели6.5K

Страшно, когда эксперты пишут, пережевывая то, что написали уже другие, да еще и бездумно с помощью нейросетей. А потом все дружно внедряют llms.txt, не разобравшись зачем он нужен и работает ли вообще.

Читать полностью

Scaled Rank Fusion — объединяет значения из нескольких списков с учётом масштаба

Уровень сложностиСредний
Время на прочтение3 мин
Охват и читатели5K

Семейство методов Rank Fusion включает различные алгоритмы объединения нескольких ранжированных списков результатов в один улучшенный ранжированный список с целью повышения качества и надежности итогового ранжирования.

Основная идея — агрегировать информацию из разных систем или моделей, которые могут по-разному оценивать релевантность документов.

Rank Fusion широко применяется в информационном поиске, мультимедийном поиске, гибридных системах поиска, системах на основе модели Retrieval Augmented Generation (RAG), а также в задачах ансамблевого обучения.

В статье описан новый алгоритм семейства Rank Fusion, а может и не новый, дайте знать.

Читать далее

Garbage In, Garbage Out: как мы учили ИИ искать не в веб-помойке, а в библиотеке. И чему мы научились сами

Уровень сложностиСредний
Время на прочтение17 мин
Охват и читатели7K

Ищем как Perplexity по базам научных публикаций, стандартам, книгам, мессенджерам и социальным сетям.

Читать далее
1
23 ...

Вклад авторов