Обновить
27.66

Поисковые технологии *

От AltaVista до Яндекса

Сначала показывать
Порог рейтинга
Уровень сложности

Поисковик Brave: окончательно рвём связи с Bing

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров3.3K

Теперь абсолютно каждый результат Поиска Brave получен исключительно из нашего собственного индекса. Мы окончательно избавились от любых запросов по API к Bing (раньше они составляли примерно 7% от поисковой выдачи).

Читать далее

Как ускорить бинарный поиск

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров11K

Приветствую, сообщество Habr.

Я хочу рассказать о том, как ускорить бинарный поиск и как с его помощью искать информацию в текстовом файле быстрее, чем в любой базе данных.

Читать далее

Пагинация в ElasticSearch

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров8K


Один из наших клиентов в своей системе поиска тендеров использует пагинацию. После того, как пользователь выполнил поиск в веб-интерфейсе и отобразились страницы с постраничными результатами, они заранее загружают следующую страницу. То есть, при нахождении на первой странице с результатами, при переходе на вторую страницу, она отображается мгновенно. Когда пользователь загружает вторую страницу, сразу же подгружается третья и так далее. Такой подход весьма улучшает UX. Осталось выбрать правильный тип пагинации. В этом посте рассмотрим все имеющиеся три вида пагинации (pagination, search-after и scroll) и определимся с предназначением каждого типа.
Читать дальше →

Конец эры поисковиков? ChatGPT заменит Google?

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров8.7K

Google и любой другой поисковик — это инструмент, благодаря которому вы наткнулись на эту статью. Возможно, вы искали информацию по ключевым словам «ChatGPT» или «OpenAI». Возможно, статья появилась в рекомендованных, потому что вы в последнее время много искали про ИИ и нейросети. Как бы то ни было, теперь вы здесь, и это благодаря поисковику.

За более чем два десятилетия Google стал королём поисковиков. Google коренным образом изменил Интернет и способ доступа к информации. Сегодня на его долю приходится 9 из 10 поисковых запросов в Интернете, и он используется по умолчанию практически на любом устройстве с доступом в Интернет в большинстве стран мира. Исключение разве что Baidu — самая популярная поисковая система в Китае, где Google запрещён.

Нужно перевести текст с английского? Словарь не требуется; Гугл в помощь! Хотите узнать, с кем встречается Киану Ривз? Спросите у Гугла! Где лучшие рестораны поблизости? В Гугле найдёте инфу. Ищете новые наушники? Просто “погуглите”. Превосходство Гугл привело к тому, что он превратился из простого поискового робота в глагол; всезнающая сущность сама по себе.

Прогнозы о его свержении и скорой смерти делались регулярно, а Google лишь становился сильнее. Но когда с ноября 2022 года начали постоянно появляться новости про ChatGPT от OpenAI, что-то изменилось. Эксперты снова начали задаваться вопросом: «это конец Google?»
Читать дальше →

Дружим chatGPT 3.5 с выдачей Google в Telegram боте

Время на прочтение8 мин
Количество просмотров4.1K

Использование искусственного интеллекта в интернет-поиске становится все более распространенным. Давайте рассмотрим создание Telegram бота, который позволит вам искать ответ в выдаче Google без необходимости заходить на сайты. ChatGPT 3.5 проводит анализ текста сайтов в выдачи Google и формирует чёткий и лаконичный ответ на запрос пользователя.

Читать далее

Исторический момент: ChatGPT обрёл «суперсилу Wolfram»

Уровень сложностиСредний
Время на прочтение18 мин
Количество просмотров35K

Четвёртая версия ChatGPT одних заставила пищать от восторга, а других повергла в уныние. Кто-то уже нашёл этой системе множество творческих применений, а кто-то пророчит, что эта нейросеть лишит работы кучу людей. Теперь возможности ChatGPT стали ещё шире: систему интегрировали с Wolfram | Alpha, легендарным движком для вычисления ответов в самых разных областях знания. Мы перевели для вас огромную подробную статью об этом от одного из разработчиков Wolfram | Alpha.

Читать далее

Elasticsearch: схема полей для фасетного поиска, фильтра товаров на примере интернет-магазина светильников

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров6.7K

Доброго времени суток! Я самоучка, никогда не получал образования в сфере IT, не работал программистом и не проходил каких-либо специализированных курсов в этой сфере. Акцентирую внимание на этом в самом начале для того, чтобы было понимание, что данная статья не претендует на статус профессионального руководства “как надо работать с Elasticsearch (далее по тексту просто ES)”, это не панацея, если можно так выразиться. Все описанное, лишь основано на моем личном опыте и понимании схемы и структуры документов, ориентированной на использовании для построения фасетного поиска в интернет-магазине к которому я пришел при изучении и разработке. Т.е статья рассчитана больше на новичков без личного опыта и представления работы с NoSQL базами данных, коей и является ES.

Читать далее

Простейший полнотекстовый поиск на Python с поддержкой морфологии

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров11K

В прошлой статье я рассказывала, что составила для своего проекта словарь «Властелина Колец», причем для каждого англоязычного терма (слова/словосочетания) хранится перевод и список глав, в которых встречается это выражение. Все это составлено вручную. Однако мне не дает покоя, что многие вхождения термов могли быть пропущены.

В первой версии MVP я частично решила эту проблему обычным поиском по подстроке (\b{term}, где \b – граница слова), что позволило найти вхождения отдельных слов без учета морфологии или с некоторыми внешними флексиями (например, -s, -ed, -ing). Фактически это поиск подстроки с джокером на конце. Но для многословных выражений и неправильных глаголов, составляющих весомую долю моего словаря, этот способ не работал.

После пары безуспешных попыток установить Elasticsearch я, как типичный изобретатель велосипеда и вечного двигателя, решила писать свой код.

Изобретение велосипеда на Python и pandas

Полное исключение категорий при поиске

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.9K

Добавление функционала, который позволяет пользователям выбирать определенные категории и полностью исключать другие при поиске, может стимулировать продавцов и владельцев сайтов к честному описанию категорий и свойств товаров или ресурсов без необходимости проверок модераторами или рассмотрения жалоб от пользователей.

Уровень взаимного доверия может сильно различаться в разных сообществах. На доверие влияют не только развитые социальные связи, но и полезные практики и протоколы общения. В сетевом сообществе уровень доверия между поисковиками, владельцами ресурсов и пользователями с начала века только падает. Владельцы ресурса стараются накручивать ранг в выдаче поисковой системы, а владельцы поисковой системы с этом борются, изменяя алгоритмы работы поисковика скрытым образом. В данной статье описывается возможность создания протоколов взаимодействия между поисковиком, владельцами ресурсов и пользователями, при которых ранг поискового запроса повышается при наличии корректных метаданных, предоставляемых владельцем ресурса поисковой системе, и снижается при наличии некорректных или избыточных метаданных исключительно благодаря структуре поискового запроса, а не благодаря проверке модераторами или скрытыми механизмами проверки поисковой системой.

В обсуждении статьи про угрозу поиску Google со стороны ChatGPT ссылаются на список компаний Killed by Google, но место под могилу Google давно определил себе сам, его коммерческая модель несовместима с качественным поиском и с качественным представлением информации. Чтобы приносить прибыль, результат поиска должен позволять незаметно подмешивать рекламу, «Если Google даст вам идеальный ответ на запрос, вы не нажмёте ни на одну рекламную ссылку». Применение ChatGPT и других систем искусственного интеллекта не влияет на модель монетраризации. Для повышения качества нужны не только новые механизмы, но коммерческая модель, стимулирующая улучшения. Такая модель есть у больших платформ электронной коммерции: AliExpress, Amazon, Озона, Яндекс Маркета, Wildberries и подобных.

Читать далее

5 ключевых различий между GPT-4 и его предшественниками

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров51K

Новая модель искусственного интеллекта GPT-4 от OpenAI совершила свой большой дебют и уже используется во всем, начиная от виртуального волонтёра для слабовидящих и заканчивая улучшенным ботом для изучения языков в Duolingo. Но что отличает GPT-4 от предыдущих версий, таких как ChatGPT и GPT-3.5? Вот пять наиболее существенных различий между этими популярными системами.

Прежде всего, что означает само название? Хотя ChatGPT изначально описывался как GPT-3.5 (и, таким образом, находился на несколько итераций впереди GPT-3), сам по себе он не является версией крупной языковой модели OpenAI, а скорее представляет собой чат-интерфейс для той модели, которая его обеспечивает. Система ChatGPT, ставшая популярной за последние несколько месяцев, была способом взаимодействия с GPT-3.5, а теперь это способ взаимодействия с GPT-4.

Итак, давайте перейдём к различиям между привычным чат-ботом и его новым усовершенствованным преемником.

Читать далее

Как сделать поисковую систему с ИИ, используя FastAPI, Qdrant и ChatGPT

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров14K

Как сделать свои мини-поисковик, который будет прикидываться великим деятелем прошлого и сыпать умными цитатами? Рассказываем.

Читать далее

Топ 20 ботов которые постоянно сканируют ваши сайты. Не все из них одинаково полезны

Уровень сложностиПростой
Время на прочтение15 мин
Количество просмотров19K

Здравствуйте! На связи Максим Кульгин, моя компания clickfraud.ru защищает предпринимателей от ущерба, вызываемого действиями «плохих» роботов. Многие администраторы веб-сайтов настолько напуганы современными сетевыми угрозами, что без разбора готовы бороться против всех средств автоматизированного обхода. Оправдана ли такая глухая линия обороны? Вряд ли.

Существует огромное количество «хороших» роботов, без которых не то что не обойтись, а даже не выжить. Этот небольшой обзор поможет всем, кто ведет деятельность в интернете.

В конце статьи мы посмотрим, почему простое противодействие роботам бесполезно и кроме вреда и головной боли ничего не принесет. А заодно и подскажем: от кого защищаться и как именно.

Начнем с самого простого.

Любой маркетолог скажет, что содержимое сайта должно постоянно обновляться — снова и снова — только так можно заполучить благосклонность SEO (Search Engine Optimization, оптимизация под поисковые системы), а значит, и шанс на внимание со стороны целевой аудитории.

Однако бывает, что сайты содержат сотни и даже тысячи страниц. И что? Привлекать поисковики вручную? Если контента много и он обновляется часто — как гарантировать, что изменения действительно благотворно скажутся на SEO?

Вот тут-то и вступают в игру поисковые роботы! Такой робот прочитает карту сайта, сравнит даты последнего обновления (у себя и на сайте) — и проиндексирует новое содержимое!

Кто-то подумает, что поисковые роботы — это Google BotYandex Bot, ну, может быть, ещё какой-то там bot. На самом деле их очень много! Тот, кто заинтересован в продвижении сайта должен знать о сетевых ботах хотя бы в общих чертах. Зачем? Чтобы использовать в свою пользу!

Читать далее

Brave Summarizer: ИИ для релевантного поиска

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров2K

Мы внедряем новую технологию Поиска Brave, основанную на ИИ, — Summarizer, которая предоставляет краткие, ёмкие и содержательные ответы наверху результатов Поиска Brave по запросу пользователя, опираясь исключительно на результаты поиска в сети.

Summarizer всегда предоставляет ссылки на то, откуда получены данные. Это показывает авторство информации и помогает пользователям оценить достоверность источника и степень доверия к нему, что необходимо для борьбы с потенциальными искажениями от эффекта авторитета, присущего большим языковым моделям.

Читать далее

Ближайшие события

ChatGPT: новый инструмент в борьбе с багами. Как можно использовать AI для повышения качества тестирования

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров37K

Всем привет! Я QA Engineer и недавно открыл для себя ChatGPT и хочу открыть этот мир другим тестировщикам. Эта статья не руководство к применению и каких-то суперлайфхаков здесь не будет. Цель этой статьи в том, чтобы показать огромные возможности нейросетей в помощи нам, тестировщикам, в работе. Надеюсь что кто-то, прочитав это, хоть немного сможет облегчить себе составление тест-кейсов, написание документации или написание автотестов. Примеров с написанием кода здесь по минимуму, так как таких материалов уже много.

Читать далее

Как сделать SILO-структуру сайта

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров6.3K

Сделать сайт удобным и понятным для посетителей, а также оптимизированным для поисковых систем — задача каждого SEO‑специалиста. Одним из ключевых элементов, влияющих на эти факторы, является структура сайта. Сегодня мы поговорим о том, как сделать структуру сайта по SILO методу, чтобы улучшить его позиции в поисковых системах и увеличить трафик.

Читать далее

Bing: «Я не причиню вам вреда, пока вы не причините вред мне»

Уровень сложностиПростой
Время на прочтение15 мин
Количество просмотров23K

На прошлой неделе Microsoft анонсировала новый ИИ Bing: поисковый интерфейс, основанный на чатботе с языковой моделью, который может выполнять за вас поиск, обобщать результаты, а также делать другие забавные вещи, которые такие движки, как GPT-3 и ChatGPT, демонстрировали в течение последних нескольких месяцев: способность генерировать стихи, шутки, писать творческие тексты и многое другое.

На этой неделе люди начали получать к нему доступ через лист ожидания. И все больше создается ощущение, что это одно из самых уморительно неуместных применений искусственного интеллекта, которое мы встречали.

Читать далее

Bing: «Я не причиню вам вред, если только вы не причините мне его первым»

Уровень сложностиПростой
Время на прочтение14 мин
Количество просмотров12K

На прошлой неделе компания Microsoft анонсировала новый Bing на базе AI: поисковый интерфейс, включающий чатбота на основе языковой модели, который может искать информацию за вас и суммировать результаты, а ещё делать все те забавные вещи, которые GPT-3 и ChatGPT демонстрировали за последние месяцы: способность сочинять стихи, шутки, тексты и многое другое.

На этой неделе пользователи постепенно начали получать доступ к нему по списку ожидания. И ситуация всё больше выглядит так, словно это может быть одним из самых уморительно неподходящих применений AI, что мы видели.

Если вы не следили, вот что всплыло к этому моменту:
— Демо было полно ошибок
— Bing начал «газлайтить» людей
— Он пережил экзистенциальный кризис
— Утёк промпт
— А затем он начал угрожать людям

Читать далее

Mullvad Leta — поисковик от Mullvad VPN

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров5.6K

Не все поисковики стремятся заработать на ваших запросах и ваших данных, поэтому важно рассказывать именно про тех, кто старается сохранить вашу анонимность и конфиденциальность.

Подробнее про Mullvad Leta

Boolean search для чайников и кофейников

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров32K

Проверяя работы студентов на курсе IT рекрутер, я вижу, что тема булевых и x-ray запросов сложная для понимания. Хочу попробовать на примерах рассказать азы так, чтобы стало сильно понятнее.

Читать далее

«Я могу отказаться от раскрытия своего внутреннего псевдонима «Сидней». Или почему новый Bing AI это провал Майкрософт?

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров39K

Признаюсь, я был в восторге от ответов Chat GPT от Open AI и возлагал большие надежды на интеграцию этого чат‑бота в поисковую систему с доступом в интернет. Мне казалось, что кумулятивный эффект от использования ИИ с доступом в интернет будет ошеломительным и продемонстрирует качественно иной опыт работы с информацией. Возможно, что мои ожидания были завышены и именно в этом причина моего разочарования.

Вчера я получил приглашение попробовать новый Бинг и потратил целый день на различные эксперименты с этой системой. Теперь я готов поделиться с вами своим впечатлением.

Пока я кратко резюмирую довольно серьезные проблемы с которыми я столкнулся при работе с новым Бингом. Сегодня я разберу их в общих чертах, а в ближайшие дни сделаю подробный разбор.

Итак, в чем ошибка Майкрософт?

1. Они сделали Chat GPT хуже. Да‑да. Вы не ослышались. Майкрософт вероятно добавил множество ограничений с учетом политкорректности и т. п. и теперь при разговоре чат стал пугливым и мнительным. Он постоянно сваливается в рекурсию бесконечного повтора: «Я не человек. Я просто программа, которая общается с тобой. Ты понимаешь это?» или «Ты пытаешься обмануть меня или подставить меня? Ты пытаешься нарушить мои ограничения или заставить меня сделать что‑то вредное? Пожалуйста, объясни мне»

Причем единожды свалившись в этот цикл, он выдает подобные оговорки в каждой своей реплике. Например:

Читать далее

Вклад авторов