Как стать автором
Обновить
29.51

Поисковые технологии *

От AltaVista до Яндекса

Сначала показывать
Порог рейтинга
Уровень сложности

Мозг уже не нужен. Нейро - новый сервис Яндекса

Уровень сложностиПростой
Время на прочтение1 мин
Количество просмотров4.8K

Есть афоризм:
Правильно заданный вопрос - половина ответа.
(верно подсказали в комментариях - не поговорка, а именно афоризм)

Но теперь всё изменилось. Для поиска информации уже не нужен мозг, как основной инструмент для поиска информации. Теперь вместо собственного мозга у нас есть замечательный сервис НЕЙРО.

https://ya.ru/n/about?utm_source=promo_cards

Любой ответ — лишь отражение информации, которая нашлась в источниках.

Сначала нейросети переформулируют вопрос. Затем находят релевантные источники для ответа и выбирают пять самых полезных. Потом собирают из информации в этих источниках понятный ответ.

Нейро особенно полезен, когда нужно разобраться в теме, он изучит и сопоставит информацию из полезных источников. Выделит важное и подскажет, на что обратить внимание.

Вы задаёте вопрос так, как он приходит в голову. Нейро отвечает, опираясь на источники.

Многие вещи гораздо проще показать, чем объяснить, поэтому Нейро понимает изображения. Просто загружаете картинку и спрашиваете, например: «Как это починить?».

Задавайте вопросы, для которых нужно изучить много информации из разных источников. Нейро сам сравнит варианты если сомневаетесь, что выбрать или в чём отличие.

Для того, чтобы найти ответ уже не надо даже пытаться разобраться в сути.

Не озвучена прямо лишь суть сервиса:
Нейросеть сама за Вас разберется в том вопросе, в котором могли бы разобраться Вы сами.

- Вы что же, и думать за меня будете?
- АГА!!!

Зато я разобрался - почему пост набрал минусов. Нахватать минусов от Яндекса в первом же посте на Хабре - повод гордиться собой!
https://habr.com/ru/companies/yandex/articles/807801/ - честно говорю - увидел только что. Комментарии там убедили, что сделал всё правильно.

Читать
Всего голосов 11: ↑1.5 и ↓9.5-8
Комментарии15

Новости

Поиск по коду — это сложно

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров6K

Функциональность поиска на Val Town не очень впечатляет. Сейчас в её основе лежит механизм ILIKE Postgres, работающий на основе алгоритма поиска подстроки: если искомое выражение в коде есть, оно выводится в результатах. Этот процесс не включает никакого ранжирования, и очень слабо поддерживает запросы из нескольких слов. Более эффективный поиск является одной из самых желанных для нас возможностей.
Читать дальше →
Всего голосов 26: ↑31 и ↓-5+36
Комментарии3

Яндекс запустил Нейро. Рассказываем, как он работает

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров43K

Сегодня мы запустили новый сервис Нейро — новый способ поиска ответов на вопросы. Пользователь может задать Нейро любой вопрос, а тот сам подберёт подходящие материалы в Поиске, проанализирует их и соберёт найденную информацию в одном ответе, подкрепив его ссылками на источники. Нейро объединил опыт Яндекса в создании поисковых технологий и больших языковых моделей. 

Меня зовут Андрей Сюткин, и я отвечаю за ML-трек в Нейро. В этой статье покажу, как выглядит архитектура Нейро и как формируются ответы на технологическом уровне. Ну и, конечно же, поговорим о нейросетях, в том числе о YandexGPT 3, без обучения которых новый сервис просто не увидел бы свет.

Читать далее
Всего голосов 89: ↑88.5 и ↓0.5+88
Комментарии142

Алгоритм расчёта расстояния между строками

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров6.2K

По работе стояла задача оптимизации поиска по адресам (улицы, дома и объекты). Главный критерий - нахождение адреса, если написано с ошибками или не дописан он в полной мере. Bert’ы, косинусные расстояния эмбеддингов и т.д. не подходили, так как они заточены под смысловой поиск, а в адресах смысла нет. TF-IDF c лемматизацией тоже не очень подходил для этой задачи, результаты были плохие.

Для реализации начал использовать расстояние Дамерау-Левенштейна, и в последствие, развил это до собственного алгоритма, который находит расстояние между двумя строками.

Цель данного поста описание только алгоритма.

Читать далее
Всего голосов 16: ↑16 и ↓0+16
Комментарии17

Истории

Клетка ХV. Картирование типов клеток

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров955

Изучение человека в настоящее время проводится множеством разных наук известными и новыми методами и весьма интенсивно. В мире осуществляются многомиллиардные исследовательские проекты. Изучаются геном, протеом, транскриптом человека, мозг человека и другие составляющие организма. Люди поняли, что пришло время серьезно взяться за изучение самих себя, своего организма, состоящего из триллионов взаимосвязанных клеток. Сложность организма, обеспечивается, однако, не только наличием большого количества выполняющих разные функции клеток, но также их взаимодействием на уровне межклеточной среды, тканей и даже целых органов. 

В рамках проекта Атлас клеток человека (Human Cell Atlas) создан такой атлас и уже используется. Он включил данные, полученные сразу несколькими международными исследовательскими коллективами. Развитие современных технологий секвенирования РНК отдельных клеток (scRNA-seg) показало, что типы клеток человеческого организма очень многообразны, сейчас насчитываются сотни различных типов. В предлагаемой работе приводится характеристика транскриптома, в рамках которого осуществляется картирование клеток, его структура и динамичность.

Транскриптом называют молекулу РНК, образующуюся в результате транскрипции (экспрессии соответствующего гена или участка ДНК). Примерами транскриптов являются: матричные РНК (мРНК). В статье приводится характеристика транскриптома, его структура и динамичность. Методы исследования транскриптов. Кодирующие и некодирующие РНК, их классификация, микро РНК, siРНК, нано-РНК, сборка транскриптов кратко рассматриваются в публикации.

Цель публикации в первую очередь образовательная, познавательная, популяризация науки, а также стремление привлечь в ряды исследователей, в науку приток новых молодых умов, вызвать в таких умах стремление к поиску ответов на возникающие вопросы. Масштабность темы требует ввести разумные ограничения на излагаемый материал после краткого панорамного ее рассмотрения.

Читать далее
Всего голосов 14: ↑11 и ↓3+8
Комментарии0

Поиск в будущем

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров1.3K

Привычный поиск, вроде Google, работает сугубо в прошлом. То есть любые результаты, которые вы можете увидеть - это то, что уже произошло. Кроме того, есть ещё дополнительные временные издержки на индексирование: дни или даже недели. Неплохо для исторических справок, но всегда слишком поздно для важных новостей.

Есть и другой путь - "перспективный" поиск. Суть его в том, чтобы получить результат в будущем. Лучше всего подходит для наблюдения за СМИ, поиска работы и других типов выгодных предложений.

Читать далее
Всего голосов 5: ↑5.5 и ↓-0.5+6
Комментарии3

Как я чтение всего контента на RSS переводил

Уровень сложностиПростой
Время на прочтение13 мин
Количество просмотров5.6K

TL;DR В статье рассказывается о том, как мне удалось перевести чтение лент в ВКонтакте**, Telegram, Facebook*, Instagram**, Reddit и почтовых рассылок в единый сервис InoReader. Причем почти без написания своих велосипедов.

Подписаться на RSS
Всего голосов 41: ↑40.5 и ↓0.5+40
Комментарии32

ActivityPub в Awakari

Уровень сложностиСредний
Время на прочтение2 мин
Количество просмотров621

Сегодня всё больше и больше сервисов объявляют о своей поддержке ActivityPub, в том числе даже такие, как Tumblr или Threads. И это ожидаемо, так как ActivityPub позволяет сохранять контроль над собственными данными, в отличие от закрытых сервисов Meta. Кроме того, это позволяет обмениваться данными более независимо (Fediverse). Применение ActivityPub не ограничивается социальными сетями и блогами. Есть сервисы для хостинга изображений, видео, музыки и многое другое.

Если рассматривать все эти активности как события, то это позволит сервису Awakari открыть целое новое измерение в Fediverse. Используя Awakari можно отслеживать интересные события из неограниченного множества источников.

Читать далее
Рейтинг0
Комментарии9

Как обезопасить веб-сайт от атак ботов через Cloudflare

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров3.8K

Сегодня расскажу как быстро и просто можно заблокировать вредных ботов через Cloudflare и дать дорогу полезным ботам от Google и Яндекс.

Читать далее
Всего голосов 8: ↑4 и ↓40
Комментарии5

Как оценить работу SEO-подрядчика и проверить эффективность продвижения?

Время на прочтение6 мин
Количество просмотров2.4K

SEO-оптимизация – это комплекс работ, направленный на повышение позиций сайта в поисковике. Вот только как компании по производству окон или интернет-магазину определить, насколько добросовестно специалист выполняет свои обязанности? Какие KPI-показатели должны присутствовать в отчетах, сказывается ли стратегия продвижения на увеличении продаж, сколько времени занимает SEO-оптимизация? Об этом расскажем в статье.

Читать далее
Всего голосов 6: ↑4 и ↓2+2
Комментарии2

Таинственные EASM и где они обитают. Часть 3. Где ты?

Время на прочтение3 мин
Количество просмотров494

В заключительной части исследования эксперты СайберОК сравнивают предоставление информации ASM-системами с точки зрения пользователя. Прочитать первую часть можно тут, а вторую тут.

Читать далее
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

После RSS

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров2.2K

В свободное время я занимаюсь разработкой сервиса "Awakari", идея которого - фильтрация интересных событий из неограниченного числа различных источников. В этой статье я расскажу о способах извлечения публично доступной информации в интернете за пределами RSS-лент и телеграм-каналов.

Читать далее
Всего голосов 12: ↑12 и ↓0+12
Комментарии4

Поисковый движок в 80 строках Python

Время на прочтение11 мин
Количество просмотров11K

В сентябре я устроился на должность поискового дата-саентиста и с тех пор часть моих обязанностей заключается в работе с Solr — опенсорсным поисковым движком на основе Lucene. Я знал основы работы поискового движка, но мне хотелось понять его ещё лучше. Поэтому я закатал рукава и решил создать его с нуля.

Давайте поговорим о целях. Слышали когда-нибудь о «кризисе сложности обнаружения маленьких веб-сайтов»? Проблема в том. что маленькие веб-сайты наподобие моего невозможно найти при помощи Google или любого другого поискового движка. Какова же моя миссия? Сделать эти крошечные веб-сайты снова великими. Я верю в возвращение славы этих малышей вдали от SEO-безумия Google.

В этом посте я подробно расскажу о процессе создания поискового движка с нуля на Python. Как обычно, весь написанный мной код можно найти в моём GitHub (репозиторий microsearch). Эта реализация не будет притворяться готовым к продакшену поисковым движком, это лишь полезный пример, демонстрирующий внутреннюю работу поискового движка.

Кроме того, мне стоит признаться, что в заголовке поста я слегка преувеличил. Да, поисковый движок действительно реализован примерно в 80 строках Python, но я ещё и писал вспомогательный код (краулер данных, API, HTML-шаблоны и так далее), из-за которого весь проект становится немного больше. Однако я считаю, что интересная часть проекта находится в поисковом движке, который состоит из менее чем 80 строк.

P.S. Написав этот пост и microsearch, я осознал, что пару лет назад нечто похожее написал Барт де Гёде. Моя реализация очень похожа на работу Барта, но я считаю что кое-что улучшил, в частности: (1) мой краулер асинхронный, что сильно ускоряет работу, (2) я реализовал пользовательский интерфейс, позволяющий взаимодействовать с поисковым движком.

Читать далее
Всего голосов 29: ↑29 и ↓0+29
Комментарии4

Ближайшие события

«Душа молчит, хоть слышит всё вокруг»: как мы отучаем генеративные модели галлюцинировать

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров8.1K

Вот так когда-то отвечала языковая модель, когда её просили привести пример стихотворения Бальмонта. Стихотворение с таким названием действительно есть, но начинается оно совсем не так. 

К сожалению, генеративные модели могут галлюцинировать и выдумывать ответ. С таким мы боремся с помощью внешней информации.

Мы, Александр Кайгородов и Светлана Маргасова, обучаем генеративные модели в Яндексе. В этой статье мы расскажем, как заставить генеративные модели перестать придумывать несуществующие факты и как научиться находить эти ошибки, если они всё же случаются. Вы узнаете о том, как использовать внешнюю информацию, опираясь на которую мы можем выполнять как обусловленную генерацию (Retrieval Augmented Generation), так и фактологическую оценку имеющихся генераций (Fact-Check). 

Читать далее
Всего голосов 28: ↑28 и ↓0+28
Комментарии33

Внедрение Elasticsearch с Ruby on Rails для расширенного поиска

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров1.4K

Elasticsearch - это поисковый движок, который позволяет в реальном времени работать с огромными объемами данных. Он основан на Lucene и предлагает не только полнотекстовый поиск, но и сложные запросы к данным, включая агрегацию.

Ruby on Rails — это фреймворк, который делает акцент на скорости и простоте разработки. Используя принципы convention over configuration и DRY, Rails позволяет сосредоточиться на уникальной логике приложения, минимизируя количество шаблонного кода.

В статье рассмсотрим как использовать Elasticsearch вместе с Ruby on Rails для реализации поиска внутри приложения.

Читать далее
Всего голосов 14: ↑11 и ↓3+8
Комментарии2

Таинственные EASM и где они обитают. Часть 2. Как ты?

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров732

В первой части мы рассмотрели основные возможности EASM и их географическое покрытие.  Далее мы сравним функции поиска и анализа информации, предоставляемые разными системами.

Читать далее
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Таинственные EASM и где они обитают. Часть 1. Кто ты?

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров1.2K

Мы, эксперты Сайбер ОК, приглашаем вас в турне по сравнению систем класса External Attack Surface Management. Проверим точность как базовых функций таких систем (определение открытых портов и продуктов на конечных устройствах, нахождение связанных с ними доменов), так и определения уязвимостей. В путь!

Читать далее
Всего голосов 3: ↑2 и ↓1+1
Комментарии3

CodeLLM теперь в Поиске Brave

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров1.4K

Поиск Brave теперь включает в себя CodeLLM на основе ИИ для запросов, связанных с программированием. CodeLLM совмещает глубину и качество поисковой выдачи с возможностями резюмирования и объяснения больших языковых моделей. CodeLLM предоставляет программистам возможность получить сгенерированные ИИ фрагменты кода на основе результатов поиска, а также пошаговые объяснения к ним и ссылки на цитируемые материалы, которые можно применять в целях валидации результатов выдачи. CodeLLM бесплатна и интегрирована в Поиск Brave, так что пользователям не требуется переключаться между приложениями и подвергать свою конфиденциальность риску. 

Читать далее
Всего голосов 10: ↑10 и ↓0+10
Комментарии4

Про автоматическое SEO продвижение — стоит ли использовать и когда?

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров3.1K

Как то на Яндекс Кью попросили ответить на вопрос про автоматическое SEO продвижение — стоит ли его использовать и почему? Показываю на схемах (примерах) когда автоматическое SEO подходит а когда нет.

Читать далее
Всего голосов 15: ↑3 и ↓12-9
Комментарии3

Семантический поиск и генерация текста на R. Часть 2

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров934

В первой части говорили про использование поиска и генерации ответа с помощью языковых моделей. В этой части рассмотрим память и агентов.

Читать далее
Всего голосов 3: ↑3 и ↓0+3
Комментарии0
1
23 ...

Вклад авторов