Обновить
25.8

Поисковые технологии *

От AltaVista до Яндекса

Сначала показывать
Порог рейтинга
Уровень сложности

Бывшие сотрудники Google запустили первый платный поисковик. От его успеха зависит будущее интернета

Время на прочтение5 мин
Количество просмотров68K

В плане интерфейса от Google пока далеко не ушли

Два бывших топ-менеджера Google создали поисковик без рекламы и с защитой личных данных, и теперь надеются привлечь людей, которые устали от того, что «они — это продукт». Подписка на поисковик (странная фраза, правда?) стоит $4,95 в месяц. Компания уже привлекла $77,5 млн, в ней работает 60 человек, 30% из которых ранее трудились на Google. Создатели рассчитывают отобрать себе несколько процентов поискового трафика, а там, возможно, и изменить наше отношение к рекламе в Сети.

Читать дальше →

Закон о «приземлении» иностранных интернет-порталов

Время на прочтение3 мин
Количество просмотров7.3K

Дума рассмотрела в первом чтении проект закона «О деятельности иностранных лиц в информационно-телекоммуникационной сети «Интернет» на территории Российской Федерации», его также уже называют законом о «приземлении» иностранных информационных гигантов на территории России.

Кто подпадает под действие закона? Те, у кого суточная аудитория на протяжении трех месяцев составляет более 500 тысяч человек. Понятно, что речь идет о гигантах информационного рынка, но в проекте закона указано, что это может быть любой иностранный сайт, с аудиторией полумиллиона россиян в сутки. Причем под аудиторией понимается и обработка сведений о пользователях, находящихся на территории РФ, то есть сам пользователь может и не заходить на ресурс, но если его данные обрабатываются, то как говорится «плюс 1». Причем закон касается не только иностранных соцсетей и информационных порталов, в его поле зрения входят и провайдеры хостинга, рекламные агентства, почтовые сервисы и мессенджеры.

Под приземлением в законе понимается: создание зарубежными компаниями филиалов на территории России, организация на своем ресурсе форм обратной связи с пользователями и регистрация личного кабинета на порталах органов власти. Иностранцам также надо будет установить счетчик посетителей его ресурса, рекомендуемый российским надзорным органом.

Какие же последствия ждут иностранцев, которые без энтузиазма воспримут новшество? Перечислим от простого к сложному:

Последствия для иностранцев

Как провести технический аудит сайта через Screaming Frog?

Время на прочтение9 мин
Количество просмотров18K

Наличие технических ошибок на сайте может негативно сказаться на его ранжировании, что в свою очередь приведет к снижению поискового трафика и позиций в поисковых системах.

Чтобы выявить технические ошибки, необходимо провести комплексный технический SEO-аудит сайта. Одним из основных помощников в этой сложной и трудозатратной задаче для нас выступает десктопная программа Screaming Frog.

Читать далее

Знакомство с ArangoDB

Время на прочтение4 мин
Количество просмотров12K

ArangoDB – мультимодельная БД с возможностью хранения данных как графов, документов и ключ-значение.

Читать далее

I feel Brave: новый анонимный поиск открыт для всех

Время на прочтение3 мин
Количество просмотров7.3K

Запускаем публичную бету нашего независимого от адтех-гигантов поиска https://search.brave.com/, который предоставляет не имеющую аналогов анонимность.

I feel Brave

Как Яндекс применил генеративные нейросети для поиска ответов

Время на прочтение11 мин
Количество просмотров71K


Только что мы представили новую версию поиска Y1. Она включает в себя комплекс технологических изменений. В том числе улучшения в ранжировании за счёт более глубокого применения трансформеров. Подробнее об этом направлении мой коллега Саша Готманов уже рассказывал в нашем блоге. В новой версии модель стала мощнее: количество параметров возросло в 4 раза. Но сегодня мы поговорим о других изменениях.

Когда человек вводит запрос в поисковик, он ищет информацию или способ решения своей задачи. Наша глобальная цель — помогать находить такие ответы, причём сразу в наиболее ёмком виде, чтобы сэкономить людям время. Этот тренд на ускорение решения пользовательских задач особенно заметен в последние годы. К примеру, теперь многие пользователи задают свои вопросы не текстом в поиске, а голосовому помощнику. И тут нам на помощь пришли огромные генеративные нейросети, которые способны перерабатывать, суммаризировать и представлять в ёмком виде тексты на естественном языке. Пожалуй, самой неожиданной особенностью таких сетей стала возможность быстро обучаться на всё новые задачи без необходимости собирать большие датасеты.

Сегодня мы поделимся опытом создания и внедрения технологии YaLM (Yet another Language Model), которая теперь готовит ответы для Поиска и Алисы. В этом мне помогут её создатели — Алексей Петров petrovlesha и Николай Зинов nzinov. Эта история основана на их докладе с Data Fest 2021 и описывает опыт внедрения модели в реальные продукты, поэтому будет полезна и другим специалистам в области NLP. Передаю слово Алексею и Николаю.

Наша анонимность утрачена?

Время на прочтение5 мин
Количество просмотров13K

IT-технологии развиваются с каждым годом. Многие корпорации полным ходом развивают технологические подходы в области сбора и обработки полученной информации. Одним из таких подходов является использование баз данных цифровых отпечатков пользователей сети Интернет.

Отпечатки цифровых устройств или «цифровые портреты» применяются третьими лицами, не только для генерации рекламы, но и для мошенничества и «кражи личности». Пользователи сети сами того не подозревая отдают персональные и корпоративные данные, не только без согласия, но и без необходимого контроля. А Вы защищаете свой цифровой портрет?

Читать далее

Как работает поиск изображений в Dropbox

Время на прочтение11 мин
Количество просмотров4.4K

Если вам нужно найти фотографию, сделанную на пикнике несколько лет назад, вряд ли вы помните имя, которое камера автоматически присвоила файлу в момент съёмки, например, 2017-07-04 12.37.54.jpg. Вы просматриваете всё подряд — фотографии, их эскизы, пытаетесь определить объекты или признаки искомого — и не важно, ищете ли вы потерянное фото или хотите подыскать в архивах приличный снимок для презентации нового проекта.

Вот было бы здорово, если бы Dropbox мог самостоятельно просматривать все изображения и выбирать их них те, которые лучше всего соответствуют заданным в описании словам! Именно эту задачу мы поставили перед собой, создавая функцию поиска изображений.

К старту курса о машинном и глубоком обучении мы решили поделиться переводом о том, как текстовый поиск по изображениям в Dropbox работает изнутри, на каких наборах данных обучалась решающая задачу модель, как комбинировались методы, а также о том, какие Dropbox получила результаты и над чем работает сегодня.

Читать далее

У каждого приложения должна быть палитра команд

Время на прочтение4 мин
Количество просмотров7.1K
В старых и новых приложениях незаметно начинает появляться инструмент, упрощающий взаимодействие и ускоряющий выполнение действий. Это мощное поле поиска, которое я называю «power bar»; иногда оно имеет название «command palette».

Power bar, похожая на поиск Spotlight в macOS, встраивается в приложение и обычно вызывается сочетанием горячих клавиш CMD+K (или CMD+SHIFT+P). После её вызова пользователь вводит в неё то действие, которое хочет выполнить. Однако в отличие от Spotlight, power bar позволяет выполнять задачи, а не просто искать файлы или переходить в другие части приложения.


Command palette приложения Superhuman.
Читать дальше →

«А контент они за меня тоже выберут?» Как умная система рекомендаций студентам советы по учёбе даёт

Время на прочтение3 мин
Количество просмотров1.7K

Весной 2021 проходит шестой запуск проектно-образовательных интенсивов Университета 20.35: студенты из 40+ вузов объединились в команды вокруг собственных идей или бизнес-задач от компаний и разрабатывают технологические решения. Звучит уже круто, а на практике ещё лучше. Помимо проектной работы всем участникам открывается доступ в сетевое пространство непрерывного обучения с образовательными подборками и онлайн-курсами. Сегодня подход «я не знаю, этого не было в программе, у меня лапки» всё больше вызывает недоумение, поэтому студенты интенсивов сразу учатся мыслить в логике «мне нужно чему-то научиться, чтобы сделать шаг развития». До этой весны участники выстраивали индивидуальную образовательную траекторию, либо пользуясь материалами Университета 20.35, либо самостоятельно подыскивая нужные курсы, лекции, книги. Но кто сказал, что систему Lifelong Learning’а нельзя прокачать ещё больше?

Читать далее

Как переоптимизация и переспам влияют на трафик в Яндексе

Время на прочтение3 мин
Количество просмотров5.2K

После проведения основных SEO-работ на сайте косметологической клиники трафик в Google резко вырос, тогда как в Яндексе он оставался на прежнем уровне. Тогда мы внимательно изучили тексты, и нашли проблему.

Читать далее

Категория контекста

Время на прочтение12 мин
Количество просмотров2.4K

Математической моделью знаковых последовательностей с повторами (текстов) является мультимножество. Мультимножество было определено Д. Кнутом в 1969 году и позже подробно изучено А.Б. Петровским [1]. Универсальное свойство мультимножества – существование одинаковых элементов. Предельным случаем мультимножества при единичных кратностях элементов является множество. Множество с единичными кратностями, соответствующее мультимножеству, называется его порождающим множеством или доменом. Множество с нулевой кратностью – это пустое множество.

Читать далее

Как преобразовать текст в алгебру: примеры

Время на прочтение5 мин
Количество просмотров4.6K

В предыдущей статье было разработано представление знаковых последовательностей полиномами матричных единиц на примере языкового текста. Текст превращается в алгебраический объект. С текстом можно совершать все алгебраические операции, необходимые для структуризации -- вычисления заголовков, словарей, аннотаций, смысловой разметки. В данной статье приведены два примера алгебраической структуризации текстов иной природы. Азбука Морзе выбрана из-за предельной краткости словаря, а математические формулы как пример обратной задачи.

Читать далее

Ближайшие события

Продолжаем интернационализацию поиска по адресам с помощью Sphinx или Manticore. Теперь Metaphone

Время на прочтение9 мин
Количество просмотров4.2K

Это продолжение публикации «Интернационализация поиска по городским адресам. Реализуем русскоязычный Soundex на Sphinx Search», в которой я разбирал, как реализовать поддержку фонетических алгоритмов Soundex в Sphinx Search, для текста написанного кириллицей. Для текста на латинице поддержка Soundex уже есть. С Metphone аналогично, для латиницы есть, для кириллицы не очень, но попытаемся исправить этот досадный факт с помощью транслитерации, регулярных выражений и напильника.

Это прямое продолжение, в котором разберём как реализовать оригинальный Metaphone, русский Metaphone (в том смысле что транслитерация не понадобится), Caverphone, и не сможем сделать Double Metaphone.

Реализация подойдёт как для использования на платформе Sphinx Search, так и Manticore Search.

В конце, посмотрим как Metaphone воспримет "ракомакофон".

Продолжаем...

Как построить свою систему поиска похожих изображений

Время на прочтение10 мин
Количество просмотров31K

В интернете есть много информации о поиске похожих изображений и дубликатов. Но как построить свою систему? Какие современные подходы применять, на каких данных обучать, как валидировать качество поиска и куда смотреть при выводе в production?

В этой статье я собрал все необходимые компоненты поисковой системы на изображениях в одном месте, разбавив контент современными подходами.

Читать далее

Поиск изображений

Время на прочтение5 мин
Количество просмотров13K

Пытаясь реализовать обратный поиск изображений для своего сайта, я столкнулся с огромным миром поиска изображений. Ниже приведены краткие описания и варианты применения некоторых подходов обратного поиска/поиска похожих изображений.

Читать далее

Яндекс – не Рунет, Рунет – не Яндекс: ФАС попросила немного равноправия

Время на прочтение10 мин
Количество просмотров14K

Забирает ли Яндекс 20% трафика у аналогичных сервисов за счёт неравенства в поисковой выдаче? Давайте разберёмся.

Если вкратце – основная проблема, что Яндекс, пусть и будучи частной компанией, злоупотребляет своим доминирующим положением на рынке интернет-поиска и продвигает свои собственные проекты методами недоступными другим участникам рынка и в ущерб последним. При этом по антимонопольному законодательству если поиск является рынком, то так делать нельзя. Если же поиск является собственностью Яндекса — можно. То есть либо Яндекс может делать всё, что хочет, поскольку это их поиск, или же есть регулируемая область типа рынка рекламы, и в этом рынке должна соблюдаться какая-то нейтральность, соответствующая антимонопольному положению России.

Мой коллега Дмитрий разбирал эту ситуацию с юридической стороны вот в этом посте. Я покажу, что именно не так, и покажу примеры того, что мы показывали ФАС, когда они в ответ на вопрос про наличие или отсутствие рынка запросили доказательства возможных злоупотреблений.

ФАС рассмотрела проблему и нашла, что одна из главных проблем сейчас в «колдунщиках», конкретно – что с помощью них Яндекс перекрывает органическую выдачу привилегированными сервисами. Во-вторых, были замечены манипуляции в ранжировании, опять-таки в пользу собственных сервисов Яндекса (это, хотя и более существенно, но продемонстрировать сложнее).
Читать дальше →

В 2020 году две трети поисковых запросов в Google завершалось без нажатия на ссылку

Время на прочтение4 мин
Количество просмотров11K


В августе 2019 года было опубликовано исследование ныне уже несуществующего поставщика данных о посещениях Jumpshot, демонстрирующее, что 50,33% всех поисковых запросов Google завершалось без клика на веб-ресурсы в результатах поиска. Сегодня благодаря новым данным SimilarWeb удалось внести в этот анализ существенное дополнение.

С января по декабрь 2020 года 64,82% поисковых запросов в Google (суммарные данные по десктопам и мобильным устройствам) завершилось результатами поиска без кликов на сторонние веб-ресурсы. Вероятно, в этой статистике недооценены некоторые мобильные и почти все голосовые запросы, поэтому возможно, что более двух третей всех поисковых запросов Google являются тем, что называется «запросами с нулевыми кликами» (zero-click searches). Некоторые специалисты указывают, что «нулевые клики» — это немного ошибочный термин, поскольку к этой группе относится и поиск, который завершается кликом внутри самого Google SERP (например, при нажатии на звуки животных здесь или при нажатии на номер телефона на поле с картой). Однако терминология, похоже, устоялась, поэтому её нужно объяснить.
Читать дальше →

Как преобразовать текст в алгебру

Время на прочтение10 мин
Количество просмотров4.9K

Как пишут тексты в Большой Академии в Лагадо

Алгебра и язык (письменность) являются двумя разными инструментами познания. Если их объединить, то можно рассчитывать на появление новых методов машинного понимания. Определить смысл (понять) – это вычислить как часть соотносится с целым. Современные поисковые алгоритмы уже имеют задачей распознавание смысла, а тензорные процессоры Google выполняют матричные умножения (свертки), необходимые для алгебраического подхода. При этом в семантическом анализе используются в основном статистические методы. В алгебре выглядело бы странным использование статистики при поиске, например, признаков делимости чисел. Использование алгебраического аппарата полезно также для интерпретации результатов вычислений при распознавании смысла текста.

Читать далее

Как именно нужно читать предупреждение ФАС «Яндексу» и что оно значит для Рунета

Время на прочтение14 мин
Количество просмотров20K


Я один из многих юристов, который больше года назад участвовал в подготовке обращения в ФАС с вопросом, нормально ли, что Яндекс стал лучшим поиском по сервисам Яндекса. Собственно, ответ пришёл несколько недель назад в виде «предупреждения о прекращении действий (бездействия), которые содержат признаки нарушения антимонопольного законодательства».

Вопрос был в том, правильно ли то, что Яндекс даёт преференции своим сервисам в поиске. Суть вопроса сводилась к тому, можно ли считать отдельным рынком рынок поиска.

Дело вот в чём: если юридически поиск в интернете — это рынок, то на нём действует антимонопольное законодательство. И тогда, цитируя сам Яндекс (точнее, пост об иске против Google): «это обращение  —  признание одного неприятного факта. У нас с вами есть все шансы попасть в страну, где только одна компания будет решать, какими сервисами будут пользоваться люди». И если «мы всегда верили в конкуренцию и право выбора пользователя», то ФАС должна восстановить справедливость.

Если же поиск в интернете — это не отдельный рынок, то Яндекс — частная компания, которая в своём поиске может делать что хочет. Ведь это их поиск, их алгоритмы ранжирования и их ручные настройки. Частное дело частной компании.

Коротко: ФАС усмотрела признаки нарушений (пока де-юре не сами нарушения, это важно) в действиях Яндекса. И попросила, по сути, вернуть нейтральность в поиск, то есть обеспечить чуть более равные условия всем компаниям на рынке. В перспективе это может коснуться не только Яндекса, но и любого поиска в России.

Предупреждение ФАС это, по сути, предложение: «сделайте вот так, пожалуйста, или мы возбудим дело», поэтому давайте детально разберёмся, что же происходит.

В предупреждении обозначено, что рынок поиска есть, и это крайне важно для Рунета. Давайте посмотрим, почему.
Читать дальше →

Вклад авторов