Поисковые технологии *

От AltaVista до Яндекса

СтатьиПостыНовостиАвторыКомпании

Arnak 4 июл 2021 в 10:51

Бывшие сотрудники Google запустили первый платный поисковик. От его успеха зависит будущее интернета

5 мин

68K

Блог компании getmatchПоисковые технологии * Развитие стартапа

В плане интерфейса от Google пока далеко не ушли

Два бывших топ-менеджера Google создали поисковик без рекламы и с защитой личных данных, и теперь надеются привлечь людей, которые устали от того, что «они — это продукт». Подписка на поисковик (странная фраза, правда?) стоит $4,95 в месяц. Компания уже привлекла $77,5 млн, в ней работает 60 человек, 30% из которых ранее трудились на Google. Создатели рассчитывают отобрать себе несколько процентов поискового трафика, а там, возможно, и изменить наше отношение к рекламе в Сети.

Читать дальше →

+47

278

Galperin_Mark 1 июл 2021 в 10:26

Закон о «приземлении» иностранных интернет-порталов

3 мин

7.3K

Блог компании ITSOFTСоциальные сетиЗаконодательство в ITПоисковые технологии * Мессенджеры *

Дума рассмотрела в первом чтении проект закона «О деятельности иностранных лиц в информационно-телекоммуникационной сети «Интернет» на территории Российской Федерации», его также уже называют законом о «приземлении» иностранных информационных гигантов на территории России.

Кто подпадает под действие закона? Те, у кого суточная аудитория на протяжении трех месяцев составляет более 500 тысяч человек. Понятно, что речь идет о гигантах информационного рынка, но в проекте закона указано, что это может быть любой иностранный сайт, с аудиторией полумиллиона россиян в сутки. Причем под аудиторией понимается и обработка сведений о пользователях, находящихся на территории РФ, то есть сам пользователь может и не заходить на ресурс, но если его данные обрабатываются, то как говорится «плюс 1». Причем закон касается не только иностранных соцсетей и информационных порталов, в его поле зрения входят и провайдеры хостинга, рекламные агентства, почтовые сервисы и мессенджеры.

Под приземлением в законе понимается: создание зарубежными компаниями филиалов на территории России, организация на своем ресурсе форм обратной связи с пользователями и регистрация личного кабинета на порталах органов власти. Иностранцам также надо будет установить счетчик посетителей его ресурса, рекомендуемый российским надзорным органом.

Какие же последствия ждут иностранцев, которые без энтузиазма воспримут новшество? Перечислим от простого к сложному:

Последствия для иностранцев

MediaNation 30 июн 2021 в 13:53

Как провести технический аудит сайта через Screaming Frog?

9 мин

18K

Тестирование веб-сервисов * Клиентская оптимизация * Поисковые технологии * Веб-разработка *

Recovery Mode

Наличие технических ошибок на сайте может негативно сказаться на его ранжировании, что в свою очередь приведет к снижению поискового трафика и позиций в поисковых системах.

Чтобы выявить технические ошибки, необходимо провести комплексный технический SEO-аудит сайта. Одним из основных помощников в этой сложной и трудозатратной задаче для нас выступает десктопная программа Screaming Frog.

-2

kuderr 24 июн 2021 в 19:00

Знакомство с ArangoDB

4 мин

12K

Программирование * Поисковые технологии * Базы данных * NoSQL *

Из песочницы

ArangoDB – мультимодельная БД с возможностью хранения данных как графов, документов и ключ-значение.

BraveSoftware 24 июн 2021 в 11:53

I feel Brave: новый анонимный поиск открыт для всех

3 мин

7.3K

Блог компании BraveПоисковые технологии * Браузеры

Перевод

Запускаем публичную бету нашего независимого от адтех-гигантов поиска https://search.brave.com/, который предоставляет не имеющую аналогов анонимность.

I feel Brave

+15

BarakAdama 10 июн 2021 в 08:00

Как Яндекс применил генеративные нейросети для поиска ответов

11 мин

71K

Блог компании ЯндексNatural Language Processing * Алгоритмы * Машинное обучение * Поисковые технологии *

Только что мы представили новую версию поиска Y1. Она включает в себя комплекс технологических изменений. В том числе улучшения в ранжировании за счёт более глубокого применения трансформеров. Подробнее об этом направлении мой коллега Саша Готманов уже рассказывал в нашем блоге. В новой версии модель стала мощнее: количество параметров возросло в 4 раза. Но сегодня мы поговорим о других изменениях.

Когда человек вводит запрос в поисковик, он ищет информацию или способ решения своей задачи. Наша глобальная цель — помогать находить такие ответы, причём сразу в наиболее ёмком виде, чтобы сэкономить людям время. Этот тренд на ускорение решения пользовательских задач особенно заметен в последние годы. К примеру, теперь многие пользователи задают свои вопросы не текстом в поиске, а голосовому помощнику. И тут нам на помощь пришли огромные генеративные нейросети, которые способны перерабатывать, суммаризировать и представлять в ёмком виде тексты на естественном языке. Пожалуй, самой неожиданной особенностью таких сетей стала возможность быстро обучаться на всё новые задачи без необходимости собирать большие датасеты.

Сегодня мы поделимся опытом создания и внедрения технологии YaLM (Yet another Language Model), которая теперь готовит ответы для Поиска и Алисы. В этом мне помогут её создатели — Алексей Петров petrovlesha и Николай Зинов nzinov. Эта история основана на их докладе с Data Fest 2021 и описывает опыт внедрения модели в реальные продукты, поэтому будет полезна и другим специалистам в области NLP. Передаю слово Алексею и Николаю.

+66

yarchex 4 июн 2021 в 18:22

Наша анонимность утрачена?

5 мин

13K

IT-стандарты * IT-инфраструктура * Поисковые технологии * Информационная безопасность *

IT-технологии развиваются с каждым годом. Многие корпорации полным ходом развивают технологические подходы в области сбора и обработки полученной информации. Одним из таких подходов является использование баз данных цифровых отпечатков пользователей сети Интернет.

Отпечатки цифровых устройств или «цифровые портреты» применяются третьими лицами, не только для генерации рекламы, но и для мошенничества и «кражи личности». Пользователи сети сами того не подозревая отдают персональные и корпоративные данные, не только без согласия, но и без необходимого контроля. А Вы защищаете свой цифровой портрет?

Picard 27 мая 2021 в 16:19

Как работает поиск изображений в Dropbox

11 мин

4.4K

Блог компании SkillfactoryПоисковые технологии * IT-инфраструктура * Машинное обучение *

Перевод

Если вам нужно найти фотографию, сделанную на пикнике несколько лет назад, вряд ли вы помните имя, которое камера автоматически присвоила файлу в момент съёмки, например, 2017-07-04 12.37.54.jpg. Вы просматриваете всё подряд — фотографии, их эскизы, пытаетесь определить объекты или признаки искомого — и не важно, ищете ли вы потерянное фото или хотите подыскать в архивах приличный снимок для презентации нового проекта.

Вот было бы здорово, если бы Dropbox мог самостоятельно просматривать все изображения и выбирать их них те, которые лучше всего соответствуют заданным в описании словам! Именно эту задачу мы поставили перед собой, создавая функцию поиска изображений.

К старту курса о машинном и глубоком обучении мы решили поделиться переводом о том, как текстовый поиск по изображениям в Dropbox работает изнутри, на каких наборах данных обучалась решающая задачу модель, как комбинировались методы, а также о том, какие Dropbox получила результаты и над чем работает сегодня.

host_m 20 мая 2021 в 09:05

У каждого приложения должна быть палитра команд

4 мин

7.1K

Блог компании VDSina.ruПоисковые технологии * Интерфейсы * Анализ и проектирование систем *

Перевод

В старых и новых приложениях незаметно начинает появляться инструмент, упрощающий взаимодействие и ускоряющий выполнение действий. Это мощное поле поиска, которое я называю «power bar»; иногда оно имеет название «command palette».

Power bar, похожая на поиск Spotlight в macOS, встраивается в приложение и обычно вызывается сочетанием горячих клавиш CMD+K (или CMD+SHIFT+P). После её вызова пользователь вводит в неё то действие, которое хочет выполнить. Однако в отличие от Spotlight, power bar позволяет выполнять задачи, а не просто искать файлы или переходить в другие части приложения.

Command palette приложения Superhuman.

Читать дальше →

+20

2035university 6 мая 2021 в 07:22

«А контент они за меня тоже выберут?» Как умная система рекомендаций студентам советы по учёбе даёт

3 мин

1.7K

Блог компании Университет 20.35Поисковые технологии * Управление проектами * Будущее здесь

Весной 2021 проходит шестой запуск проектно-образовательных интенсивов Университета 20.35: студенты из 40+ вузов объединились в команды вокруг собственных идей или бизнес-задач от компаний и разрабатывают технологические решения. Звучит уже круто, а на практике ещё лучше. Помимо проектной работы всем участникам открывается доступ в сетевое пространство непрерывного обучения с образовательными подборками и онлайн-курсами. Сегодня подход «я не знаю, этого не было в программе, у меня лапки» всё больше вызывает недоумение, поэтому студенты интенсивов сразу учатся мыслить в логике «мне нужно чему-то научиться, чтобы сделать шаг развития». До этой весны участники выстраивали индивидуальную образовательную траекторию, либо пользуясь материалами Университета 20.35, либо самостоятельно подыскивая нужные курсы, лекции, книги. Но кто сказал, что систему Lifelong Learning’а нельзя прокачать ещё больше?

MediaNation 29 апр 2021 в 07:58

Как переоптимизация и переспам влияют на трафик в Яндексе

3 мин

5.2K

Поисковая оптимизация * Интернет-маркетинг * Клиентская оптимизация * Поисковые технологии *

После проведения основных SEO-работ на сайте косметологической клиники трафик в Google резко вырос, тогда как в Яндексе он оставался на прежнем уровне. Тогда мы внимательно изучили тексты, и нашли проблему.

SergeyBPshenichnikov 23 апр 2021 в 10:01

Категория контекста

12 мин

2.4K

Natural Language Processing * Алгоритмы * Семантические сети * Поисковые технологии *

Математической моделью знаковых последовательностей с повторами (текстов) является мультимножество. Мультимножество было определено Д. Кнутом в 1969 году и позже подробно изучено А.Б. Петровским [1]. Универсальное свойство мультимножества – существование одинаковых элементов. Предельным случаем мультимножества при единичных кратностях элементов является множество. Множество с единичными кратностями, соответствующее мультимножеству, называется его порождающим множеством или доменом. Множество с нулевой кратностью – это пустое множество.

SergeyBPshenichnikov 10 апр 2021 в 18:51

Как преобразовать текст в алгебру: примеры

5 мин

4.6K

Поисковые технологии * Семантические сети * Алгоритмы * Natural Language Processing *

В предыдущей статье было разработано представление знаковых последовательностей полиномами матричных единиц на примере языкового текста. Текст превращается в алгебраический объект. С текстом можно совершать все алгебраические операции, необходимые для структуризации -- вычисления заголовков, словарей, аннотаций, смысловой разметки. В данной статье приведены два примера алгебраической структуризации текстов иной природы. Азбука Морзе выбрана из-за предельной краткости словаря, а математические формулы как пример обратной задачи.

velon 5 апр 2021 в 04:53

Продолжаем интернационализацию поиска по адресам с помощью Sphinx или Manticore. Теперь Metaphone

9 мин

4.2K

Поисковые технологии * Open source * Sphinx * Алгоритмы * Регулярные выражения *

Это продолжение публикации «Интернационализация поиска по городским адресам. Реализуем русскоязычный Soundex на Sphinx Search», в которой я разбирал, как реализовать поддержку фонетических алгоритмов Soundex в Sphinx Search, для текста написанного кириллицей. Для текста на латинице поддержка Soundex уже есть. С Metphone аналогично, для латиницы есть, для кириллицы не очень, но попытаемся исправить этот досадный факт с помощью транслитерации, регулярных выражений и напильника.

Это прямое продолжение, в котором разберём как реализовать оригинальный Metaphone, русский Metaphone (в том смысле что транслитерация не понадобится), Caverphone, и не сможем сделать Double Metaphone.

Реализация подойдёт как для использования на платформе Sphinx Search, так и Manticore Search.

В конце, посмотрим как Metaphone воспримет "ракомакофон".

Продолжаем...

VladVin 4 апр 2021 в 10:49

Как построить свою систему поиска похожих изображений

10 мин

31K

Поисковые технологии * Обработка изображений * Искусственный интеллект

В интернете есть много информации о поиске похожих изображений и дубликатов. Но как построить свою систему? Какие современные подходы применять, на каких данных обучать, как валидировать качество поиска и куда смотреть при выводе в production?

В этой статье я собрал все необходимые компоненты поисковой системы на изображениях в одном месте, разбавив контент современными подходами.

+46

qwertyforce 3 апр 2021 в 13:53

Поиск изображений

5 мин

13K

Машинное обучение * Обработка изображений * Python * Поисковые технологии *

Пытаясь реализовать обратный поиск изображений для своего сайта, я столкнулся с огромным миром поиска изображений. Ниже приведены краткие описания и варианты применения некоторых подходов обратного поиска/поиска похожих изображений.

+21

yrken 25 мар 2021 в 12:03

Яндекс – не Рунет, Рунет – не Яндекс: ФАС попросила немного равноправия

10 мин

14K

Блог компании ТутуПоисковые технологии * Управление продуктом *

Забирает ли Яндекс 20% трафика у аналогичных сервисов за счёт неравенства в поисковой выдаче? Давайте разберёмся.

Если вкратце – основная проблема, что Яндекс, пусть и будучи частной компанией, злоупотребляет своим доминирующим положением на рынке интернет-поиска и продвигает свои собственные проекты методами недоступными другим участникам рынка и в ущерб последним. При этом по антимонопольному законодательству если поиск является рынком, то так делать нельзя. Если же поиск является собственностью Яндекса — можно. То есть либо Яндекс может делать всё, что хочет, поскольку это их поиск, или же есть регулируемая область типа рынка рекламы, и в этом рынке должна соблюдаться какая-то нейтральность, соответствующая антимонопольному положению России.

Мой коллега Дмитрий разбирал эту ситуацию с юридической стороны вот в этом посте. Я покажу, что именно не так, и покажу примеры того, что мы показывали ФАС, когда они в ответ на вопрос про наличие или отсутствие рынка запросили доказательства возможных злоупотреблений.

ФАС рассмотрела проблему и нашла, что одна из главных проблем сейчас в «колдунщиках», конкретно – что с помощью них Яндекс перекрывает органическую выдачу привилегированными сервисами. Во-вторых, были замечены манипуляции в ранжировании, опять-таки в пользу собственных сервисов Яндекса (это, хотя и более существенно, но продемонстрировать сложнее).

Читать дальше →

+51

host_m 24 мар 2021 в 08:30

В 2020 году две трети поисковых запросов в Google завершалось без нажатия на ссылку

4 мин

11K

Блог компании VDSina.ruСтатистика в ITПоисковые технологии * Поисковая оптимизация * Контекстная реклама *

Перевод

В августе 2019 года было опубликовано исследование ныне уже несуществующего поставщика данных о посещениях Jumpshot, демонстрирующее, что 50,33% всех поисковых запросов Google завершалось без клика на веб-ресурсы в результатах поиска. Сегодня благодаря новым данным SimilarWeb удалось внести в этот анализ существенное дополнение.

С января по декабрь 2020 года 64,82% поисковых запросов в Google (суммарные данные по десктопам и мобильным устройствам) завершилось результатами поиска без кликов на сторонние веб-ресурсы. Вероятно, в этой статистике недооценены некоторые мобильные и почти все голосовые запросы, поэтому возможно, что более двух третей всех поисковых запросов Google являются тем, что называется «запросами с нулевыми кликами» (zero-click searches). Некоторые специалисты указывают, что «нулевые клики» — это немного ошибочный термин, поскольку к этой группе относится и поиск, который завершается кликом внутри самого Google SERP (например, при нажатии на звуки животных здесь или при нажатии на номер телефона на поле с картой). Однако терминология, похоже, устоялась, поэтому её нужно объяснить.

Читать дальше →

+25

SergeyBPshenichnikov 22 мар 2021 в 21:38

Как преобразовать текст в алгебру

10 мин

4.9K

Natural Language Processing * Алгоритмы * Поисковые технологии * Семантические сети *

Из песочницы

Как пишут тексты в Большой Академии в Лагадо

Алгебра и язык (письменность) являются двумя разными инструментами познания. Если их объединить, то можно рассчитывать на появление новых методов машинного понимания. Определить смысл (понять) – это вычислить как часть соотносится с целым. Современные поисковые алгоритмы уже имеют задачей распознавание смысла, а тензорные процессоры Google выполняют матричные умножения (свертки), необходимые для алгебраического подхода. При этом в семантическом анализе используются в основном статистические методы. В алгебре выглядело бы странным использование статистики при поиске, например, признаков делимости чисел. Использование алгебраического аппарата полезно также для интерпретации результатов вычислений при распознавании смысла текста.

DIlegal 22 мар 2021 в 07:20

Как именно нужно читать предупреждение ФАС «Яндексу» и что оно значит для Рунета

14 мин

20K

Блог компании ТутуЗаконодательство в ITПоисковые технологии *

Я один из многих юристов, который больше года назад участвовал в подготовке обращения в ФАС с вопросом, нормально ли, что Яндекс стал лучшим поиском по сервисам Яндекса. Собственно, ответ пришёл несколько недель назад в виде «предупреждения о прекращении действий (бездействия), которые содержат признаки нарушения антимонопольного законодательства».

Вопрос был в том, правильно ли то, что Яндекс даёт преференции своим сервисам в поиске. Суть вопроса сводилась к тому, можно ли считать отдельным рынком рынок поиска.

Дело вот в чём: если юридически поиск в интернете — это рынок, то на нём действует антимонопольное законодательство. И тогда, цитируя сам Яндекс (точнее, пост об иске против Google): «это обращение — признание одного неприятного факта. У нас с вами есть все шансы попасть в страну, где только одна компания будет решать, какими сервисами будут пользоваться люди». И если «мы всегда верили в конкуренцию и право выбора пользователя», то ФАС должна восстановить справедливость.

Если же поиск в интернете — это не отдельный рынок, то Яндекс — частная компания, которая в своём поиске может делать что хочет. Ведь это их поиск, их алгоритмы ранжирования и их ручные настройки. Частное дело частной компании.

Коротко: ФАС усмотрела признаки нарушений (пока де-юре не сами нарушения, это важно) в действиях Яндекса. И попросила, по сути, вернуть нейтральность в поиск, то есть обеспечить чуть более равные условия всем компаниям на рынке. В перспективе это может коснуться не только Яндекса, но и любого поиска в России.

Предупреждение ФАС это, по сути, предложение: «сделайте вот так, пожалуйста, или мы возбудим дело», поэтому давайте детально разберёмся, что же происходит.

В предупреждении обозначено, что рынок поиска есть, и это крайне важно для Рунета. Давайте посмотрим, почему.

Читать дальше →

+59

1 2 ...

15 16

18 19 ...

58 59

Поисковые технологии *

Бывшие сотрудники Google запустили первый платный поисковик. От его успеха зависит будущее интернета

Закон о «приземлении» иностранных интернет-порталов

Как провести технический аудит сайта через Screaming Frog?

Знакомство с ArangoDB

I feel Brave: новый анонимный поиск открыт для всех

Как Яндекс применил генеративные нейросети для поиска ответов

Наша анонимность утрачена?

Как работает поиск изображений в Dropbox

У каждого приложения должна быть палитра команд

«А контент они за меня тоже выберут?» Как умная система рекомендаций студентам советы по учёбе даёт

Как переоптимизация и переспам влияют на трафик в Яндексе

Категория контекста

Как преобразовать текст в алгебру: примеры

Ближайшие события

Продолжаем интернационализацию поиска по адресам с помощью Sphinx или Manticore. Теперь Metaphone

Как построить свою систему поиска похожих изображений

Поиск изображений

Яндекс – не Рунет, Рунет – не Яндекс: ФАС попросила немного равноправия

В 2020 году две трети поисковых запросов в Google завершалось без нажатия на ссылку

Как преобразовать текст в алгебру

Как именно нужно читать предупреждение ФАС «Яндексу» и что оно значит для Рунета

Вклад авторов