Все потоки

Поисковые технологии *

От AltaVista до Яндекса

СтатьиПостыНовостиАвторыКомпании

@pbraslavski 11 авг 2020 в 14:40

Курс “Введение в информационный поиск” и немного истории

3 мин

5.6K

Блог компании Образовательные проекты JetBrainsПоисковые технологии * Учебный процесс в IT

Меня зовут Павел Браславский, я научный сотрудник JetBrains Research и доцент Питерской Вышки.

Осенью прошлого года я после большого перерыва прочитал курс “Введение в информационный поиск”, на этот раз — для студентов академических программ JetBrains в Питерской Вышке и ИТМО. Comeback получил продолжение — зимой я прочитал мини-курс с обзором моделей информационного поиска и подходов к оценке для сотрудников Tinkoff, а весной — обзорную лекцию про информационный поиск в рамках курса по обработке естественного языка. В этой статье я кратко расскажу о курсе и его “исторических предпосылках”.

Читать дальше →

+12

@Farwit 5 авг 2020 в 13:36

Как найти нужный видос в груде видеофайлов? Проект «Фабула»

2 мин

3.3K

Блог компании СпецлабУправление медиа * Поисковые технологии * Обработка изображений * Облачные сервисы *

Recovery Mode

Если человеку далеко за 20, то у него уже скопилась огромная фильмотека своей жизни, а также видеозаписей от друзей, родственников, с места работы… Найти там кого-то или что-то конкретное уже невозможно. Недавно готовил видео подборку на юбилей дочери – потратил неделю. Средства массовой информации тем более перегружены видеоархивами. И каждый день в мире появляются миллионы терабайт видеоконтента. И это в эпоху BIG DATA.

Читать дальше →

-2

@ContentAI_Team 29 июл 2020 в 10:35

Как сделать поиск по документам, накопленным почти за 100 лет. Опыт НПО Энергомаш и ABBYY

11 мин

9.9K

Блог компании Content AINatural Language Processing * Искусственный интеллектКосмонавтикаПоисковые технологии *

Многие знают, что ABBYY занимается обработкой и извлечением данных из разных документов. Но у наших продуктов есть и другие интересные возможности. В частности, с помощью решения ABBYY Intelligent Search можно быстро и удобно искать информацию по смыслу в электронных документах из корпоративных систем. Этим уже пользуются крупные российские компании, например, производитель ракетных двигателей АО «НПО Энергомаш».

Многолетняя практика показывает, что время вывода космических двигателей на рынок от момента начала работ составляет от 5 до 7 лет. В то же время для удержания лидирующих позиций необходимо сокращать сроки разработки и изготовления до 3 – 4 лет. Кроме того, усиление конкуренции привело к необходимости существенного снижения стоимости выпускаемых двигателей на 30 – 50%.

Указанных показателей невозможно достигнуть без внедрения современных цифровых технологий. Наиболее передовые компании используют инновационные подходы не только на всех стадиях производства, но и на всех стадиях жизненного цикла их изделий. Чем больше компании уходят в цифру, тем острее становится вопрос: как использовать большие данные с максимальной для себя выгодой?

За 90 лет работы НПО Энергомаш накопил вековой объем документов (как бумажных, так и электронных) с ценной информацией о наработках испытателей и конструкторов. Большая часть документов уже хранится в информационных системах компании (ИС). Согласно исследованию IDC, в среднем сотрудники крупных организаций пользуются 5-6 внутренними ИС. Около 36% времени в среднем уходит на поиск информации – в масштабах крупной компании это тысячи рабочих часов в день.

Сегодня мы расскажем, как помогли НПО Энергомаш создать корпоративную интеллектуальную информационно-поисковую систему (КИИПС) на базе ABBYY Intelligent Search – такую же удобную и быструю, как популярные поисковики.

Читать дальше →

+21

@ru_vds 20 июл 2020 в 09:12

Как анализ поисковых запросов в Google позволяет выявлять очаги COVID-19 раньше, чем это удается органам власти

7 мин

8.5K

Блог компании RUVDS.comПоисковые технологии * Исследования и прогнозы в IT * Здоровье

Перевод

Аносмия — отсутствие обоняния — это симптом COVID-19.

В соответствии с данными, полученными от 2,5 миллионов пользователей приложения для изучения симптомов COVID-19, разработанного в Королевском колледже Лондона, две трети пользователей, у которых выявлено заболевание, сообщали об аносмии. При этом о том же симптоме сообщала лишь пятая часть тех, у кого заболевание выявлено не было.

А тем временем десятки тысяч человек ежедневно обращаются к Google за ответом на вопрос о том, почему они внезапно перестали ощущать запахи.

Есть ли корреляция между поисковым запросом «I can’t smell» («Я не чувствую запахи») и количеством заражений COVID-19? Да, такая корреляция есть.

Читать дальше →

+24

@SLY_G 2 июл 2020 в 18:22

Тайна личности покупателя, оставляющего за собой тысячи корзин с покупками в интернет-магазинах

5 мин

12K

Контекстная реклама * Поисковые технологии * Управление продажами *

Перевод

Продавцы часто сталкиваются с покупателем по имени Джон Смит, добавляющим товары в корзину, а потом уходящим из магазина без покупок; «ситуация начала выходить из-под контроля»

Что Джон Смит добавил в корзину в магазинах Comfort House и FinnBin Inc.

Джон Смит начал делать покупки в прошлую среду и не останавливается уже несколько дней.

Он зашёл в интернет-магазин автозапчастей, где положил в корзину рычаг поворотника, аварийный фонарик, и пару десятков других товаров. Затем он перепрыгнул к продавцу товаров для дома, где заказал ещё десяток вещей, включая рамки для фотографий, таблички для адресов, вешалку для полотенец и почтовый ящик. На сайте, где продаются коробки-колыбельки для младенцев, популярные в некоторых странах (например, в Финляндии), он заказал по штуке каждого вида наборов одежды для младенцев, от $80 до $500.

Когда этот покупательский кутёж, длившийся почти 48 часов, закончился, Джон Смит сделал то же самое, что и всегда – ушёл, ничего не купив.

Более года интернет-магазины, продающие разнообразные товары, от каяков до ключниц, терялись в догадках по поводу загадочного покупателя с обобщённым именем, бросившего тысячи корзин с покупками. И в каждой корзине был только один предмет.

Читать дальше →

+2

@ru_vds 1 июл 2020 в 13:16

О том, что происходит, когда в поиске Google используют слово «vs»

7 мин

20K

Блог компании RUVDS.comВеб-разработка * Поисковые технологии * Анализ и проектирование систем *

Перевод

Случалось у вас такое: ищете что-нибудь в Google и вводите после искомого слова «vs», надеясь на то, что поисковик автоматически предложит вам что-то, немного похожее на то, что вам нужно?

Ввод «vs» после искомого слова

Со мной такое бывало.

Как оказалось, это — большое дело. Это — приём, который, при поиске альтернативы чему-либо, способен сэкономить массу времени.

Читать дальше →

+48

@avecoder 21 июн 2020 в 09:17

Прощай, Google! 15 Альтернативных поисковиков, которые не шпионят, а сажают деревья и раздают воду

5 мин

295K

ЭкологияПоисковые технологии * IT-компании

Аве Кодер!

В этой статье речь пойдет о крутых инди поисковиках, которые могут составить конкуренцию поисковым гигантам, а также удовлетворить вкусы как утонченного мусьё, так и идейного борца за личную жизнь.

Читать дальше →

+46

@ownhrd 18 июн 2020 в 08:37

Долгосрочное хранение данных в Elasticsearch

11 мин

26K

Блог компании Домклик*nix * Big Data * Поисковые технологии * Системное администрирование *

Туториал

Меня зовут Игорь Сидоренко, я техлид в команде админов, поддерживающих в рабочем состоянии всю инфраструктуру Домклик.

Хочу поделиться своим опытом в настройке распределённого хранения данных в Elasticsearch. Мы рассмотрим, какие настройки на нодах отвечают за распределение шардов, как устроен и работает ILM.

Много грязных технических подробностей

+29

@BarakAdama 18 июн 2020 в 07:46

От эвристик до машинного обучения: история саджеста в Яндекс.Браузере

7 мин

13K

Блог компании ЯндексБраузерыПоисковые технологии *

Давненько я ничего не рассказывал о Яндекс.Браузере и Chromium, а ведь интерес к этой теме на Хабре был нешуточный. Пора исправляться. Сегодня хочу поднять тему подсказок, которые мы видим под адресной строкой по мере вводе текста (этот блок ещё называют саджестом). Об этом почти никто не задумывается, но их работа исторически основана на ручных эвристиках и константах. Недавно с помощью коллег из поиска Яндекса нам удалось применить ML-ранжирование к этим подсказкам. Получилось не с первого раза, но результат того стоил.

Для лучшего погружения в контекст начнём с истории. Помните ли вы первый браузер в мире? Тот самый, который создал Тим Бернерс-Ли. Честно говоря, и я не помню, но хорошие люди сделали веб-версию для любопытных. Этот браузер умел отображать текст… и всё. Даже картинки на старте не поддерживал. А ещё там не было адресной строки в привычном для нас месте. Сайты открывались через меню, как документы в офисном редакторе. При этом было важно вводить точный адрес желаемой страницы. Забыли про http:// в начале? Получите Bad request. Никакого дружелюбия к пользователям не требовалось, потому что пользователями выступали учёные и технари.

Но затем интернет пришёл в дома «обычных» пользователей. Интерфейсы стали упрощаться: адресная строка поселилась у всех на виду, а рядом с ней добавили ещё одну — для поисковых запросов. Браузеры научились не только подставлять http://, но и подсказывать людям адреса уже посещённых страниц или введённые ранее запросы.

Затем в Chrome адресную строку объединили с поисковой — так родился омнибокс, который умел переваривать как адреса, так и запросы. Причём саджест тоже стал единый. Браузерам пришлось учиться ранжированию подсказок. Поставить на первое место сайт из истории? Или из закладок? Или сходить в облако и предложить окончание запроса? Или оставить WYT (What You Typed) и отправить в поиск?

Читать дальше →

+31

@user_a 22 мая 2020 в 06:46

Найдётся всё, но не то, что ты ищешь

3 мин

7.3K

Поисковые технологии * Монетизация веб-сервисов * IT-компании

Из песочницы

Доброго времени суток, друзья!

Мне 22 года, я студент магистратуры. Всю сознательную жизнь я пользовался поисковиком Яндекса. Но объём информации на стартовой странице поисковика достиг таких размеров, что я решил поменять внешний вид стартовой страницы. Я захотел оставить только строку поиска и больше ничего лишнего. Мне понадобилось достаточно много времени, чтобы разобраться в настройках поисковой страницы Яндекса. Разумеется, это меня возмутило и натолкнуло на мысль разобраться с тем, стартовая страница какой поисковой системы заточена помочь пользователю найти то, для чего он зашёл в интернет, а какая хочет максимально отвлечь внимание пользователя на сторонний информационный поток и собственные сервисы.

Читать дальше →

+4

@anton_ai_ivanov 21 мая 2020 в 07:50

Как мы учим Яндекс отвечать на вопросы и экономим пользователям 20 тысяч часов в сутки

6 мин

9.7K

Блог компании ЯндексМашинное обучение * Поисковые технологии *

Когда мы вводим запрос в поисковую строку, то ищем информацию, а не ссылки. Более того, зачастую нам требуется короткое предложение или общеизвестный факт. К примеру, [формула объёма усечённой пирамиды] на всех сайтах одинакова — ссылки не нужны, достаточно сразу дать ответ.

Быстрыми (фактовыми) ответами сейчас никого не удивить, но мало кто знает, как именно они формируются, чем различаются и что важного произошло в этой области за последнее время. Меня зовут Антон Иванов. Сегодня вместе с моим коллегой Михаилом Агеевым dminer мы расскажем историю ответов в поиске и поделимся некоторыми подробностями, о которых раньше нигде не говорили. Надеюсь, будет полезно.

Читать дальше →

+24

@ashagraev 13 мая 2020 в 12:42

Оценка качества кластеризации: свойства, метрики, код на GitHub

11 мин

49K

Блог компании ЯндексАлгоритмы * Математика * Поисковые технологии *

Кластеризация — это такая магическая штука: она превращает большой объём неструктурированных данных в потенциально обозримый набор кластеров, анализ которых позволяет делать выводы о содержании этих данных.

Приложений у методов кластеризации огромное количество. Например, мы кластеризуем поисковые запросы для того, чтобы повышать обобщающую способность алгоритмов ранжирования: любая статистика, вычисленная по группе похожих запросов, надёжнее той же статистики, вычисленной для одного отдельного запроса. Кластеризация позволяет повышать качество на запросах с редко встречающимися формулировками. Другой понятный пример — Яндекс.Новости, которые автоматически формируют сюжеты из новостных сообщений.

В далёком 2013 году мне повезло поучаствовать в разработке очень сложного алгоритма кластеризации. Требовалось с очень высоким качеством кластеризовать сотни тысяч объектов и делать это быстро: за десятки секунд на одной машине. Первым делом нужно было построить систему оценки качества, и в этой статье я расскажу именно о ней.

Читать дальше →

+24

@Vlad_Nest 25 апр 2020 в 11:58

Как COVID-19 может изменить поисковую выдачу Google навсегда?

7 мин

1.7K

Поисковая оптимизация * Поисковые технологии *

Recovery Mode

Перевод

Новая "липкая" функциональная панель на левой стороне страницы может решить несколько проблем, с которыми Google мог бы столкнуться в будущем.

Перевод статьи Mordy Oberstein — Head of Marketing компании Rank Ranger, которая занимается генерацией SEO-отчетов, — в которой он излагает свои мысли по поводу того, как текущие изменения страницы с результатами поиска могут повлиять на пользовательский опыт в будущем. И на выборы в Америке, куда без них :)
Далее весь текст излагается от лица автора.

То, что начиналось как обычная панель предупреждений, превратилось в самый емкий набор информации из первоисточников среди всех, которые бывали на первой странице результатов поиска Google. Отображение информации о COVID-19 это не только доступный источник информации, но и то, что может остаться в выдаче… навсегда!

Читать дальше →

-3

@danilchenkoandrey 16 апр 2020 в 08:03

Как мы учились рекомендовать фильмы и почему не стоит полагаться только на оценки

8 мин

19K

Блог компании ЯндексИскусственный интеллектМашинное обучение * Поисковые технологии *

Представьте, что вы хотите провести вечер за просмотром фильма, но не знаете, какой выбрать. Пользователи Яндекса часто оказываются в такой же ситуации, поэтому наша команда разрабатывает рекомендации, которые можно встретить в Поиске и Эфире. Казалось бы, что тут сложного: берём оценки пользователей, с их помощью обучаем машину находить фильмы, которым с высокой вероятностью поставят 5 баллов, получаем готовый список фильмов. Но этот подход не работает. Почему? Вот об этом я сегодня и расскажу вам.

Читать дальше →

+34

@ragequit 7 апр 2020 в 12:09

Как SEO-оптимизация и алгоритмы Google уничтожили настоящий интернет

5 мин

59K

Блог компании ITSummaИстория ITКонтент и копирайтинг * Поисковая оптимизация * Поисковые технологии *

Перевод

Примечание от переводчика: этот текст — перевод-компиляция двух небольших англоязычных заметок, которые автор почему-то разделил на два разных текста. Я уверен, что логически они связаны и представляют некоторую ретроспективную ценность. В первую очередь тем, что оспаривают устоявшееся мнение о том, что раньше интернет был похож на бурлящий котел, первичный бульон, а сейчас он — стройный, понятный и с каждым годом становится все лучше. Конечно, местами автор перегибает палку, но во многом с ним сложно не согласиться. Текст достаточно эмоционален, что я, конечно же, попытался максимально передать и адаптировать в ходе перевода. Приятного чтения.

Как SEO-оптимизация уничтожила интернет

В промежутке между 1998 и 2003 годом поиск в Google был просто волшебным. Я помню, как вводил какую-то смутную комбинацию, типа «oil mother's milk» и в итоге попал на страницу Wired с интервью Томаса Голда, астрофизика, который рассказывал о том, что залежи углеводородов (oil) пополняются за счет давления внутри геологических пластов.

Если вы сегодня ищете что-то техническое, конкретное, академическое или вообще — некоммерческое, то удачи вам. Лучшая в мире информационно-поисковая система превратилась в нечто, напоминающее Digg эры 2006 года: индексы популярности контролируются небольшим количеством финансово мотивированных игроков. Они называют себя «оптимизаторами».

Читать дальше →

+154

@entropicus 27 мар 2020 в 07:00

Кластер Elasticsearch на 200 ТБ+

14 мин

26K

Блог компании ОКDevOps * Высоконагруженные системы * Поисковые технологии * Системное администрирование *

С Elasticsearch сталкиваются многие. Но что происходит, когда хочешь с его помощью хранить логи «в особо крупном объёме»? Да ещё и безболезненно переживать отказ любого из нескольких дата-центров? Какой стоит делать архитектуру, и на какие подводные камни наткнёшься?

Мы в Одноклассниках решили при помощи elasticsearch решить вопрос лог-менеджмента, а теперь делимся с Хабром опытом: и про архитектуру, и про подводные камни.

Читать дальше →

+38

@StepKsu 20 мар 2020 в 07:43

Как мы улучшили Умный поиск на hh.ru в 2019 году: инфографика

2 мин

6.3K

Блог компании hh.ruИскусственный интеллектМашинное обучение * Поисковая оптимизация * Поисковые технологии *

На hh.ru сейчас более 44 миллионов резюме и около 601 тысячи вакансий. Их нужно соотнести друг с другом так, чтобы по запросу соискателя ему мгновенно выдавались в топе результатов поиска те вакансии, которые наиболее подходят именно ему, а по запросу работодателя — наиболее подходящие для конкретной вакансии резюме. Сделать это помогает искусственный интеллект — наш Умный поиск. Благодаря ему соискатели и работодатели тратят меньше времени и усилий, чтобы найти друг друга.

Читать дальше →

+5

@rsashka 12 мар 2020 в 11:31

Лайфхак для быстрого попадания в Zero-click поисковой выдачи

4 мин

4.3K

Интернет-маркетинг * Контекстная реклама * Поисковая оптимизация * Поисковые технологии * Разработка мобильных приложений *

На просторах Хабра встретилась статья: Zero-click выдача и On SERP SEO: как попасть на нулевую позицию в Яндексе и Google, в которой говорится о попадания не просто в ТОП, а прямо на самую нулевую позицию поисковой выдачи. А так же приводится внушительный список рекомендаций SEO активностей, чтобы достичь желаемого результата.

Поборов некоторые сомнения, я все же решил поделиться случайно найденным простым лайфхаком для попадания в ТОП или даже в Zero-click поисковой выдачи по отдельным запросам без сложного и самое главное долгого тюнинга сайта.

Сразу хочу предупредить, данный способ подходит не всем, так как связан с разработкой мобильного приложения и не масштабируется на большое число поисковых запросов.

Тем не менее, если описанный под катом способ и окажется не применимым для постоянного использования, надеюсь, что его вполне можно использовать как дополнительный инструмент SEO.

Читать дальше →

+8

@panovav 12 мар 2020 в 07:08

Как объединить две платформы в одну и не обидеть пользователей. Опыт разработчиков Яндекс.Кью

11 мин

10K

Блог компании ЯндексIT-компанииИстория ITПоисковые технологии * Веб-разработка *

В прошлом году к Яндексу присоединился сервис TheQuestion. На тот момент уже был схожий сервис вопросов и ответов — Яндекс.Знатоки. У Знатоков была большая аудитория и много интересных вопросов, но не хватало экспертов, которые могли давать качественные ответы на эти вопросы. TheQuestion же, наоборот, имел сильное сообщество экспертов, но ему не хватало интересных вопросов. Логичным шагом было объединить два сервиса, чтобы взять лучшее у каждого из них. Но как это сделать, если у каждого сервиса своя технологическая база, контент и пользователи?

Сегодня я расскажу о том, как наша команда решила эту задачу с технологической точки зрения. Вы узнаете, какие варианты объединения мы рассматривали и какой в конце концов выбрали. Расскажу про «подменное API», миграцию баз данных, объединение профилей и тестирование бэкенда. А ещё — про ночь переезда без права на ошибку. Вы увидите, что скучать нам не пришлось.

Читать дальше →

+31

@m1rko 5 мар 2020 в 07:04

Когда фильтр Блума не подходит

9 мин

16K

Алгоритмы * Клиентская оптимизация * Поисковые технологии * Программирование * Серверная оптимизация *

Перевод

Я ещё с университета знал о фильтре Блума — вероятностной структуре данных, названной в честь Бёртона Блума. Но у меня не было возможности её использовать. В прошлом месяце такая возможность появилась — и эта структура буквально очаровала меня. Впрочем, вскоре я нашёл у неё некоторые недостатки. В этой статье — рассказ о моей краткой любовной связи с фильтром Блума.

Читать дальше →

+45

1 2 ...

20

21 22 ...