Поисковые технологии *

От AltaVista до Яндекса

СтатьиПостыНовостиАвторыКомпании

Vsevo10d 3 апр 2022 в 13:03

Про уход Web of Science и Scopus из РФ

4 мин

55K

Поисковые технологии * Профессиональная литература *

Вчера со ссылкой на телеграм-канал вице-президента РАН Алексея Ремовича Хохлова на некоторых информационных площадках начала распространяться информация вида: «Web of Science и Scopus покидают РФ и РБ, 97,5% научной информации станет недоступно».
TJournal (заблокирован РКН) дает также пояснения:

Scopus — библиографическая база данных научного издательства Elsevier. Она содержит цитирования и аннотации к более чем 20 тысячам академических статей. Цитирование в Scopus'e указывает на высокий уровень текста и ценится в академическом сообществе, журнал о проблемах образования DOXA.
Web of Science — это сайт, который открывает доступ к множеству баз данных. На них учёные ищут нужные им тексты.

Тем не менее, в этих сообщениях допущены некоторые неточности.

Читать дальше →

+45

148

JetHabr 30 мар 2022 в 08:28

Как мы «завели» десятки команд в один кластер OpenSearch и разделили доступы

7 мин

4.1K

Блог компании Инфосистемы ДжетПоисковые технологии * Open source *

У OpenSearch неоднозначная репутация. Некоторые специалисты считают, что его развитие остановилось на версии Elasticsearch 7.10.2. Но это не сделало OpenSearch динозавром, обреченным на постепенный упадок. Продукт развивается и выдает аналогичный Elasticsearch функционал, и даже больше — возможности, которые вообще недоступны в базовой лицензии Elasticsearch.В этом посте расскажем о том, на что способен OpenSearch и как мы боролись с его недостатками. Всё это — на примере внедрения, где в одном кластере нам пришлось наладить разделение доступов для десятка команд, не теряя при этом отказоустойчивости.

+11

KeyVaan 25 мар 2022 в 15:07

Репутационные агентства: интернет герои или аморальные монстры

5 мин

2.1K

Поисковые технологии * Клиентская оптимизация * Управление продуктом * Управление медиа *

Recovery Mode

Ранее мы уже рассматривали, что такое репутация в интернете, кому и зачем она нужна, а также то, какие инструменты, помогают представить продукт в интернете в выгодном для нас свете. Сегодня же мы посмотрим на работу репутационных агентств через другую призму, а именно, призму морали. Попытаемся разобраться: является ли работа репутационных агентств безнравственной или же методы репутационщиков могут быть оправданы?

Мораль в сфере маркетинга и рекламы

Небольшая ремарка вместо вступления:

Давайте немного разберемся с определениями, и сразу отметим, что мы не будем углубляться в философию и прочие области человеческого знания, а определим мораль - как некоторую совокупность представлений о хорошем и плохом, о добре и зле, правильном и неправильном, принятую для большей части абстрактного общества. Аморальным будем считать нечто лживое и фальшивое, нечто, оставляющее неприятный осадок, нечто, идущее вопреки нашему представлению о добром и правильном. А моральное определим, соответственно, как противоположность первому.

Представим ситуацию: вы работаете Pr-менеджером, рекламным агентом, интернет-маркетологом, называйте как хотите (утрирую), - вашей основной задачей является продажа, вы должны составить такой образ/упаковку продукта, благодаря которому его захочется купить. Если товар имеет непрезентабельный вид - можно заказать профессиональную фотосессию и воспользоваться фоторедакторами, если товар не обладает выдающимися характеристиками - можно написать красивый и складный продающий текст, если продукт мало узнаваем - можно влиться в хайповый инфоповод или привлечь медиаперсон для рекламы.

-4

evgeni_zaharenko 22 мар 2022 в 15:57

Определение приоритетов SEO-оптимизации страниц

2 мин

3.2K

Веб-аналитика * Клиентская оптимизация * Поисковые технологии *

Recovery Mode

Шаблон таблицы + видео-инструкция по использованию, для эффективного определения приоритетов постраничной SEO-оптимизации.

-2

nikvemel 1 мар 2022 в 08:27

Полезный опыт: Как работает автоматизация базы знаний для техподдержки пользователей крупных порталов

7 мин

Поисковые технологии * Хранение данных * Управление сообществом * Управление персоналом *

Сегодня хочется поговорить о технической поддержке, а точнее о тонкостях, которые обеспечивают ее работу. Недавно мы закончили проект по организации базы знаний, которая помогает выполнять свою работу техподдержке электронных сервисов крупных порталов. Результаты автоматизации говорят о том, что подобный подход может оказаться полезен и для других проектов, и в этом посте я расскажу о распределении ролей и процессов в созданной информационной системе. Заинтересованные найдут под катом — подробный рассказ о том, как работает база знаний СТП (службы техподдержки) для сервисов портала. А я буду рад любой обратной связи, мнениям и, конечно же, предложениям, как можно еще улучшить работу по поддержанию подобной базы знаний.

aapsoftware 24 фев 2022 в 21:08

Библиотека PHP для поиска видео по скриншоту

3 мин

5.4K

Поисковые технологии * PHP * Работа с видео *

Туториал

Перед всеми нами ежедневно встаёт задача поиска информации. Требуется найти текст, изображения, аудио или видео информацию. Чаще всего для поискового запроса используется текст. Реже - изображения. Есть сервисы вроде "Shazam", которые ищут музыку используя запись звука. Мы сосредоточились на создании поискового сервиса, который осуществляет поиск видео. В качестве параметров для запроса мы используем изображения.

Сейчас мы предлагаем пользователям установить поисковую форму на своём сайте для чего воспользоваться небольшой PHP библиотекой про которую и поговорим.

+10

InBioReactor 16 фев 2022 в 13:00

«Патентное бюро» природы

13 мин

8.6K

Блог компании RUVDS.comБиологияНаучно-популярноеПоисковые технологии * Читальный зал

Органы чувств, насекомых, или полёт птицы зачастую воспринимаются человеком, как некий конструкт и изобретение великого творца. На самом деле мы знаем, что творец тут ни причём, и всё это появилось в результате эволюции и её движущей силы, естественного отбора. Однако это не мешает человечеству вдохновляться живой природой и на основе её материи пробовать повторить, или переплюнуть то, что она «запатентовала» в виде организмов, способных к полёту, или к эхолокации и радиационной чувствительности.

Читать дальше →

+47

PatientZero 16 фев 2022 в 09:54

Поиск Google умирает

7 мин

137K

Поисковая оптимизация * Поисковые технологии *

Перевод

Сегодня самый популярный поисковый движок — это Reddit. Единственные, кто этого не знает — команда Reddit, которая не может отвлечься на создание приличного интерфейса поиска. Поэтому вместо этого нам приходится прибегать к Google и добавлять в строку запроса слово «reddit».

Пол Грэм считает, что такая ситуация означает, что Reddit как сайт социальной сети «всё ещё не достиг своего пика». На самом деле это означает, что количество людей, использующих Reddit как поисковый движок, растёт.

Пол Грэм: «Reddit — уникальная соцсеть. Спустя 15 лет после запуска она всё ещё не достигла своего пика».

Почему люди ищут именно на Reddit? Короткий ответ: очевидно, что поисковые результаты Google умирают. Длинный ответ: бОльшая часть веба стала слишком недостоверной, чтобы ей доверять.

Читать дальше →

+133

436

art-fomin 16 фев 2022 в 07:53

Что считать счастьем покупателя?

7 мин

9.8K

Блог компании ЯндексАлгоритмы * Поисковые технологии * Разработка под e-commerce *

_{По запросу [форма] мы должны угадать, что именно нужно покупателю: выпечка, наращивание ногтей, косплеить медсестру или калибратор кубов бетона. Задача — быстро понять, кто перед нами и что сделает человека счастливым.}

Я работаю над качеством поиска в Яндекс.Маркете. И качество поиска прямо связано с ощущением счастья пользователя от шопинга. Счастье нужно измерять. Самый очевидный способ — посмотреть, купил ли что-нибудь пользователь. Но мы не всегда приходим в магазин или на Маркет, чтобы взять что-то конкретное.

Человек может:

Формулировать требования к покупке по мере сравнения вариантов.

Пример с соковыжималкой
Предположим, он ищет соковыжималку, но ещё не знает, какие они бывают. По мере изучения товаров он примерно начинает понимать, что хочет. На старте у него нет ни фиксированного бюджета, ни требований, только мечта. Дальше нужно сопоставить мечту с конкретной карточкой товара. С точки зрения метрики покупки, пользователь будет довольно долго бесцельно бродить в начале — но мы понимаем, что эта часть была очень важна, там он изучал предложение и понимал, как устроен мир.
Приходить с примерным бюджетом и выбирать что-то под него, например, при поиске подарка. В этой ситуации у пользователя даже нет мечты, он ходит по категориям и ищет что-то, что его «зацепит».
Более-менее точно понимать, что хочет купить (часто вплоть до модели товара), но искать лучшее предложение.
Знать модель товара и проверять, насколько честна цена на неё, насколько хороши отзывы и так далее.

То есть с точки зрения человека покупка — далеко не единственная цель. Маркетплейс используется и для развлечения, и для изучения предложений, и даже для проверки цены, когда стоишь в очереди к кассе в реальном магазине.

Мы работаем над улучшением поиска по товарам. Поэтому нам нужна была метрика, которая показывает удовлетворённость людей тем, что мы показываем на выдаче. Мы искали её в несколько итераций, и сейчас я хочу рассказать о том, что мы уже придумали.

Читать дальше →

+29

CyberPaul 25 янв 2022 в 09:19

Как искали в 90-х и куда исчезли российские поисковые системы?

4 мин

23K

Блог компании Timeweb CloudПоисковые технологии * Читальный зал

Если сегодня кто-то говорит «поищи в интернете», обычно подразумевается «Яндекс» или Google. Но так было далеко не всегда. Во второй половине 90-х ассортимент поисковых систем был намного шире: в зарубежном интернете успешно работали AltaVista и Yahoo, Lycos и WebCrawler, а еще Ask.com, HotBot, Excite, Infoseek и множество других. Рунет также переживал бурный расцвет: здесь присутствовало несколько полноценных поисковых систем и целое семейство каталогов ссылок. Прошло время, выжил только «Яндекс», превратившийся в гигантскую мегакорпорацию. Куда делись все остальные?

Читать дальше →

+27

evgeni_zaharenko 7 янв 2022 в 06:38

Расчет окупаемости SEO-продвижения сайта

2 мин

8.6K

Поисковые технологии * Интернет-маркетинг * Управление e-commerce * Управление продажами * Поисковая оптимизация *

Google-таблица в помощь:

Собственнику бизнеса, чтобы понять:

1) При каких бизнес-показателях SEO будет прибыльным, а при каких убыточным
2) Сколько времени и денег потребуется, чтобы выйти в операционный плюс и полностью окупить вложения
3) Есть ли вообще смысл вкладываться в SEO на текущем этапе развития бизнеса

SEO-специалисту, чтобы:

1) Понимать, стоит ли брать клиента в работу
2) Повысить конверсию в заказ
3) Повысить средний чек

-8

seo7908801 28 дек 2021 в 13:57

5 тактик для лучшего ранжирования в Google Discover

4 мин

4.4K

Поисковые технологии * Поисковая оптимизация *

Хотя вы не можете на 100% попасть в Discover, но можете приложить максимум усилий для улучшения ранжирования в данном сервисе Google.

aapsoftware 21 дек 2021 в 07:54

Поисковая система «Video Color» для любителей фильмов

4 мин

53K

Поисковые технологии * Работа с видео *

«Video Color» - поисковая система для поиска названий фильмов по скриншоту. В отличие от аналогов всегда даёт исключительно чёткие ответы: «не найдено» или название фильма.

Sergei2405 21 дек 2021 в 07:31

Интеллектуальный поиск отечественных аналогов для импортных микросхем. Поучаствуй в beta тестировании

4 мин

13K

Блог компании МиландрПроизводство и разработка электроники * Программирование микроконтроллеров * Локализация продуктов * Поисковые технологии *

Наша компания занимается разработкой микросхем и само собой мы делаем все возможное что бы они были как можно больше представлены на рынке. Да мы знаем, "что импорт дешевле и документация у них лучше". Но мы работаем над нашими проблемами, особенно в текущих условиях, когда дефицит микросхем и различные государственные меры поддержки дают шанс увеличить долю отечественной продукции. Что бы максимально облегчить жизнь и сберечь свое и самое главное время наших потенциальных потребителей мы разработали специальный сервис по поиску отечественных аналогов импортных микросхем.

К созданию сервиса нас подтолкнул вал писем с экселевскими таблицами с перечислением сотен и тысяч наименований микросхем, просто ВОМ-ы или Ведомости Покупных Изделий, с просьбой подсказать возможные аналоги. Это очень муторный и тяжелый и зачастую неэффективный труд. Приходится просматривать множество спецификаций, додумывать, для чего может использоваться та или иная микросхема и предлагать какие либо отечественные аналоги. В общем замена импортных микросхем на отечественные требует некоторого приложения фантазии и патриотизма. Поэтому для облечения всю монотонную и формальную работу должен делать компьютер, а не человек. Обычно на стороне потребителя за вопрос поиска аналогов отвечает не разработчик, а сотрудник отдела закупки, которые в большинстве случаев не понимают функций, выполняемой данной микросхемой в изделии, и тем самым отсекаются возможные варианты. Наши же специалисты так же стараются честно подойти к сравнению и например, пишут что аналога нет, если по их мнению какой либо важный параметр сильно отличается, хотя на самом деле разработчик просто перезаложился. Срабатывает как минимум два больших субъективных фильтра. Поэтому наш сервис в первую очередь ориентирован именно на разработчика и должен быть понятен и удобен именно для разработчика с привычным ему форматом, что бы он не скидывал это на "закупку".

+25

Giardo911 13 дек 2021 в 14:17

ElasticSearch — как мы делали свою речевую аналитику

10 мин

13K

Блог компании Т-БанкПоисковые технологии *

Привет! Меня зовут Аркадий. Последние пару лет я в основном занимаюсь развитием поиска по тексту в команде TQM (Tinkoff Quality Management) в банке Тинькофф. Наш продукт — это речевая аналитика по звонкам, чатам и другим активностям, контроль качества, анализ и прочее. Более подробно о продукте можно прочитать на странице бизнес-решений. Примерный объем нашего индекса в проде — 16 Тб, около 450 млрд сущностей.

Каждый раз, когда встает вопрос о полнотекстовом поиске, команда оказывается перед выбором: а надо ли? Уже есть полнотекстовый поиск в Postgres, а тут придется заказывать серверы, строить кластер. Но чем чаще пользователю требуется что-то найти, тем чаще приходится смотреть в сторону специализированных поисковых движков.

Как пишут сами разработчики Elasticsearch, он нужен именно «для поиска, вы же знаете» (you know, for search) и не сможет заменить полноценное хранилище данных. Зато достаточно быстрый, очень надежный и хорошо горизонтально масштабируется (при наших объемах).

Мы в TQM используем Elastic потому, что он гибкий, широко известный, имеет удобный и простой синтаксис, множество библиотек для работы как на Python, так и на C# (NEST). Хорошо скейлится под наши объемы (1—30 Тб). Kibana также очень удобна, мы используем ее для мониторинга, консоль Kibana применяем для запросов. А еще по сравнению с тем же Sphinx, Elastic удобно масштабировать (просто добавляем шарды, ноды, и он сам распределяет данные по ним). В случае с тем же Sphinx нам пришлось бы писать этот распределенный поиск самим, и не факт, что у нас получилось бы хорошо с первого раза.

+17

Digital_Sharks 4 дек 2021 в 08:15

Как абуз DMCA делает большинство авторов контента беззащитными

6 мин

13K

Информационная безопасность * Поисковые технологии * Интернет-маркетинг * Законодательство в ITПоисковая оптимизация *

Из песочницы

Манипуляция с датой публикации позволяет убрать из поиска Google почти что угодно. Во всем виновата лазейка в авторском праве и это большая проблема для всего интернета.

Неприятно, когда в интернете о тебе пишут вранье. Еще хуже, когда ложь уходит в народ и начинает отнимать клиентов, потенциальные партнеры задают неудобные вопросы, да и перед близкими неприятно — они ведь тоже умеют пользоваться интернетом.

С негативом хочется разобраться побыстрее и относительно недавно на рынке появилось действенное решение — абуз DMCA или закона об авторском праве. Метод почти не дает осечек и мало кто задумывается, что за ним стоит воровство контента и русская рулетка с законом. Работает же, так чего думать?

Есть один нюанс — все действия по DMCA фиксируются в открытом доступе, что рано или поздно выстрелит в обратную сторону. Плюс никто не снимает с повестки вопросы этики, ведь никто не застрахован от абуза DMCA.

Обязательно прочтите это мини-расследование, если интересны неприятные стороны работы Google.

+15

SergeyBPshenichnikov 29 ноя 2021 в 18:09

Конкордантность смысла

16 мин

2.7K

Поисковые технологии * Семантические сети * Алгоритмы * Natural Language Processing *

В [1, 2, 3] тексты (знаковые последовательности с повторами) с помощью матричных единиц, как образов слов, превращались (координатизировались) в алгебраические системы. Координатизация — необходимое условие алгебраизации любой предметной области...

Wolchara000 22 ноя 2021 в 10:00

Как нас могут логировать общедоступными методами

6 мин

14K

Блог компании T.HunterСоциальные сетиOpen source * Поисковые технологии * Информационная безопасность *

DISCLAIMER: Данная статья написана в ознакомительных целях и не является руководством к неправомерным действиям или обучающим материалом для сокрытия правонарушений.

Итак, логирование пользователя интернета предполагает осуществление с ним такого взаимодействия, в ходе которого изучаемый пользователь посетит (в той или иной форме) внешний веб-ресурс, доступ к логу которого имеется у исследователя. Это может быть, специально созданные, гиперссылка или файл, запускающий при своем открытии специальные алгоритмы сбора пользовательских данных. Большое число сервисов, предлагающих подобный функционал, находится в общем доступе.

Мы разделили логеры на две основные категории по принципу их работы...

YARUSru 19 ноя 2021 в 07:53

Elasticsearch vs Sphinx

3 мин

15K

Поисковые технологии * Sphinx *

Recovery Mode

Каждый разработчик приложения рано или поздно сталкивается с таким важным вопросом, как выбор поискового движка. Мы рассмотрели два популярных, но принципиально разных варианта – Sphinx и Elasticsearch – и объяснили, почему сделали выбор в пользу первого для своего приложения.

-5