Как стать автором
Обновить

«Вебальта» анонсировала дату запуска

Чулан
6 июля «Вебальта» откроет свой поисковый сервис для публичного тестирования, сообщает пресс-релиз компании.

По словам разработчиков, им удалось реализовать ряд технологических нововведений в механизм индексирования документов, отбора и сортировки результатов поиска информации. «Всё это позволяет «Вебальте» точно отвечать на любой запрос пользователя. 50 млн вариантов ответа выдаются за десятую долю секунды», — утверждают разработчики.

Согласно данным, опубликованным на сайте поисковика, на 4 июля всего проиндексировано 227 089 270 документов объёмом 6 181Гб.
Рейтинг 0
Просмотры 309
Комментарии 8

Yahoo убрала результаты поиска по блогам

Чулан
Из результатов поиска Yahoo News Search исчезли блоги. Точнее, самые популярные блоги остались в индексе (они уже настолько крупные, что их можно считать традиционными СМИ), а вот все остальные пропали.

Блоги появились среди результатов поиска по новостям Yahoo News Search в октябре прошлого года. Тогда на сайте появилась правая колонка, специально предназначенная для показа результатов с блогов. Теперь она исчезла. Более того, страница «Поиска по новостям и блогам» (скриншот старого заголовка) переименована в страницу «Поиск по новостям» (новый скриншот).

На первый взгляд кажется, что это очень странный шаг со стороны Yahoo, потому что блогосфера растет как на дрожжах, а компании инвестируют миллионы долларов в совершенствование поиска по блогам. На самом же деле ответ проще, чем кажется: скорее всего, Yahoo готовит отдельный поисковик по блогам, более функциональный, чем раньше. Именно поэтому решено временно убрать блоги из результатов поиска. Эта же версия подтверждается из неофициальных источников в компании Yahoo.
Рейтинг 0
Просмотры 267
Комментарии 7

Technorati стал проще и функциональнее

Чулан
Ровно три года назад была официально зарегистрирована компания Technorati, и одноименный поисковый сайт перешел из статуса научного проекта на новую стадию своего развития. С тех пор очень многое изменилось, и особенно впечатляющим был рост самой блогосферы. Достаточно сказать, что создатели Technorati изначально рассчитывали, что количество блогов в индексе будет измеряться тысячами. Сейчас индекс вырос на несколько порядков — до 50 млн блогов. Поисковый движок научился работать с другими форматами контента, в том числе фото и видео.
Читать дальше →
Всего голосов 4: ↑4 и ↓0 +4
Просмотры 261
Комментарии 9

Детский поисковик от Quintura работает на собственном индексе

Поисковые технологии *
Quintura for Kids, визуальный поисковик для детей от Quintura, теперь функционирует на собственной индексной базе. Это первый проект компании, который использует веб-индекс, созданный по фирменной технологии нейронных сетей.
«С самого своего выхода в декабре 2006 г. Quintura for Kids пользуется постоянным спросом у интернет-аудитории, особенно у родителей и учителей — они рекомендуют её своим детям, — сказал Яков Садчиков, сооснователь и президент Quintura. — Чтобы и дальше радовать своих пользователей, мы обновляем Quintura for Kids ещё более детальным облаком подсказок, ускорением сервиса и повышением релевантности поисковых результатов».

В ближайших планах компании – запуск партнерской программы для сайтов и блогов, которые смогут включить визуальную карту Quintura в инструменты локального поиска.
Всего голосов 10: ↑9 и ↓1 +8
Просмотры 1.1K
Комментарии 8

Кто-нибудь может это объяснить?

IT-компании
Сегодня решил посмотреть ИЦ своего сайта.
Захожу по кнопке (ИЦ на ней 600) что стоит у меня в разделе О сайте, и попадаю на страницу что ниже =)
Моего сайта на этой картинке вообще нет. Спрашивается, что это такое?? =))

Всего голосов 7: ↑2 и ↓5 -3
Просмотры 401
Комментарии 3

Первая неофициальная премия «Самый цитируемый журналист»

Чулан
Индекс упоминаемости в российских СМИ является показателем авторитета и популярности той или иной персоны, компании. Журналисты же, благодаря которым известные личности и компании попадают на новостные ленты и в рейтинги, остаются вне игры.

Компания «Интегрум» выяснила, кто из журналистов самый цитируемый и наградила победителя. Лучшим за 2007 год в этой неофициальной номинации стал финансовый обозреватель Ян Арт, статьи которого публикуются в журналах «Профиль», «Белая полоса» и «Карьера». Также в десятку попали журналисты из «Коммерсанта», «Известий», «Времени новостей» и «РБК Daily». В планах компании сделать вручение этой премии ежегодной и официальной. А пока создается база данных лучших российских журналистов. Благодаря ней у каждого журналиста будет возможность посмотреть свой индекс цитирования в СМИ.

Вручение премии приурочено к открытию первого бесплатного рейтингового сервиса «Интегрум Индекс». Теперь каждый интернет-пользователь сможет самостоятельно узнавать рейтинги известных людей, крупных компаний и актуальных событий в российской прессе. «Индекс» обрабатывает более 7,5 тысяч различных СМИ, не используя открытых источников в интернете — т.о. ежедневно база данных индикатора цитируемости пополняется на 40 тысяч новых документов. Это позволяет произвести точный и достоверный мониторинг всей российской прессы. Также новый ресурс позволяет сравнить рейтинги нескольких персон или компаний и узнать, в каких информационных поводах фигурируют интересующие имена.
Всего голосов 7: ↑6 и ↓1 +5
Просмотры 349
Комментарии 4

Записки послушника. Сказ про выборы на масленицу (ч.1)

Чулан
Россия 2008

В России-матушке на новый год пьют горько, так уж исстари повелось. И рабочий пьет и колхозница, и борзописец какой. Пьют — царя батюшку добрым словом вспоминают, поздравил, родной, не забыл, слова сказал лепые весьма.

Выпьют за Новый год, облобызаются, вспомнит Царя-батюшку народ русский. Про него только и помнит, а остальные все — да гори они огнем, тунеядцы-казнокрады!

Но вот как високосный год в России-матушке — так вечно напасть какая. Вот и тут — масленица наступает, а государь выборы удумал. У государя то и рейтинг и индекс! Чего ему бояться — сиди себе, правь нам на благо, себе на потеху.

Ан нет. Отдохнуть задумал он от государственных дел. Выборы затеял. Выбирай говорит, народ, кого хошь, но лучше вот товарища моего-надёжу.
Читать дальше →
Всего голосов 16: ↑8 и ↓8 0
Просмотры 198
Комментарии 6

Записки послушника. Сказ про выборы на масленицу (ч.2)

Чулан
Россия 2005
(предыдущая часть 1)

«Вот и растет Индекс он не под дням, а по часам. Глядишь — генварь закончился, а индекс фаворита уже не чета прошлогоднему — к государевому подрос».

Ну хотя он же это на фоне государя только бледно выглядел. А так-то знали мы его — человек государев, уважаемый, знатный.

Помню три года назад началось. Смотрим мы у себя в келье Индексы тех времен. Смотрим — диву даемся. Эвона как. Начал-то Он год как. Зюган да Жиган, бояре думские, познатнее его были, да поуверенней.
Читать дальше →
Всего голосов 6: ↑1 и ↓5 -4
Просмотры 241
Комментарии 0

Записки послушника. Сказ про выборы на масленицу. (ч.3)

Чулан
Россия 2007

И вот задались вопросом иерархи наши когда же вернулся Медвед-то. Послали меня за Индексом.
А я и доношу: после пятого года пришел Медвед обратно только лишь в седьмом. Зато как пришел. Заговорил о Нацпроектах. В газете купеческой1 слово держал. Мол жить стало лучше, жить стало веселей.

Затем государев человек в Думу ехать изволил. Со свитою. И слушали его бояре — наслушаться не могли2. Все о том же говорил Медвед. Наши борзописцы рукава уж все истерли — пишут и пишут. А следом, глядишь, и бусурмане подхватывают. Растет Индекс, что твоя репка. Большой пребольшой.

Вот уж март настает, а холопы тут как тут — рады служить. Сначала устроил надежа наша, конференцию. Да не простую — а сказочную — закинул Сети.

Улов был велик.
Читать дальше →
Всего голосов 16: ↑2 и ↓14 -12
Просмотры 224
Комментарии 1

Индексы и селективность (PostgreSQL)

Чулан
Индекс по полю в БД потенциально может ускорить SELECT операцию с условием по данному полю, может ускорить запрос вида: ORDER BY поле LIMIT 20, но индекс существенно замедляет операции изменения таблицы и т.п.

Когда нужен индекс, когда он поможет и будет использован при SELECTах? Всё зависит от селективности индекса, т.е. от кол-ва строк, которые мы получим если зададим условие:
проиндексированное_поле = значение


Отличный кандидат для индексирования — селективность 1, т.е. уникальный индекс (например, id), когда по указанному значению мы найдем максимум одну запись.

Рассмотрим в качестве примера таблицу пользователей с полями информации о регионе: страна (country_id) и город (city_id). Хорошо, когда селективность составляет < 5% (например, поле city_id у пользователя). При этом PostgreSQL умён, он считает не селективность “вообще” по полю, а селективность в виде гистограммы по отдельным значениям поля. Т.е. если мы задаем условие вида

страна = Россия


то получим 10% записей из БД, а если условие

страна = Уругвай


то получим 2 записи, и это PostgreSQL понимает. (Конечно, здесь мы предлполагаем, что пользователей из Уругвая на нашем сервере гораздо меньше, чем пользователей из России).

Так вот, если селективность плохая (получаем много записей), PostgreSQL предпочтёт выполнить полное сканирование БД, не используя индекс. И такой индекс только мешает.

P.S. Кросс-пост из моего блога
Всего голосов 10: ↑6.5 и ↓3.5 +3
Просмотры 12K
Комментарии 4

«Отсекая лишнее». Каким образом ограничить свою фантазию и фантазию заказчика?

Дизайн
Дизайн — оригинальная профессия. Здесь, как нигде больше, допустимо множественное решение поставленной задачи (может быть еще в философии, но там много не заработаешь:). Даже откинув варианты, возникающие «по вине заказчика» (вкусовщина, неверно поставленная задача, профанация) или «по вине исполнителя» (показушный креатив), дизайнер все-равно окажется перед выбором из нескольких вариантов. Не всегда есть возможность досконально изучить рынок, для которого создается дизайн-работа, либо элементарно может не хватить опыта или знания трендов. Автор статьи никогда не относился с негативом к пожеланию заказчика сделать несколько вариантов дизайна. Можно долго оговаривать условия задачи, уточнять бриф, проводить аналитику (безусловно, это важнейшие этапы), но пока заказчик не увидит набросок решения, он не скажет, соответствует это его ожиданиям (и ожиданиям рынка) или нет. По сути, дизайнер-профессионал должен прощупать почву, прежде, чем ринуться в бой и сделать готовый макет. Это экономит его время и время заказчика.

Приведенные в статье методы одинаково подходят к дизайну любой визуальной коммуникации. Учитывая любовь автора к дизайну фирменного стиля, речь, по-большей части, пойдет о нем и его составляющих. Все умозаключения носят рекомендательный характер и призваны помочь быстрее достичь желаемого результата. Вкус и талант никто не отменял.

Читать дальше →
Всего голосов 54: ↑52 и ↓2 +50
Просмотры 755
Комментарии 23

Индексы в MySQL: многоколоночные индексы против комбинированных индексов

MySQL *
Перевод
Я часто вижу ошибки, связанные с созданием индексов в MySQL. Многие разработчики (и не только новички в MySQL) создают много индексов на тех колонках, которые будут использовать в выборках, и считают это оптимальной стратегией. Например, если мне нужно выполнить запрос типа AGE=18 AND STATE='CA', то многие люди просто создадут 2 отдельных индекса на колонках AGE и STATE.

Намного лучшей (здесь и далее прим. переводчика: а обычно и единственной верной) стратегией является создание комбинированного индекса вида (AGE,STATE). Давайте рассмотрим почему это так.

Читать дальше →
Всего голосов 74: ↑58 и ↓16 +42
Просмотры 112K
Комментарии 57

Оптимизация производительности SQL Server с использованием индексов

SQL *Microsoft SQL Server *
Из песочницы

Введение


Как известно, индексы повышают производительность аналогично оглавлению или предметному указателю в кнгие. Прочитав несколько статей в интернете и пару глав из книжек, хотелось бы узнать, насколько индексы помогают увеличить скорость выборки данных из SQL Server. Рассмотрим на примере.
Читать дальше →
Всего голосов 17: ↑7 и ↓10 -3
Просмотры 70K
Комментарии 49

14 вопросов об индексах в SQL Server, которые вы стеснялись задать

Разработка веб-сайтов *Программирование *SQL *Microsoft SQL Server *
Перевод
Tutorial
Индексы — это первое, что необходимо хорошо понимать в работе SQL Server, но странным образом базовые вопросы не слишком часто задаются на форумах и получают не так уж много ответов.
Роб Шелдон отвечает на эти, вызывающие смущение в профессиональных кругах, вопросы об индексах в SQL Server: одни из них мы просто стесняемся задать, а прежде чем задать другие сначала подумаем дважды.


От переводчика
Данный пост является компиляцией двух статей Роба Шелдона:

Если вы пишите запросы на языке T-SQL, но плохо понимаете откуда берутся данные, то стоит прочитать данный перевод.
Если же вы захотите знать больше, то в конце перевода я даю тройку книг с которых следует двигаться дальше.

Перейти к чтению
Всего голосов 40: ↑37 и ↓3 +34
Просмотры 871K
Комментарии 44

Поиск Яндекса с инженерной точки зрения. Лекция в Яндексе

Блог компании Яндекс Поисковые технологии *Алгоритмы *Промышленное программирование *Машинное обучение *
Сегодня мы публикуем ещё один из докладов, прозвучавших на летней встрече об устройстве поиска Яндекса. Выступление руководителя отдела ранжирования Петра Попова получилось в тот день самым доступным для широкой аудитории: минимум формул, максимум общих понятий о поиске. Но интересно было всем, потому что Пётр несколько раз переходил к деталям и в итоге рассказал много такого, о чём Яндекс никогда раньше публично не заявлял.

Кстати, одновременно с публикацией этой расшифровки начинается вторая встреча из серии, посвящённой технологиям Яндекса. Сегодняшнее мероприятие — уже не про поиск, а про инфраструктуру. Вот ссылка на трансляцию.


Ну а под катом — лекция Петра Попова и часть слайдов.

Всего голосов 61: ↑60 и ↓1 +59
Просмотры 22K
Комментарии 5

Что должен знать о поиске каждый разработчик

Блог компании Alconost Поисковые технологии *Алгоритмы *Big Data *Машинное обучение *
Перевод
Tutorial

Хотите внедрить или доработать функцию поиска? Вам сюда.



Спросите разработчика: «Как бы вы реализовали функцию поиска в своем продукте?» или «Как создать поисковую систему?». Вероятно, в ответ вы услышите что-нибудь такое: «Ну, мы просто запустим кластер Elasticsearch: с поиском сегодня всё просто».

Но так ли это? Во многих современных продуктах по-прежнему не лучшим образом реализован поиск. Настоящий специалист по поисковым системам скажет вам, что лишь немногие разработчики глубоко понимают, как работает поиск, а ведь это знание часто необходимо для улучшения качества поиска.

Есть множество программных пакетов с открытым исходным кодом, проведено немало исследований, однако лишь немногие избранные понимают, как нужно делать функциональный поиск. Как ни забавно, но если поискать в Интернете связанную с реализацией поиска информацию, вы не найдете актуальных и содержательных обзоров.

Цель статьи


Этот текст можно считать собранием ценных идей и ресурсов, которые могут помочь в создании функции поиска. Статья, безусловно, не претендует на исчерпывающую полноту, однако я надеюсь, что ваши отзывы помогут ее доработать (оставляйте замечания в комментариях или свяжитесь со мной).

Основываясь на опыте работы с универсальными решениями и узкоспециализированными проектами самого разного масштаба (в компаниях Google, Airbnb и нескольких стартапах), я расскажу о некоторых популярных подходах, алгоритмах, методах и инструментах.

Недооценка и непонимание масштабов и сложности задачи поиска могут привести к тому, что у пользователей останутся плохие впечатления, разработчики потратят время впустую, а продукт провалится.

Переведено в Alconost
Читать дальше →
Всего голосов 10: ↑10 и ↓0 +10
Просмотры 23K
Комментарии 0

Что ещё можно сделать в поиске? Доклад Яндекса

Блог компании Яндекс Поисковые технологии *Алгоритмы *Машинное обучение *
В Яндексе есть служба разработки поисковых компонент, которая строит поисковую базу на MapReduce, обеспечивает выдачу данных вёрстке для рендеринга, формирует алгоритмы и структуры данных и решает ML-задачи роста качества. Алексей Шлюнкин, руководитель одной из групп внутри этой службы, объясняет, из чего состоит рантайм поиска и как мы им управляем.


Хочешь ковыряться в ML — ковыряйся. Хочешь только MapReduce — окей. Хочешь рантайм — рантайм.

— Что такое поиск сегодня? Яндекс начался с того, что сделал поиск, развивал его. Прошло 20 лет. У нас получилась поисковая база на сотни миллиардов документов.

Всего голосов 21: ↑21 и ↓0 +21
Просмотры 4.9K
Комментарии 6

Как написать свой индекс в Tarantool

Блог компании VK C *Lua *Хранение данных *Tarantool *


Tarantool — это сервер приложений и база данных. Серверная часть написана на C, а пользователю предоставлен Lua-интерфейс для работы с ним. Кроме того, Tarantool — это opensource-продукт, а значит, исходный код лежит в открытом доступе, и можно свободно разрабатывать и распространять ПО на основе Tarantool.

Но сегодня рассказ будет немного о другом: об эксперименте, о попытке написать свою структуру данных для поиска (Z-order curve) и встроить её в существующую экосистему Tarantool.

Я разработчик в Tarantool Solution Team, не занимаюсь непосредственной разработкой Tarantool, а отношусь к активным пользователям. Поэтому, для меня этот эксперимент — попытка разобраться, как Tarantool работает на низком уровне.
Читать дальше →
Всего голосов 53: ↑53 и ↓0 +53
Просмотры 3.4K
Комментарии 10

Различия индексов MySql, кластеризация, хранение данных в MyIsam и InnoDb

MySQL *Программирование *

Как устроены индексы в MySql, чем отличается индексирование в двух наиболее популярных движках MyISAM и InnoDb, чем первичные ключи отличаются от простого индекса, что такое кластерные индексы и покрывающие индексы, как с помощью них можно ускорить запросы. Вот как мне кажется наиболее интересные темы которые раскрою в этой статье. Тут же постараюсь подробно раскрыть тему с позиции того как работает этот механизм внутри. Буквально на пальцах и с позиции абстракций а не конкретики. В общем чтоб было минимум текста и максимум понятно.

Читать далее
Всего голосов 8: ↑8 и ↓0 +8
Просмотры 10K
Комментарии 3

Языки Data Mining и AI переживают бум

Блог компании SkillFactory Python *Программирование *Исследования и прогнозы в IT *Карьера в IT-индустрии
Перевод

Смартфоны много лет назад стали хитом, а за ними последовали языки программирования мобильных приложений. Достигший пика на третьей позиции Objective-C использовался только для iPhone. Сегодня ту же картину мы видим в Data Mining и искусственном интеллекте: языки программирования в этих областях переживают бум.

Ярчайший пример — Python, отвоевавший вторую позицию у Java. Благодаря этому возродился Fortran, но не только он. Подробности, которыми делимся к старту флагманского курса по Data Science, читайте под катом.

Читать далее
Всего голосов 17: ↑9 и ↓8 +1
Просмотры 7.7K
Комментарии 4
1