Pull to refresh
  • by relevance
  • by date
  • by rating

KeyClusterer — Бесплатная кластеризация поисковых запросов

Search engine optimization
Всем привет! Представляем вашему вниманию обзор программы KeyClusterer, предназначенной для кластеризации (группировки) поисковых запросов. Первый релиз программы был выпущен в 2017 году, однако, по ряду причин, ее развитие было заморожено на неопределенный срок. Сегодня мы выложили обновленную версию, которую можно считать полноценным продолжением.

В новой версии KeyClusterer мы добавили несколько важных для кластеризации функций, таких, как: возможность проверки позиций и релевантных страниц, а также исправили основные недоработки и привели в порядок интерфейс программы. Расскажем обо всем подробнее.

image
Читать дальше →
Total votes 8: ↑8 and ↓0 +8
Views 1.9K
Comments 0

Как мы на хакатоне транспорт кластеризировали

SkillFactory corporate blog Image processing *Hackathon Machine learning *Studying in IT

Привет, Хабр! Компьютерное зрение и искусственный интеллект — одни из самых востребованных направлений в современном IT. Поэтому мы выбрали именно их для учебного «Межгалактического Хакатона 2021» который организовали НИТУ МИСиС и Zavtra.Online (подразделение SkillFactory по работе с университетами).

В хакатоне были представлены 5 кейсов от разных компаний, и одним из них был кейс от компании IntelliVision — кластеризация изображений транспортных средств. Его и выбрала команда финалистов, описав реализацию подобного проекта от А до Я.

Читать далее
Total votes 5: ↑5 and ↓0 +5
Views 2.1K
Comments 0

Nigma тестирует AJAX-интерфейс для поиска

Lumber room
Поисковая система Nigma, разрабатываемая студентами и аспирантами МГУ им. М.В.Ломоносова, объявила о начале тестирования Ajax-интерфейса для отображения результатов кластеризации.

«Нас всегда интересуют новые технологии, и мы не могли проигнорировать возрастающую популярность Ajax, — говорит Виктор Лавренко, руководитель Nigma.Ru. — С другой стороны, есть гипотеза, что пользователям важен именно интерфейс в результатах, поэтому мы решили проверить эту гипотезу. Сейчас интерфейс находится в стадии альфа-тестировании и мы с удовольствием выслушаем предложения по его улучшению».
Rating 0
Views 276
Comments 0

Quintura отмечает первый день рождения

Lumber room
Компания Quintura, анонсировавшая год назад выпуск одноименного поискового сервиса, отмечает первый день рождения своего продукта. Спустя год инновационный поиск Quintura, использующий динамическую кластеризацию и визуализацию выдачи в виде семантической карты, набрал аудиторию в более 150 тысяч человек во всем миру. При этом он получил ряд высоких оценок hi-tech экспертов: «Авторитетный журнал Business 2.0 включил Quintura в список самых горячих стартапов 2006 года», — сообщает компания.

Напомним, русскоязычный поисковый онлайн-сервис Quintura открылся летом 2006 года. Им успело воспользоваться около 30 тысяч человек. Сообщается, что в ближайшее время компания запустит глобальный поисковый сервис. Кроме того, ожидается появление визуального поиска по картинкам.
Rating 0
Views 206
Comments 0

Microsoft запатентовала «видеобраузер»

Lumber room
Заявка на патент США № 20060120624 описывает технологию, которая способна автоматически составить «содержание» любого видеофильма и вывести его на экран в графическом виде.
Читать дальше →
Total votes 1: ↑1 and ↓0 +1
Views 266
Comments 4

Nigma.ru тестирует новую версию

Search engines *
Разработчики Нигма.ру полностью переписали код поисковой системы и внесли ряд нововведений; новую версию можно протестировать по адресу new.nigma.ru

Интерфейсные изменения включают улучшения в части управления кластеризацией (теперь кластеры можно не только исключать, но и объединять), появилась «антипортальная» панель навигации со ссылками на «чужие» проекты (в отличие от порталов, которые зачастую ставят ссылки на свои и притом не лучшие проекты). Игорь Ашманов утверждает, что «такая идея кажется довольно интересной» (см. пресс-релиз).

В части программного кода в очередной раз улучшена орфография, а таблица примеров из пресс-релиза (первая) на этот раз (в отличие от предыдущих пресс-релизов) содержит те опечатки, которые люди реально делают (можно проверить в Яндекс.Директе) и которые другие системы исправляют значительно хуже. Также улучшен поиск по электронным библиотекам.

С полным текстом новости можно ознакомиться на сайте поисковой системы.

Разработчики с нетерпением ждут комментариев к новой версии!
Total votes 28: ↑23 and ↓5 +18
Views 2.5K
Comments 42

Основы масштабирования

Website development *
Прочитав в этом блоге о балансировке на стороне клиента, решил опубликовать свою статью, в которой описаны основные принципы масштабирования для web-проектов. Надеюсь, хабралюдям будет интересно почитать.

Основы масштабирования



Масштабируемость — способность устройства увеличивать свои
возможности
путем наращивания числа функциональных блоков,
выполняющих одни и
те же задачи.
Глоссарий.ru

Обычно о масштабировании начинают думать тогда, когда один
сервер не справляется с возложенной на него работой. С чем именно он не
справляется? Работа любого web-сервера по большому счету сводится к основному
занятию компьютеров — обработке данных. Ответ на HTTP (или любой другой) запрос
подразумевает проведение некоторых операций над некими данными. Соответственно,
у нас есть две основные сущности — это данные (характеризуемые своим объемом) и
вычисления (характеризуемые сложностью). Сервер может не справляться со своей
работой по причине большого объема данных (они могут физически не помещаться на
сервере), либо по причине большой вычислительной нагрузки. Речь здесь идет,
конечно, о суммарной нагрузке — сложность обработки одного запроса может быть
невелика, но большое их количество может «завалить» сервер.

Читать дальше →
Total votes 68: ↑67 and ↓1 +66
Views 52K
Comments 49

Хабракластеризация

Habr
Ассоциации с Firefox сегодня:
«Надоесть, стать привычным и потому утратить свой интерес, привлекательность, опротиветь» — Толковый словарь русского языка Ушакова.
Читать дальше →
Total votes 14: ↑9 and ↓5 +4
Views 772
Comments 5

Кластеризация memcached и выбор ключа кэширования

Website development *
Серия постов под общим заглавием “Web, кэширование и memcached” продолжается. В первом мы поговорили о memcached, его архитектуре и возможном применении.

Сегодня речь пойдет о:
  • выборе ключа кэширования;
  • кластеризации memcached и алгоритмах распределения ключей.

Следующий пост будет посвящен атомарности операций и счетчикам в memcached.

Итак, поехали!
Total votes 61: ↑61 and ↓0 +61
Views 20K
Comments 42

Очищаем веб-страницы от информационного шума

Data Mining *
Приветствую всех!

Предыдущие мои статьи были, в основном, о теоретической части Data Mining, сегодня хочу рассказать о практическом примере, который используется в кандидатской диссертации (в связи с этим данный пример на данном этапе развития нельзя считать полноценным работающим проектом, но прототипом его считать можно).

Будем очищать веб-страницы от «информационного шума».

Читать дальше →
Total votes 58: ↑49 and ↓9 +40
Views 3.2K
Comments 33

Кластеризация: алгоритмы k-means и c-means

Data Mining *
Добрый день!

Как и обещал, продолжаю серию публикаций о технологии Data Mining. Сегодня хочу рассказать о двух алгоритмах кластеризации (k-means и c-means), описать преимущества и недостатки, дать некоторые рекомендации по их использованию. Итак, поехали…

Кластеризация — это разделение множества входных векторов на группы (кластеры) по степени «схожести» друг на друга.

Кластеризация в Data Mining приобретает ценность тогда, когда она выступает одним из этапов анализа данных, построения законченного аналитического решения. Аналитику часто легче выделить группы схожих объектов, изучить их особенности и построить для каждой группы отдельную модель, чем создавать одну общую модель для всех данных. Таким приемом постоянно пользуются в маркетинге, выделяя группы клиентов, покупателей, товаров и разрабатывая для каждой из них отдельную стратегию (Википедия).

Читать дальше →
Total votes 9: ↑7 and ↓2 +5
Views 125K
Comments 9

Делаем правильную платформу или Как повторить Google

Website development *
Введение
Сегодня я расскажу о проектировании высоко-нагруженных отказоустойчивых систем. Акцент будет поставлен практическую разработку и жареные факты, а не на сухую теорию. После прочтения вы не испугаетесь разработки сервиса с миллиардом пользователей, если у вас будет достаточное количество серверов. Тема весьма обширна, но я постараюсь быть кратким и лаконичным.
Читать дальше →
Total votes 131: ↑76 and ↓55 +21
Views 2.4K
Comments 299

Об информационном поиске, нахождении оптимальных путей просмотра результатов поиска и многом другом

Search engines *
Задача нахождения оптимальных путей просмотра результатов поиска является моей основной темой кандидаткой работы. Сегодня я хочу поделиться промежуточными результатами исследований, а также приложениями и SDK, которые были использованы в работе.

Решение о написании данной статьи было принято после просмотра семинара из цикла «Информационный поиск и анализ данных» на тему «Семантический анализ текстов с использованием Википедии», докладчиком которого был Максим Гринёв — доцент, старший преподаватель кафедры системного программирования, заведующий отделом ИСП РАН.

Вы можете посмотреть доклад, скачать доклад или посмотреть расписание других докладов.
Читать дальше →
Total votes 16: ↑14 and ↓2 +12
Views 2.7K
Comments 6

Отказоустойчивые службы при помощи CARP

System administration *

Краткое введение


Про сам протокол очень хорошо написанно в википедии. Кому интересны подробности и история — туда. В двух словах о нём можно сказать так: это протокол избыточности, который позволяет двум или более компьютерам в одной подсети иметь одновременно один и тот же IP адрес, при этом возможна настройка этой группы компьютеров как взаимозаменяемые (главный компьютер отключился/сломался – вместо него сразу же принимается за работу другой, у которого приоритет выше) и так по кругу, обеспечивая тем самым почти 100% доступность служб. СARP является «родным» для OpenBSD, FreeBSD и NetBSD. На линуксе с ядром выше 2.4 доступен через ucarp.

Немного сумбурно, но в дальнейшем, надеюсь, ситуация прояснится.
Читать дальше →
Total votes 31: ↑24 and ↓7 +17
Views 8.3K
Comments 25

Parking.ru — повышаем надежность. Запуск кластера для Hyper-V

Parking.ru corporate blog
В начале марта мы полностью запустили в коммерческую эксплуатацию отказоустойчивый кластер узлов Hyper-V R2 на котором теперь надежно работают все наши виртуальные выделенные сервера. В ходе внедрения мы испытали некоторые проблемы о чем писали некоторые наши клиенты.

Что получилось?
Total votes 12: ↑7 and ↓5 +2
Views 2.5K
Comments 5

Пишу поисковик (virtual project). Ч.1. Первые кирпичи

Lumber room
Кому не интересны изобретения велосипедов, дальше просьба не читать и не плевать в спину.
Кому есть что сказать по существу вопроса — всегда рад.
Сейчас я собираюсь рассмотреть основные вопросы, которые мне необходимы для масштабирования системы.
Читать дальше →
Total votes 18: ↑11 and ↓7 +4
Views 217
Comments 24

Кластерная LustreFS или с Миру по нитке

System administration *
#include

Зачастую, краеугольным камнем производительности работы сервера является скорость работы файловой системы. Её можно увеличить с помощью создания дисковых массивов RAID0 — запись/чтение побитово производится на оба диска, однако рано или поздно слоты под диски заканчиваются, надёжность RAID0 оставляет желать лучшего — при выходе одного из дисков, рушится вся система. RAID10 опять же упираемся в количество дисков.

Как альтернатива, использование сетевых фс. Наибольшее распространение получила NFS, но для боевых задач с её скоростью и неочевидностью настройки прав доступа практически непригодна.
«Сравнивать GPFS и LustreFS — это как сравнивать IBM и SUN.»
Анонимус из интернетов.

В ТОП-300 суперкомпьютеров Мира половина из первых 50 используют LustreFS, которая очень проста в первоначальной настройке.
Читать дальше →
Total votes 44: ↑38 and ↓6 +32
Views 7K
Comments 29

Обзор алгоритмов кластеризации данных

Data Mining *
Приветствую!

В своей дипломной работе я проводил обзор и сравнительный анализ алгоритмов кластеризации данных. Подумал, что уже собранный и проработанный материал может оказаться кому-то интересен и полезен.
О том, что такое кластеризация, рассказал sashaeve в статье «Кластеризация: алгоритмы k-means и c-means». Я частично повторю слова Александра, частично дополню. Также в конце этой статьи интересующиеся могут почитать материалы по ссылкам в списке литературы.

Так же я постарался привести сухой «дипломный» стиль изложения к более публицистическому.
Читать дальше →
Total votes 82: ↑78 and ↓4 +74
Views 331K
Comments 41

Классификация данных методом опорных векторов

Data Mining *
Sandbox
Добрый день!

В данной статье я хочу рассказать о проблеме классификации данных методом опорных векторов (Support Vector Machine, SVM). Такая классификация имеет довольно широкое применение: от распознавания образов или создания спам-фильтров до вычисления распределения горячих аллюминиевых частиц в ракетных выхлопах.

Сначала несколько слов об исходной задаче. Задача классификации состоит в определении к какому классу из, как минимум, двух изначально известных относится данный объект. Обычно таким объектом является вектор в n-мерном вещественном пространстве . Координаты вектора описывают отдельные аттрибуты объекта. Например, цвет c, заданный в модели RGB, является вектором в трехмерном пространстве: c=(red, green, blue).

Читать дальше →
Total votes 82: ↑78 and ↓4 +74
Views 117K
Comments 27

Классификация и выделение объектов на изображениях

Image processing *
Sandbox
Здрайствуйте!
В связи со сферой своей деятельности, собрался, на мой взгляд, очень ценный материал, которым хочу поделиться с вами. Думаю некоторым он будет крайне важен и полезен, возможно мои наработки сэкономят Вам время, в случае чего буду рад. И так ближе к делу. На Хабре уже есть хороший обзор алгоритмов кластеризации данных. Детально рассмотрена теория, но практических результатов нет, как обычно практика не так легка, как кажется. Поэтому хочу представить вашему сведению реальные результаты, проблемы и их решений возникшее при кластеризации (точней сказать сегментации, потому что объект кластеризации — статическое изображение). Под катом будет и сегментация, и цифровая обработка изображений. Прошу…

Читать дальше
Total votes 5: ↑5 and ↓0 +5
Views 30K
Comments 7