Как стать автором
Обновить

KeyClusterer — Бесплатная кластеризация поисковых запросов

Поисковая оптимизация *
Всем привет! Представляем вашему вниманию обзор программы KeyClusterer, предназначенной для кластеризации (группировки) поисковых запросов. Первый релиз программы был выпущен в 2017 году, однако, по ряду причин, ее развитие было заморожено на неопределенный срок. Сегодня мы выложили обновленную версию, которую можно считать полноценным продолжением.

В новой версии KeyClusterer мы добавили несколько важных для кластеризации функций, таких, как: возможность проверки позиций и релевантных страниц, а также исправили основные недоработки и привели в порядок интерфейс программы. Расскажем обо всем подробнее.

image
Читать дальше →
Всего голосов 8: ↑8 и ↓0 +8
Просмотры 2.5K
Комментарии 0

Как мы на хакатоне транспорт кластеризировали

Блог компании SkillFactory Обработка изображений *Хакатоны Машинное обучение *Учебный процесс в IT

Привет, Хабр! Компьютерное зрение и искусственный интеллект — одни из самых востребованных направлений в современном IT. Поэтому мы выбрали именно их для учебного «Межгалактического Хакатона 2021» который организовали НИТУ МИСиС и Zavtra.Online (подразделение SkillFactory по работе с университетами).

В хакатоне были представлены 5 кейсов от разных компаний, и одним из них был кейс от компании IntelliVision — кластеризация изображений транспортных средств. Его и выбрала команда финалистов, описав реализацию подобного проекта от А до Я.

Читать далее
Всего голосов 5: ↑5 и ↓0 +5
Просмотры 2.7K
Комментарии 0

«10 типичных ошибок при разворачивании кластера» — вебинар 12 апреля

Блог компании Southbridge

Инженеры Southbridge проводит серию встреч, на которых мы обсуждаем вопросы эксплуатации в 2022. Приглашаем на ближайший вебинар «10 типичных ошибок при разворачивании кластера».

Когда: 12 апреля, с 19:30 до 20:30 мск.

Спикер: Денис Ознобишин, DevOps-инженер Southbridge.

На вебинаре обсудим:

— Как время простоя вашего приложения зависит от работы кластера?

— Может ли использование кластеризации помочь добиться доступности 24/7?

— О чем нужно подумать на пути к высокой доступности?

— Какие ошибки чаще всего встречаются при разворачивании кластера и как их избежать?

Поговорим о том, к чему приводят «кластер ради кластера», несимметричный кластер, кластеризация в нестабильной сети и др.

Зарегистрироваться на вебинар

Записи прошлых встреч:

«Что будет с IT в России», митап 22 марта 2022

«Kubernetes: выбор между self-hosted и managed-решением», вебинар 29 марта 2022

Читать про вебинар
Всего голосов 10: ↑10 и ↓0 +10
Просмотры 455
Комментарии 0

Облачный провайдер Serverspace запустил услугу Managed Kubernetes

Блог компании Serverspace IT-инфраструктура *Kubernetes *

Привет, Хабр! Мы запустили сервис для оркестрации контейнеризированных приложений. Теперь пользователи могут развернуть кластер Kubernetes за 20 минут.

Для беспрерывной работы с большими нагрузками можно создать высокодоступный кластер. Он выдерживает отказ любых компонентов приложения и обеспечивает обслуживание без перебоев. Балансировка нагрузки и маршрутизация трафика достигается за счет ingress-контроллера.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 471
Комментарии 0

Nigma тестирует AJAX-интерфейс для поиска

Чулан
Поисковая система Nigma, разрабатываемая студентами и аспирантами МГУ им. М.В.Ломоносова, объявила о начале тестирования Ajax-интерфейса для отображения результатов кластеризации.

«Нас всегда интересуют новые технологии, и мы не могли проигнорировать возрастающую популярность Ajax, — говорит Виктор Лавренко, руководитель Nigma.Ru. — С другой стороны, есть гипотеза, что пользователям важен именно интерфейс в результатах, поэтому мы решили проверить эту гипотезу. Сейчас интерфейс находится в стадии альфа-тестировании и мы с удовольствием выслушаем предложения по его улучшению».
Рейтинг 0
Просмотры 325
Комментарии 0

Quintura отмечает первый день рождения

Чулан
Компания Quintura, анонсировавшая год назад выпуск одноименного поискового сервиса, отмечает первый день рождения своего продукта. Спустя год инновационный поиск Quintura, использующий динамическую кластеризацию и визуализацию выдачи в виде семантической карты, набрал аудиторию в более 150 тысяч человек во всем миру. При этом он получил ряд высоких оценок hi-tech экспертов: «Авторитетный журнал Business 2.0 включил Quintura в список самых горячих стартапов 2006 года», — сообщает компания.

Напомним, русскоязычный поисковый онлайн-сервис Quintura открылся летом 2006 года. Им успело воспользоваться около 30 тысяч человек. Сообщается, что в ближайшее время компания запустит глобальный поисковый сервис. Кроме того, ожидается появление визуального поиска по картинкам.
Рейтинг 0
Просмотры 244
Комментарии 0

Microsoft запатентовала «видеобраузер»

Чулан
Заявка на патент США № 20060120624 описывает технологию, которая способна автоматически составить «содержание» любого видеофильма и вывести его на экран в графическом виде.
Читать дальше →
Всего голосов 1: ↑1 и ↓0 +1
Просмотры 324
Комментарии 4

Nigma.ru тестирует новую версию

Поисковые технологии *
Разработчики Нигма.ру полностью переписали код поисковой системы и внесли ряд нововведений; новую версию можно протестировать по адресу new.nigma.ru

Интерфейсные изменения включают улучшения в части управления кластеризацией (теперь кластеры можно не только исключать, но и объединять), появилась «антипортальная» панель навигации со ссылками на «чужие» проекты (в отличие от порталов, которые зачастую ставят ссылки на свои и притом не лучшие проекты). Игорь Ашманов утверждает, что «такая идея кажется довольно интересной» (см. пресс-релиз).

В части программного кода в очередной раз улучшена орфография, а таблица примеров из пресс-релиза (первая) на этот раз (в отличие от предыдущих пресс-релизов) содержит те опечатки, которые люди реально делают (можно проверить в Яндекс.Директе) и которые другие системы исправляют значительно хуже. Также улучшен поиск по электронным библиотекам.

С полным текстом новости можно ознакомиться на сайте поисковой системы.

Разработчики с нетерпением ждут комментариев к новой версии!
Всего голосов 28: ↑23 и ↓5 +18
Просмотры 2.6K
Комментарии 42

Основы масштабирования

Разработка веб-сайтов *
Прочитав в этом блоге о балансировке на стороне клиента, решил опубликовать свою статью, в которой описаны основные принципы масштабирования для web-проектов. Надеюсь, хабралюдям будет интересно почитать.

Основы масштабирования



Масштабируемость — способность устройства увеличивать свои
возможности
путем наращивания числа функциональных блоков,
выполняющих одни и
те же задачи.
Глоссарий.ru

Обычно о масштабировании начинают думать тогда, когда один
сервер не справляется с возложенной на него работой. С чем именно он не
справляется? Работа любого web-сервера по большому счету сводится к основному
занятию компьютеров — обработке данных. Ответ на HTTP (или любой другой) запрос
подразумевает проведение некоторых операций над некими данными. Соответственно,
у нас есть две основные сущности — это данные (характеризуемые своим объемом) и
вычисления (характеризуемые сложностью). Сервер может не справляться со своей
работой по причине большого объема данных (они могут физически не помещаться на
сервере), либо по причине большой вычислительной нагрузки. Речь здесь идет,
конечно, о суммарной нагрузке — сложность обработки одного запроса может быть
невелика, но большое их количество может «завалить» сервер.

Читать дальше →
Всего голосов 68: ↑67 и ↓1 +66
Просмотры 58K
Комментарии 49

Хабракластеризация

Habr
Ассоциации с Firefox сегодня:
«Надоесть, стать привычным и потому утратить свой интерес, привлекательность, опротиветь» — Толковый словарь русского языка Ушакова.
Читать дальше →
Всего голосов 14: ↑9 и ↓5 +4
Просмотры 841
Комментарии 5

Кластеризация memcached и выбор ключа кэширования

Разработка веб-сайтов *
Серия постов под общим заглавием “Web, кэширование и memcached” продолжается. В первом мы поговорили о memcached, его архитектуре и возможном применении.

Сегодня речь пойдет о:
  • выборе ключа кэширования;
  • кластеризации memcached и алгоритмах распределения ключей.

Следующий пост будет посвящен атомарности операций и счетчикам в memcached.

Итак, поехали!
Всего голосов 61: ↑61 и ↓0 +61
Просмотры 21K
Комментарии 42

Очищаем веб-страницы от информационного шума

Data Mining *
Приветствую всех!

Предыдущие мои статьи были, в основном, о теоретической части Data Mining, сегодня хочу рассказать о практическом примере, который используется в кандидатской диссертации (в связи с этим данный пример на данном этапе развития нельзя считать полноценным работающим проектом, но прототипом его считать можно).

Будем очищать веб-страницы от «информационного шума».

Читать дальше →
Всего голосов 58: ↑49 и ↓9 +40
Просмотры 3.4K
Комментарии 33

Кластеризация: алгоритмы k-means и c-means

Data Mining *
Добрый день!

Как и обещал, продолжаю серию публикаций о технологии Data Mining. Сегодня хочу рассказать о двух алгоритмах кластеризации (k-means и c-means), описать преимущества и недостатки, дать некоторые рекомендации по их использованию. Итак, поехали…

Кластеризация — это разделение множества входных векторов на группы (кластеры) по степени «схожести» друг на друга.

Кластеризация в Data Mining приобретает ценность тогда, когда она выступает одним из этапов анализа данных, построения законченного аналитического решения. Аналитику часто легче выделить группы схожих объектов, изучить их особенности и построить для каждой группы отдельную модель, чем создавать одну общую модель для всех данных. Таким приемом постоянно пользуются в маркетинге, выделяя группы клиентов, покупателей, товаров и разрабатывая для каждой из них отдельную стратегию (Википедия).

Читать дальше →
Всего голосов 9: ↑7 и ↓2 +5
Просмотры 141K
Комментарии 9

Делаем правильную платформу или Как повторить Google

Разработка веб-сайтов *
Введение
Сегодня я расскажу о проектировании высоко-нагруженных отказоустойчивых систем. Акцент будет поставлен практическую разработку и жареные факты, а не на сухую теорию. После прочтения вы не испугаетесь разработки сервиса с миллиардом пользователей, если у вас будет достаточное количество серверов. Тема весьма обширна, но я постараюсь быть кратким и лаконичным.
Читать дальше →
Всего голосов 131: ↑76 и ↓55 +21
Просмотры 2.5K
Комментарии 299

Об информационном поиске, нахождении оптимальных путей просмотра результатов поиска и многом другом

Поисковые технологии *
Задача нахождения оптимальных путей просмотра результатов поиска является моей основной темой кандидаткой работы. Сегодня я хочу поделиться промежуточными результатами исследований, а также приложениями и SDK, которые были использованы в работе.

Решение о написании данной статьи было принято после просмотра семинара из цикла «Информационный поиск и анализ данных» на тему «Семантический анализ текстов с использованием Википедии», докладчиком которого был Максим Гринёв — доцент, старший преподаватель кафедры системного программирования, заведующий отделом ИСП РАН.

Вы можете посмотреть доклад, скачать доклад или посмотреть расписание других докладов.
Читать дальше →
Всего голосов 16: ↑14 и ↓2 +12
Просмотры 2.8K
Комментарии 6

Отказоустойчивые службы при помощи CARP

Системное администрирование *

Краткое введение


Про сам протокол очень хорошо написанно в википедии. Кому интересны подробности и история — туда. В двух словах о нём можно сказать так: это протокол избыточности, который позволяет двум или более компьютерам в одной подсети иметь одновременно один и тот же IP адрес, при этом возможна настройка этой группы компьютеров как взаимозаменяемые (главный компьютер отключился/сломался – вместо него сразу же принимается за работу другой, у которого приоритет выше) и так по кругу, обеспечивая тем самым почти 100% доступность служб. СARP является «родным» для OpenBSD, FreeBSD и NetBSD. На линуксе с ядром выше 2.4 доступен через ucarp.

Немного сумбурно, но в дальнейшем, надеюсь, ситуация прояснится.
Читать дальше →
Всего голосов 31: ↑24 и ↓7 +17
Просмотры 8.7K
Комментарии 25

Parking.ru — повышаем надежность. Запуск кластера для Hyper-V

Блог компании Parking.ru
В начале марта мы полностью запустили в коммерческую эксплуатацию отказоустойчивый кластер узлов Hyper-V R2 на котором теперь надежно работают все наши виртуальные выделенные сервера. В ходе внедрения мы испытали некоторые проблемы о чем писали некоторые наши клиенты.

Что получилось?
Всего голосов 12: ↑7 и ↓5 +2
Просмотры 2.6K
Комментарии 5

Пишу поисковик (virtual project). Ч.1. Первые кирпичи

Чулан
Кому не интересны изобретения велосипедов, дальше просьба не читать и не плевать в спину.
Кому есть что сказать по существу вопроса — всегда рад.
Сейчас я собираюсь рассмотреть основные вопросы, которые мне необходимы для масштабирования системы.
Читать дальше →
Всего голосов 18: ↑11 и ↓7 +4
Просмотры 239
Комментарии 24

Кластерная LustreFS или с Миру по нитке

Системное администрирование *
#include

Зачастую, краеугольным камнем производительности работы сервера является скорость работы файловой системы. Её можно увеличить с помощью создания дисковых массивов RAID0 — запись/чтение побитово производится на оба диска, однако рано или поздно слоты под диски заканчиваются, надёжность RAID0 оставляет желать лучшего — при выходе одного из дисков, рушится вся система. RAID10 опять же упираемся в количество дисков.

Как альтернатива, использование сетевых фс. Наибольшее распространение получила NFS, но для боевых задач с её скоростью и неочевидностью настройки прав доступа практически непригодна.
«Сравнивать GPFS и LustreFS — это как сравнивать IBM и SUN.»
Анонимус из интернетов.

В ТОП-300 суперкомпьютеров Мира половина из первых 50 используют LustreFS, которая очень проста в первоначальной настройке.
Читать дальше →
Всего голосов 44: ↑38 и ↓6 +32
Просмотры 7.6K
Комментарии 29

Обзор алгоритмов кластеризации данных

Data Mining *
Приветствую!

В своей дипломной работе я проводил обзор и сравнительный анализ алгоритмов кластеризации данных. Подумал, что уже собранный и проработанный материал может оказаться кому-то интересен и полезен.
О том, что такое кластеризация, рассказал sashaeve в статье «Кластеризация: алгоритмы k-means и c-means». Я частично повторю слова Александра, частично дополню. Также в конце этой статьи интересующиеся могут почитать материалы по ссылкам в списке литературы.

Так же я постарался привести сухой «дипломный» стиль изложения к более публицистическому.
Читать дальше →
Всего голосов 82: ↑78 и ↓4 +74
Просмотры 368K
Комментарии 41