Comments / Profile of denis

Денис Баженов @denis_bazhenov

User

Profile Publications Comments 8Bookmarks

denis_bazhenov Jun 1 2018 at 12:17

На слайде про вывод jstack ошибка. Идентификатор потока в Linux (LWP) – это nid. Tid это адрес объекта потока в адресном пространстве JVM.

Look

Item-based коллаборативная фильтрация своими руками

denis_bazhenov Aug 13 2014 at 15:44

«Проблема» с cosine similarity в моем понимании заключается в консервативности самой метрики. Проще наверное продемонстрировать на примере:

пара Item-векторов {0, 5} и {0, 5} имеет cosine similarity = 1;
пара Item-векторов {5, 5} и {0, 5} имеет cosine similarity = 1/sqrt(2);

Во-втором случае вектора, дальше друг от друга (item'ы менее похожи). Но это, на мой вгляд не совсем правомерно, ведь у нас просто нет оценки по одному Item'у. Потенциально, там могла быть 5-ка, что опять нас привело бы к единичной косинусной мере. Возможно, хорошей альтернативой было бы не занулять, а «засреднять» оценки. То есть, заполнять пустые ячейки матрицы средней оценкой Item'а, или средней оценкой целовека (по всем item'ам). Это должно сделать алгоритм не таким консервативным к отсутствующим оценкам.

Look

Item-based коллаборативная фильтрация своими руками

denis_bazhenov Aug 13 2014 at 03:37

Item-вектора, которые мы получаем из User-Item матрицы и на основании которых мы потом считаем косинус угла, тоже разрежены как и сама матрица. Встает вопрос, что делать с пустыми позициями векторов. Есть два решения, которые лежат «на поверхности» (заполнять нулями или брать только позиции заполненные в обоих векторах), но оба они по-своему плохи. Интересно, как поступаете вы?

Look

Встраиваем groovy shell в приложение

denis_bazhenov May 23 2014 at 05:04

Просто оставлю это здесь — github.com/bazhenov/groovy-shell-server

Look

Elastic Search в enterprise-проектах

denis_bazhenov Feb 26 2014 at 05:43

Основная сила ES лежит конечно же в Lucene. Очень продвинутая библиотека для работы с инвертированным индексом. Мы его эксплуатируем уже лет 5. В данный момент в эксплуатации кластер из ~20 машин. За это время пришли к архитектуре во многом похожей на ES, но в некоторых аспектах существенно отличающейся. В частности, мы храним документы отдельно, а не в индексе. А также, координацией поиска внутри кластера и индексацией занимаются отдельные машины. Это позволяет более «экономно» масштабировать систему.

Look

Как мы делали сборки

denis_bazhenov Oct 17 2012 at 11:44

Спасибо за статью. Мы тоже используем maven для организации CI-цикла, вполне довольны. Более подробно свой опыт описывал у себя в блоге – Маленький Билд и его друзья

Look

Наивный Байесовский классификатор в 25 строк кода

denis_bazhenov Jun 12 2012 at 04:18

Хорошая статья, спасибо. Я у себя в блоге тоже описал байесовский классификатор, но с большим упором на теорию. В частности более подробно написал про проблему неизвестных слов (additive smoothing, то зачем вы использовали 10^-7).

Look

Bomberman Online и хабраэффект — 450 игроков на одной карте. Отчёт и детали игрового движка

denis_bazhenov Jun 10 2012 at 04:18

Интересующимся подробнее о мониторинге равномерности загрузки CPU

Look