Как стать автором
Обновить
-12
0

Теперь просто читатель

Отправить сообщение

Основы парсинга с помощью Python+lxml

Время на прочтение6 мин
Количество просмотров190K
Добрый день, уважаемые читатели.
В сегодняшней статье я покажу основы разбора HTML разметки страниц с помощью библиотеки lxml для Python.
Если вкратце, то lxml это быстрая и гибкая библиотека для обработки разметки XML и HTML на Python. Кроме того, в ней присутствует возможность разложения элементов документа в дерево. В статье я постараюсь показать, насколько просто ее применение на практике.

Читать дальше →
Всего голосов 42: ↑38 и ↓4+34
Комментарии9

Hadoop: что, где и зачем

Время на прочтение14 мин
Количество просмотров476K


Развеиваем страхи, ликвидируем безграмотность и уничтожаем мифы про железнорождённого слона. Под катом обзор экосистемы Hadoop-а, тенденции развития и немного личного мнения.
Читать дальше →
Всего голосов 61: ↑58 и ↓3+55
Комментарии26

Алгоритм TILT или нестандартное использование ранга матрицы

Время на прочтение3 мин
Количество просмотров28K
Сегодня мы рассмотрим алгоритм TILT (Transform Invariant Low-rank Texture) и множество его методов применения в области Computer Vision. Статья будет нести несколько обзорный характер, без плотного углубления в математические дебри.

Читать дальше →
Всего голосов 71: ↑71 и ↓0+71
Комментарии9

Как уменьшить количество измерений и извлечь из этого пользу

Время на прочтение10 мин
Количество просмотров52K
Сначала я хотел честно и подробно написать о методах снижения размерности данных — PCA, ICA, NMF, вывалить кучу формул и сказать, какую же важную роль играет SVD во всем этом зоопарке. Потом понял, что получится текст, похожий на вырезки из опусов от Mathgen, поэтому количество формул свел к минимуму, но самое любимое — код и картинки — оставил в полном объеме.
Читать дальше →
Всего голосов 31: ↑28 и ↓3+25
Комментарии11

Рекомендательные системы: SVD и базовые предикторы

Время на прочтение3 мин
Количество просмотров31K
В прошлый раз я рассказал, пока в самых общих чертах, о сингулярном разложении – главном инструменте современной коллаборативной фильтрации. Однако в прошлый раз мы в основном говорили только об общих математических фактах: о том, что SVD – это очень крутая штука, которая даёт хорошие низкоранговые приближения. Сегодня мы продолжим разговор об SVD и обсудим, как же, собственно, использовать всю эту математику на практике.
image

Читать дальше →
Всего голосов 10: ↑9 и ↓1+8
Комментарии5

Рекомендательные системы: SVD, часть I

Время на прочтение3 мин
Количество просмотров65K
Продолжаем разговор о рекомендательных системах. В прошлый раз мы сделали первую попытку определить схожесть между пользователями и схожесть между продуктами. Сегодня мы подойдём к той же задаче с другой стороны – попытаемся обучить факторы, характеризующие пользователей и продукты. Если Васе из предыдущего поста нравятся фильмы о тракторах и не нравятся фильмы о поросятах, а Петру – наоборот, было бы просто замечательно научиться понимать, какие фильмы «о поросятах», и рекомендовать их Петру, а какие фильмы – «о тракторах», и рекомендовать их Васе.

image
Читать дальше →
Всего голосов 17: ↑15 и ↓2+13
Комментарии5
12 ...
18

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Зарегистрирован
Активность