Articles / Bookmarks / Profile of DmitryKulikov / Habr

How to become an author

Дмитрий Куликов @DmitryKulikov

User

ProfileArticles1PostsNewsComments3

kashey Mar 2 2015 at 09:30

Где смерть Кащеева?

7 min

34K

Algorithms*Geoinformation services*Mathematics*Programming*

Привет ребят, давайте для начала проверим вашу память. Итак:

«На море на океане есть остров, на том острове дуб стоит, под дубом сундук зарыт, в сундуке — заяц, в зайце — утка, в утке — яйцо» в яйце игла — смерть Кощея!

А теперь, внимание, вопрос — как это формализовать?
Как приатачить к яйцу иголку и какова временная сложность детача смертии моей. Как перенести сказку в быль, как это выглядит на B-деревьях и почему на самом деле нет разницы между 2D и 1D.
А было все так: давным давно, в неком царстве, некотором государстве, на одном сервисе с шейрингом геолокации очень захотелось Иванушке Дурачку на уровне ЧПУ разделить Москву(/RU/MOW/) и Область(/RU/MOS/). И вообще навести порядок, чтобы все лежало по полочкам красиво и по алфавиту. Но не получалось ему сокровища свои посчитать, и аккуратно разложить. А Василису, хоть и дурак, к сбережениям не пускал.
Но решение было найдено.
Совсем недалеко над каким-то златом успешно чах Чахлик, еще и смерть он свою прятал по науке.
И если задача определения региональной (точнее полигональной) принадлежности некой иголки к некому сундуку выходит за рамки данной статьи, то нам ничто не мешает погрузиться в глубины зайца и посмотреть как он устроен на табличном уровне.
PS: и не спрашивайте почему зайца.

Читать дальше →

+14

moat Mar 1 2015 at 16:07

Обзор наиболее интересных материалов по анализу данных и машинному обучению №37 (23 февраля — 1 марта 2015)

3 min

11K

Big Data*Data Mining*Machine learning*

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.

Читать дальше →

+18

sashaturilin Feb 27 2015 at 12:11

Как мы готовим будущих специалистов по большим данным

4 min

15K

New Professions Lab corporate blogNoSQL*Hadoop*Data Mining*Big Data*

В эту субботу стартует наша программа “Специалист по большим данным”: она получилась такой насыщенной, что, кажется, в ближайшие три месяца у слушателей не останется никакого свободного времени. В этом посте я расскажу, как именно мы будем растить специалистов по Big Data, и как будет построен процесс обучения во время первого месяца.

Центральный кейс на этот период — создание DMP-системы. DMP (data management platform) анализирует интернет-логи пользователей и, исходя из их поведения в сети, присваивает этим людям различные свойства или причисляет к определенным классам. Например, правильно настроенная DMP-система может определить пол и возраст человека и узнать, является ли он гаджетоманом или, скажем, фанатом люксовых фешн-брендов. Этот кейс мы разрабатываем совместно с компанией Data-Centric Alliance, они используют большие данные для настройки рекламных кампаний.

Читать дальше →

+3

moat Jun 30 2014 at 19:06

Обзор наиболее интересных материалов по анализу данных и машинному обучению №3 (обзор онлайн курсов)

7 min

27K

Data Mining*Big Data*

Данный выпуск обзора наиболее интересных материалов по анализу данных и машинному обучению полностью посвящен онлайн-курсам по тематике Data Science. В прошлом выпуске был представлен список онлайн-курсов, стартующих в ближайшее время. В данном выпуске я постарался собрать наиболее интересные онлайн-курсы по теме анализа данных. Стоит отметить, что некоторые курсы уже закончились, но у большинства таких курсов можно посмотреть архив всех учебных материалов.
Начинается обзор с набора курсов от Johns Hopkins University на Coursera, которые объединены в одной специализации «Data Science Specialization», поэтому имеет смысл рассмотреть их отдельно от остальных курсов. Это 9 официальных курсов специализации и два дополнительных Mathematical Biostatistics Boot Camp 1 и 2, которые официально не входят в специализацию. Важно отметить, что весь набор данных курсов регулярно начинается заново и в общем-то можно достаточно гибко построить свой график продвижения по специализации. Большинство курсов длятся 4 недели. Язык R является основным языком программирования в данном наборе курсов. Далее идет список курсов из специализации Data Science от Johns Hopkins University:

Читать дальше →

+24

bIbI4k0 Feb 25 2015 at 08:59

Flask. Наполняем «флягу» функционалом

7 min

47K

Website development*Python*Flask*

Предисловие

В прошлом году решил для себя вплотную познакомиться c Python, а в последствии перебраться на него с PHP. На данный момент моя стезя — веб-разработка, а потому осваивать новый язык я начал именно со стороны веба, в частности, с обзора доступных фреймворков и проектов на них. Познакомившись с возможностями TurboGears, web2py, Django, я всё таки поддался «тренду» и погрузился в мир Django.

На протяжении почти года я честно пытался подружиться с ним. Написал несколько простеньких проектов, но монструозность фреймворка отпугивала, обилие «батареек» путало выбор, а с некоторыми ограничениями не хотелось мириться. Душа требовала лаконичности и однозначности, что в конечном счете привело меня к знакомству с Flask. Изучив документацию по фреймворку и смежным проектам (Jinja2, Werkzeug), я проникся идеологией и стал вплотную изучать фреймворк.

Flask позиционируется как расширяемый микрофреймворк. Это означает наличие лишь необходимого минимума функционала, но в то же время возможность добавить оный посредством расширений до требуемого проекту уровня.

Сей эпос — это мой опыт под использованию Flask и расширений для него, а точнее, попытка собрать воедино и на русском то, что может пригодиться при создании проектов практически любого уровня.

Читать дальше →

+24

axsapronov Feb 26 2015 at 05:23

Форматирование Python-кода

4 min

71K

Python*Programming*

Введение

Python, точнее его самый известный представитель CPython, не очень предназначен для каких-либо быстрых расчетов. Иначе говоря, производительность у него не такая уж хорошая. А вот скорость разработки и читаемости отличная.

О читаемости и пойдет речь, а точнее как ее увеличить.

Читать дальше →

+22

belitsky Feb 25 2015 at 17:03

Сайт с нуля на полном стеке БЭМ-технологий. Методология Яндекса

29 min

108K

Яндекс corporate blogWebsite development*Open source*JavaScript*

Tutorial

На прошлой неделе BBC рассказала, что для новой версии главной страницы использовала методологию БЭМ, созданную в Яндексе. По такому случаю мы решили поднять материалы мастер-класса «Разрабатываем сайт с нуля на полном стеке БЭМ-технологий» и рассказать вам, как начать использовать полный стек БЭМ-технологий в своих проектах.

БЭМ упрощает разработку сайтов, которые нужно быстро создавать и долго поддерживать. Эту технологию используют во фронтенде почти всех сервисов Яндекса, и она уже успела обрасти множеством библиотек и инструментов, которыми мы хотим с вами поделиться.

В статье мы расскажем, в чём преимущество вёрстки независимыми блоками и что такое уровни переопределения, познакомимся с готовыми библиотеками блоков и инструментами для автоматизации сборки. Покажем, как разные инструменты — например, autoprefixer, css-препроцессор Stylus или модульная система YModules — упрощают жизнь разработчика и создают по-настоящему удобную платформу, если встроить их в процесс разработки по БЭМ.

На живом примере мы объясним, в чём польза декларативного подхода, когда одни и те же идеи можно использовать как для CSS, так и для JavaScript. Отдельно остановимся на декларативных шаблонах BEMHTML и BEMTREE, которые позволяют преобразовывать данные в БЭМ-дерево, описанное в формате BEMJSON и, затем в HTML. Рассмотрим в деталях, как написать серверную часть приложения по БЭМ-методологии.

Читать дальше →

+61

Osaul Feb 24 2015 at 10:30

Экскурсия по крупнейшему дата-центру Европы

3 min

40K

ua-hosting.company corporate blogHostingDesignIT Infrastructure*

В небольшом португальском городке Ковильян расположился один из самых мощных дата-центров Европы. Новый ЦОД был построен и введен в эксплуатацию крупнейшим португальским провайдером Portugal Telecom в конце 2013 года, а уже в следующем году стал победителем конкурса Global Data Centre & Cloud Awards в номинации «лучший дата-центр года». Главными критериями победы дата-центра стали инновационность технологий, энергоэффективность, низкое воздействие на окружающую среду, а также метод развертывания вычислительных мощностей.

Читать дальше →

+6

PavelVelikhov Feb 26 2015 at 00:46

Apache Spark: что там под капотом?

5 min

52K

Big Data*Data Mining*Hadoop*

Вступление

В последнее время проект Apache Spark привлекает к себе огромное внимание, про него написано большое количество маленьких практических статей, он стал частью Hadoop 2.0. Плюс он быстро оброс дополнительными фреймворками, такими, как Spark Streaming, SparkML, Spark SQL, GraphX, а кроме этих «официальных» фреймворков появилось море проектов — различные коннекторы, алгоритмы, библиотеки и так далее. Достаточно быстро и уверенно разобраться в этом зоопарке при отсутсвие серьезной документации, особенно учитывая факт того, что Spark содержит всякие базовые кусочки других проектов Беркли (например BlinkDB) — дело непростое. Поэтому решил написать эту статью, чтобы немножко облегчить жизнь занятым людям.

Читать дальше →

+19

what3words Feb 26 2015 at 11:08

OpenCage — самый мощный инструмент для геокодирования

2 min

13K

what3words corporate blogGeoinformation services*API*OpenStreetMap*Perl*

Recovery Mode

Большинство людей не задумываются о геокодировании, когда дают своему смартфону запрос в виде адреса, GPS-координат, широты и долготы, или координат what3words. Разработчики в свою очередь должны понимать всю критическую важность геокодера. Каждый из предложенных геокодеров имеет свои плюсы и минусы, которые нужно учитывать при выборе. Некоторые геокодеры могут иметь неприемлемые ограничения, стоимость, или быть недоступными для коммерческих целей. Некоторые сервисы не поддерживают кэширование, и практически все они имеют 24-часовые лимиты. Универсального варианта не существовало до появления OpenCage.

Читать дальше →

+15

Milfgard Dec 27 2010 at 16:51

N+1 полезных книг о бизнесе

9 min

231K

Мосигра corporate blog

В топике блиц-обзор книг, которые будут полезны IT-специалистам, бизнесменам и тем, кто собирается открыть своё дело. Рядом с каждой — короткие пояснения, почему и зачем стоит прочесть.

Отобраны лучшие 10% из примерно 200 прочитанных книг о маркетинге, продажах и всем связанном — самые «пробивные» вещи, которые помогут вам не тратить время на всякий шлак, а сразу начать с главного.

В конце — суммация книг, которые хабровчане рекомендуют в комментариях помимо основного списка.

Читать дальше →

+126

bobuk Feb 18 2015 at 08:16

Do not be evil

6 min

157K

Open source*Development for Android*

Сегодня довольно непростой, но, очевидно, знаменательный день. Сегодня Яндексу пришлось пойти на шаг, который, как мне всегда хотелось верить, никогда не придётся делать.

Мы обратились в регулирующий орган, ФАС, чтобы вернуть равноправные отношения на рынке мобильных устройств. Наше обращение — признание одного неприятного факта. У нас с вами есть все шансы попасть в мир, где только одна компания будет решать, кто получит возможность донести сервисы до людей и чем эти люди смогут пользоваться.

Мы всегда верили в конкуренцию и право выбора пользователя. Настолько, что даже в наших поисковых результатах с первых дней существования Яндекса стоят ссылки на другие популярные поисковики. Если честно, я всегда был уверен, что и Гугл верит в то же. Что это компания инженеров, производящих крутые продукты. Увы, сейчас очевидно, что помимо технической компании, которая когда-то считала своим лозунгом «Do not be evil», теперь есть и совсем другая – компания, контролируемая юристами и бизнесменами.

Android давно уже совсем не выглядит открытой OS. И уж точно не выглядит открытой политика конкуренции Google на этой платформе. Например, сейчас мы столкнулись с тем, что вендоры, чтобы продавать в России телефоны с сервисами Яндекса, должны отказаться от всех сервисов Google не только в России, но и во всех остальных странах. При этом правила получения GMS и Google Play для каждого из них могут измениться в любой момент.

Мы хотим, чтобы в открытой OS условия и лицензии были открыты и прозрачны для всех.

Читать дальше →

+217

alizar Feb 18 2015 at 06:47

HTTP/2 готов

1 min

51K

Website development*IT Standards*

Сегодня спецификации новой версии HTTP приобрели окончательный вид. Председатель рабочей группы IETF HTTP Марк Ноттингем в своём блоге написал, что IESG формально одобрила спецификации HTTP/2. Теперь они отправляются в редактор RFC, где им присвоят официальный номер RFC, немного отредактируют и опубликуют.

Скоро это замечательное событие отразят в официальном блоге IETF, а пока что Марк Ноттингем от себя лично благодарит всех, кто внёс свой вклад в разработку новых спецификаций. В особенности — разработчиков протокола SPDY, который лёг в основу HTTP/2.

Читать дальше →

+33

spasibo_kep Feb 9 2015 at 06:52

Full stack vs micro framework, экосистема Docker и другие вещи, с которыми повезло питонистам (UPD: видео)

2 min

9.8K

#tceh corporate blogPython*Django*

Наш CTO, Миша Voldar Корнеев, познакомился с питоном в 34 года. В смысле, с живым:

Знакомство питона с питонистом

C Python’ом цифровым он познакомился еще лет шесть назад, и с тех пор все, к чему он прикасается, становится чуть более высокоуровневым.

Тем не менее, Миша до сих пор продолжает открывать для себя много нового, потому что ходит на тусовки Moscow Django Meetup. А ходит, потому что их соорганизует.

Но 10 февраля его не будет с нами, потому что его сыну — моему племяннику — исполняется три годика.

Так что #tceh решил заранее рассказать Мише, что будет на 25-м московском Django Meetup, который пройдет у нас.

Читать дальше →

+5

Moscow_Exchange Feb 13 2015 at 07:48

Обзор и оценка перспектив развития мирового и российского рынков ИТ

45 min

152K

MOEX corporate blogIT Standards*

Ранее, в своем блоге на «Хабре» мы писали о том, почему Московская Биржа – это в первую очередь ИТ-компания. Как и полагается ИТ-компании, мы постоянно отслеживаем новые тренды рынка ИТ, делаем аналитику и строим прогнозы.

Представляем свежий аналитический обзор рынка ИТ, подготовленный совместно с фондом РВК и компанией IDC.

В этом обзоре

Первая часть обзора посвящена обзору мирового рынка информационных технологий (ИТ).Особое внимание в ней уделяется описанию факторов будущего развития рынка, таких как распространение облачных вычислений, экспоненциальное увеличение объемов данных, а также использование мобильных устройств и технологий социальных сетей в корпоративной среде. Отдельно рассматривается эволюция роли директора по информационным технологиям.

Во второй части обзора содержится обзор российского рынка ИТ, включающий подробное описание сегментов рынка и тенденций их развития. Отдельно освещаются основные положения государственной политики в сфере ИТ и дается рейтинг отраслей экономики по объему затрат на ИТ. Также приводятся характеристика и перечень основных игроков российского рынка.

Обзор содержит прогноз развития мирового и российского рынка ИТ по основным категориям на период 2014-2018 годы.

Читать длинный интересный пост...

+10

Mirantis_OpenStack Feb 13 2015 at 09:27

Контейнеризируй это! Что такое Fuel и для чего он использует Docker

6 min

12K

Mirantis/OpenStack corporate blogPuppet*Open source*

Пока патентные войны остаются скрытой угрозой для экосистемы OpenStack, давайте поговорим о технологии, позволяющей разворачивать OpenStack практически в один клик. Название этого проекта многократно встречалось в постах нашего блога, но не было ни одного текста, посвященного именно Fuel. Между тем — именно этот проект существенно упростил процедуру развертывания OpenStack и сделал менее трудоемким процесс дальнейшего управления облаком. Безусловно, можно действовать по старинке. Использование Fuel не является обязательным для работы с OpenStack. Однако мы считаем, что если театр начинается с вешалки, то OpenStack начинается с Fuel. По крайней мере — Mirantis OpenStack (MOS).

Читать дальше →

+5

Anatoliy_Karpov Feb 13 2015 at 11:01

Основы статистики: просто о сложных формулах

6 min

323K

Stepik.org corporate blogData Mining*R*

Статистика вокруг нас

Статистика и анализ данных пронизывают практически любую современную область знаний. Все сложнее становится провести границу между современной биологией, математикой и информатикой. Экономические исследования и регрессионный анализ уже практически неотделимы друг от друга. Один из известных методов проверки распределения на нормальность — критерий Колмогорова-Смирнова. А вы знали, что именно Колмогоров внес огромный вклад в развитие математической лингвистики?

Еще будучи студентом психологического факультета СПбГУ, я заинтересовался когнитивной психологией. Кстати, Иммануил Кант не считал психологию наукой, так как не видел возможности применять в ней математические методы. Мои текущие исследования посвящены моделированию психических процессов, и я надеюсь, что такие направления в современной когнитивной психологии, как вычислительные и коннективисткие модели, смягчили бы его отношение!

Читать дальше →

+45

moat Feb 9 2015 at 13:53

Обзор наиболее интересных материалов по анализу данных и машинному обучению №34 (2 — 8 февраля 2015)

3 min

8.4K

Data Mining*Big Data*

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.

Читать дальше →

+22

jinxu Feb 4 2015 at 13:30

Apriori: новое или хорошо забытое старое

3 min

7.2K

datawiz.io corporate blogAlgorithms*Big Data*Mathematics*

Рекомендательные (они же рекомендационные) системы уже около 20 лет используются в e-commerce. Самые успешные примеры мы можем видеть у гигантов Amazon и Taobao. Но как же быть с offline ритейлом? Применимы ли к нему эти существующие рекомендательные системы? И есть ли альтернатива?

Перед командой Datawiz возникла задача: создать подобную рекомендательную систему для offline ритейла. Все, чем мы обладали — данные о клиентах, которыми располагают ритейлеры — различные программы лояльности.

Нестандартное решение нашлось сразу — старый, добрый и проверенный алгоритм Apriori. Хотите узнать как использовать парный анализ по-новому? Добро пожаловать под кат.

Читать дальше →

+4

madcat1991 Jan 14 2015 at 12:57

Неперсонализированные рекомендации: метод ассоциаций

5 min

20K

Онлайн-кинотеатр Иви corporate blogPython*Algorithms*Big Data*

Персональные рекомендации позволяют познакомить пользователя с объектами, о которых он, возможно, никогда не знал (и не узнал бы), но которые могут ему понравиться с учетом его интересов, предпочтений и поведенческих свойств. Однако, часто пользователь ищет не новый объект, а, к примеру, объект A похожий на объект B («Форсаж 2» похож на «Форсаж»), или объект A, который приобретается/потребляется с объектом B (сыр с вином, пиво с детским питанием, гречка с тушенкой и т.д.). Построить такие рекомендации позволяют неперсонализированные рекомендательные системы (НРС).

Рекомендовать похожие/сопутствующие объекты можно, ориентируясь на знания об объектах (свойства, теги, параметры) или на знания о действиях, связанных с объектами (покупки, просмотры, клики). Преимуществом первого способа является то, что он позволяет достаточно точно определить похожие по свойствам объекты («Форсаж 2» и «Форсаж» — похожие актеры, похожий жанр, похожие теги, ...). Однако данный способ не сможет порекомендовать сопутствующие объекты: сыр и вино. Еще одним недостатком этого способа является тот факт, что для разметки всех объектов, доступных на сервисе, требуется не мало усилий.

В то же время почти каждый сервис логирует информацию о том, какой пользователь просмотрел/купил/кликнул какой объект. Данной информации достаточно для построения НРС, которая позволит рекомендовать как похожие, так и сопутствующие объекты.

Под катом описан метод ассоциаций, позволяющий построить неперсонализированные рекомендации, основываясь лишь на данных о действиях над объектами. Там же код на Python, позволяющий применить метод для большого объема данных.

Читать дальше →

+41

1 2 ...

9

10 11 ...