Как стать автором

Leonid Danilchenko @dan_lenny^{read⁠-⁠only}

Data Science

Профиль Закладки 118

AnROm 14 сен 2016 в 19:38

История одного программиста

5 мин

52K

Карьера в IT-индустрииУправление персоналом*

Я программист, 24 года. ~~Рост 170. Параметры 90-60-90.~~ Хочу поделиться опытом с институтских времен. На что нужно обращать внимание в процессе обучения (исходя из моих наблюдений), что может пригодиться в будущем. Расскажу, в какие моменты и какой прогресс наблюдался. Как не опускать руки, если скучно учиться, и в чем искать мотивацию.

Читать дальше →

+22

nProfessor 2 сен 2016 в 10:02

ML boot camp 2016 новичок в ТОП 10

5 мин

8K

Python*Машинное обучение*

Туториал

Не так давно закончились соревнования по машинному обучению от Mail.ru. Я занял 9 место, и, собственно, хотел бы поделиться тем, как это у это меня получилось. Если коротко, то повезло.

Читать дальше →

+31

ternaus 2 ноя 2015 в 15:04

Из физиков в Data Science (Из двигателей науки в офисный планктон)

14 мин

67K

Карьера в IT-индустрии

Из песочницы

Вступление

Не так давно, а именно двенадцать месяцев назад, начался мой последний год аспирантуры на физическом факультете ВУЗа под названием University of California, Davis. Вставал законный вопрос — что делать дальше? За преподаванием, движением науки и прочими развлечениями год пройдёт очень быстро. Решать надо было заранее. Основной план был найти позицию постдока, причем где-нибудь в Токио, Рио де Жанейро или Сингапуре, так что вроде как и путешествуешь, а вроде как и работаешь. И по идее под это дело у меня всё было подготовлено: и статьи, и знакомые, и знаний в определённых областях физики конденсированных сред — на троих. Я начал активно гуглить сайты разных вузов, в интересующих меня географически частях мира, написал научно ориентированный CV, подписался на рассылки где публикуются вакансии постдоков, намекнул всем знакомым, что если что — то мне надо сказать в первую очередь. Я даже по скайпу с какими то профессорами общался на тему работы в их научных группах. В общем всё куда-то катилось.

Примерно в то же время к нам в городок заехал один мой знакомый, который в свое время тоже выпустился с нашего доблестного факультета, но на пару лет раньше. Последние пару лет он мыкался и тыкался в разные конторы и вот наконец нашёл работу на позицию под названием Data Scientist. Посидели в баре, потрепались — то, чем он занимается, особенно не зацепило (когда каждый день пытаешься разобраться что и куда квантовать, чтобы описать свойства наноматериалов, рассказы о том, как в некой базе данных что-то куда-то аггрегируется и почему это важно для каких-то продаж офисных принадлежностей, вообще не цепляет), но зацепила зарплата. Для справки, в США грязными, то есть до вычета налогов:

Аспирант — $27k
Постдок — $45k
Профессор — $117k

Читать дальше →

+19

kalinin84 28 авг 2016 в 15:19

В тени случайного леса

7 мин

13K

Веб-разработка*Data Mining*

1. Вступление

Это небольшой рассказ о практических вопросах использования машинного обучения для масштабных статистических исследований различных данных в Интернет. Также будет затронута тема применения базовых методов математической статистики для анализа данных.

Читать дальше →

+20

qc-enior 29 авг 2016 в 13:10

Небольшое введение в параллельное программирование на R

8 мин

6.8K

Блог компании Инфопульс УкраинаПараллельное программирование*Высокая производительность*R*

Туториал

Перевод

Давайте поговорим об использовании и преимуществах параллельных вычислений в R.

Причина, по которой стоит об этом задуматься: заставляя компьютер больше работать (выполнять много расчетов одновременно), мы меньше времени ждем результатов наших экспериментов и можем выполнить еще. Это особенно важно для анализа данных (R как платформа обычно используется именно для этой цели), поскольку часто требуется повторить вариации одного и того же подхода, чтобы что-то узнать, вывести значения параметров, оценить стабильность модели.

Обычно, для того, чтобы заставить компьютер больше работать, сначала нужно потрудиться самому аналитику, программисту или создателю библиотеки, чтобы организовать вычисления в виде, удобном для параллелизации. В лучшем случае кто-то уже сделал это за вас:

Хорошие параллельные библиотеки, например, многопоточные BLAS/LAPACK, включены в Revolution R Open (RRO, сейчас Microsoft R Open) (смотреть здесь).
Специализированные параллельные расширения, предоставляющие свои собственные высокопроизводительные реализации важных процедур, например, методы rx от RevoScaleR или методы h2o от h2o.ai.
Фреймворки абстрактной параллелизации, например, Thrust/Rth.
Использование прикладных библиотек R, связанных с параллелизацией (в частности, gbm, boot и vtreat). (Некоторые из этих библиотек не используют параллельные операции, пока не задано окружение для параллельного выполнения.)

Читать дальше →

+10

web_for_mass 28 авг 2016 в 17:26

Как я изобретал велосипед, или мой первый MEAN-проект

12 мин

26K

Angular*JavaScript*MongoDB*Node.JS*

Сегодня, в период стремительного развития веб-технологий, опытному фронтэнд-разработчику нужно всегда оставаться в тренде, каждый день углубляя свои познания. А что делать, если Вы только начинаете свой путь в мире веб? Вы уже переболели вёрсткой и на этом не хотите останавливаться. Вас тянет в загадочный мир JavaScript! Если это про Вас, надеюсь данная статья придётся к стати.

Читать дальше →

+29

dmvcm 28 авг 2016 в 10:54

Scrapy: собираем данные и сохраняем в базу данных

5 мин

71K

Из песочницы

Введение

Меня заинтересовал данный фреймворк для сбора информации с сайтов. Здесь были публикации по Scrapy, но поскольку детальной информации на русском языке мало, то я хотел бы рассказать о своем опыте.

Читать дальше →

+16

alekszinoviev 2 авг 2016 в 17:41

Вести с полей: кто и как применял качественные методы в UX Research для разработки IT-продуктов. Часть 1 из 6

14 мин

15K

Блог компании Собака ПавловаUsability*Интерфейсы*Прототипирование*

Все части статьи: 1 | 2 | 3 | 4 | 5 | 6

В предыдущей статье «Качественные методы в UX-исследованиях» мы давали практические рекомендации по эффективному использованию качественной методологии (интервью, наблюдения, этнографии) для решения UX-задач. Теперь мы решили обратиться к опыту зарубежных коллег, чтобы понять, в каких ситуациях они использовали качественную методологию и какие были результаты.

Спасибо прекрасному автору за симпатичную картинку.

Почему речь идет о зарубежных компаниях? Качественная методология там давно перестала быть экзотикой и вошла в арсенал IT-продуктологов. Изучение их опыта позволит лучше понять возможности и ограничения этих методов в сфере UX. Для этого мы провели собственное исследование.

Читать дальше →

+11

Okostina 3 авг 2016 в 17:54

IT-студент с жаждой путешествий? Пора в магистратуру

9 мин

21K

Учебный процесс в ITОбразование за рубежом

Из песочницы

Добрый день, Хабр!

Я IT-студентка, выпускница одного из старейших университетов Москвы, внезапно нашедшая себя в магистратуре в Европе. Не хочу агитировать за "утечку мозгов" или нечто подобное, правда, но по воле случая много знакомых спрашивали о процессе application, поэтому мне показалась интересной идея поделиться годом поисков и наработанными скиллами с более широкой аудиторией. Итак, поехали.

Читать дальше →

+18

LukinB 28 июл 2016 в 14:55

Обучение машины — забавная штука: современное распознавание лиц с глубинным обучением

12 мин

98K

Машинное обучение*Обработка изображений*

Перевод

Вы заметили, что Фейсбук обрёл сверхъестественную способность распознавать ваших друзей на ваших фотографиях? В старые времена Фейсбук отмечал ваших друзей на фотографиях лишь после того, как вы щёлкали соответствующее изображение и вводили через клавиатуру имя вашего друга. Сейчас после вашей загрузки фотографии Фейсбук отмечает любого для вас, что похоже на волшебство:

Читать дальше →

+121

rocknrollnerd 4 апр 2016 в 09:10

Байесовская нейронная сеть — теперь апельсиновая (часть 2)

16 мин

37K

Алгоритмы*Математика*Машинное обучение*

Как вы думаете, чего в апельсине больше — кожуры, или, хм, апельсина?

Предлагаю, если есть возможность, пойти на кухню, взять апельсин, очистить и проверить. Если лень или нет под рукой — воспользуемся скучной математикой: объем шара мы помним из школы. Пусть, скажем, толщина кожуры равна

от радиуса, тогда

,

; вычтем одно из другого, поделим объем кожуры на объем апельсина… получается, что кожуры что-то около 16%. Не так уж мало, кстати.

Как насчет апельсина в тысячемерном пространстве?

Пойти на кухню на этот раз не получится; подозреваю, что формулу наизусть тоже не все знают, но Википедия нам в помощь. Повторяем аналогичные вычисления, и с интересом обнаруживаем, что:

во-первых, в тысячемерном гиперапельсине кожуры больше, чем мякоти
а во-вторых, ее больше примерно в 246993291800602563115535632700000000000000 раз

То есть, каким бы странным и противоречивым это ни казалось, но почти весь объем гиперапельсина содержится в ничтожно тонком слое прямо под его поверхностью.

Начнем с этого, пожалуй.

Читать дальше →

+51

rocknrollnerd 29 фев 2016 в 09:24

Байесовская нейронная сеть — потому что а почему бы и нет, черт возьми (часть 1)

16 мин

93K

Алгоритмы*Математика*Машинное обучение*

То, о чем я попытаюсь сейчас рассказать, выглядит как настоящая магия.

Если вы что-то знали о нейронных сетях до этого — забудьте это и не вспоминайте, как страшный сон.
Если вы не знали ничего — вам же легче, полпути уже пройдено.
Если вы на «ты» с байесовской статистикой, читали вот эту и вот эту статьи из Deepmind — не обращайте внимания на предыдущие две строчки ~~и разрешите потом записаться к вам на консультацию по одному богословскому вопросу~~.

Итак, магия:

Слева — обычная и всем знакомая нейронная сеть, у которой каждая связь между парой нейронов задана каким-то числом (весом). Справа — нейронная сеть, веса которой представлены не числами, а демоническими облаками вероятности, колеблющимися всякий раз, когда дьявол играет в кости со вселенной. Именно ее мы в итоге и хотим получить. И если вы, как и я, озадаченно трясете головой и спрашиваете «а нафига все это нужно» — добро пожаловать под кат.

Читать дальше →

+81

bibilov 14 июл 2016 в 13:10

Городской АД: школьники и студенты

11 мин

10K

Блог компании Проектная школа программирования GoToУчебный процесс в ITХакатоны

Привет, Хабр. В этом году у нас довольно успешно прошли эксперименты по вовлечению юных программистов в АД:

затеяли хакатон, где школьники и студенты соревновались на равных (выиграли школьники), помогли организовать олимпиаду НТИ по большим данным.
открыли направление АДских чудес в летних школах. О том, как школьники написали рекомендательную систему ленты новостей Дождя, освоили параметрическое моделирование, осваивали азы социнженерии по Митнику, расскажем в следующей статье.
организовали митапы для "укушенных" в Яндексе с Ежом. Ёж (Александр Панин) не устоял перед обаянием юных "датасайнтистов" на хакатоне, с тех пор каждую субботу одна из переговорок превращается в Малый АД под звуки арфы, на которой Ёж играет в перерывах.

Школа

Воодушевленные упорством ребят, решили начать вовлекать студентов постарше. Задумали школу прямо в Москве, пройдет она с 1 по 8 августа на факультете компьютерных наук ВШЭ, к участию приглашаются все желающие возрастом до 22 лет.

Программа школы состоит из двух блоков: интенсива с разбором кейсов от ведущих специалистов отрасли и работы в командах над проектом с опытным куратором.

Отбор

Для участия необходимо пройти отбор – решить реальную задачу, с которой столкнулся наш партнер E-Contenta при разработке рекомендательного движка для Tviz.tv. До 25 июля принимаем решения любым способом – интересно посмотреть на нестандартные идеи, возможно, кто переплюнет решение партнера. Опытные участники имеют возможность заявить о себе и выиграть грант на бесплатное обучение.

Наша цель — дать возможность молодёжи погрузиться в Data Science не за 180 тысяч на "взрослых" курсах. Отбор нацелен прежде всего на проверку мотивации.

Читать про задание, матричные разложения и получение приближения k-го порядка

+6

Myshov 22 июл 2016 в 07:57

Эффективное использование Github

13 мин

126K

Блог компании 2ГИСGit*GitHub*Веб-разработка*Системы управления версиями*

Github — важная часть жизни современного разработчика: он стал стандартом для размещения opensource-проектов. В «2ГИС» мы используем гитхаб для разработки проектов web-отдела и хостинга проектов с открытым кодом.

Хотя большинство из нас пользуются сервисом практически каждый день, не все знают, что у него есть много фишек, помогающих облегчить работу или рутинные операции. Например, получение публичного ключа из URL; отслеживание того, с каких сайтов пользователи приходят в репозиторий; правильный шаринг ссылок на файлы, которые живут в репозиториях гитхаба; горячие клавиши и тому подобное. Цель этой статьи — рассказать о неочевидных вещах и вообще о том, что сделает вашу работу с гитхабом продуктивнее и веселее (я не буду рассматривать здесь работу с API гитхаба, так как эта тема заслуживает отдельной статьи).

Содержание

Читать дальше →

+147

Tiulkin 30 мая 2016 в 08:41

Отпуск по-программистски, или как я не поучаствовал в конкурсе по программированию на JS. Часть вторая

15 мин

6.2K

Блог компании Асинхронный офлайн браузер «Мегалента»Data Mining*JavaScript*SQL*Алгоритмы*

В первой части этого описания попытки решения интересной конкурсной задачи я рассказал о подготовке данных для анализа и о нескольких экспериментах. Напомню, условие задачи заключалось в том, чтобы с наибольшей вероятностью определить наличие слова в словаре, не имея доступа к этому словарю в момент выполнения программы и с ограничением на объем программы (включая данные) в 64K.

Как и в прошлый раз, под катом много SQL, JS, а также нейронные сети и фильтр Блума.

Читать дальше →

+13

Tiulkin 28 мая 2016 в 06:56

Отпуск по-программистски, или как я не поучаствовал в конкурсе по программированию на JS. Часть первая

12 мин

24K

Блог компании Асинхронный офлайн браузер «Мегалента»Алгоритмы*SQL*JavaScript*Data Mining*

Создание и поддержка в одиночку сложного продукта с большим зоопарком технологий и без финансовых вливаний со стороны — дело хлопотное и утомительное. Поэтому, узнав про конкурс с интересной задачей, ~~мы в Мегаленте~~ я подумал о том, чтобы устроить себе "творческий отпуск" и отвлечься ненадолго от работы над новой версией.

Задача состояла в том, чтобы написать программу на JS, которая будет определять, есть слово с словаре английских слов или нет. Вроде бы просто, но есть пара ограничений, делающих задачу заведомо невыполнимой:
– Словом считается не просто любое правильное слово английского языка, а именно слово, которое есть в предоставленном словаре из 600K+ слов.
– Словаря в момент исполнения программы нет, скачать его нельзя, а размер программы, включая данные, не должен превышать 64К. Внешние библиотеки подключать также нельзя, но файл данных может быть заархивирован.
Благодаря этим условиям вместо однозначного ответа результатом может быть только определение наибольшей вероятности присутствия слова в словаре.

Сразу скажу, что решение я так и не отправил из-за неудовлетворённостью результатом (решение, которое давало хотя бы 80%, я смог поместить только в 120-130К, а без превышения размера в 64К выжал максимум 70%).
Тем не менее опыт считаю достаточно интересным и достойным статьи. Под катом много SQL,JS,Python, нейронные сети, а также печальная правда о производительности CPU на хостинге.

Читать дальше →

+29

JavaRush 30 июн 2016 в 13:45

Лучшие IT-курсы западных вузов по версии хабрасообщества 2016 года

4 мин

46K

Блог компании JavaRushУчебный процесс в IT

Данный пост-опрос − попытка определить лучшие ИТ-курсы западных вузов, которые находятся в открытом доступе. Конечно, по версии нашего хабрасообщества. Ну и, разумеется, с годами предпочтения меняются, поэтому версия 2016 года.

Читать дальше →

+12

JustStas 28 июн 2016 в 16:28

Решаем «Первый открытый контест» от Mail.ru по Data Science с помощью Azure ML (введение в Azure ML)

7 мин

7.8K

Программирование*Microsoft Azure*Data Mining*C#*.NET*

Сейчас проходит соревнование ML Boot Camp, в котором надо спрогнозировать время, за которое будут перемножены 2 матрицы размерами mｘk и kｘn на данной вычислительной системе, если известно, сколько решалась эта задача на других вычислительных системах с другими размерами матриц (точные правила). Давайте попробуем решить эту задачу регресии не с помощью стандартных инструментов и библиотек (R, Python и panda), а используя облачный продукт от Microsoft: Azure ML. Для наших целей подойдет бесплатный доступ, для которого достаточно даже trial Azure аккаунта. Все, кто хочет получить краткое руководство по настройке и использованию Azure ML в общем и ML Studio в частности на примере решения реальной живой задач, приглашаются под кат.

Читать дальше →

+8

feriat 6 мая 2016 в 11:52

Meduza.io: а как же лайки?

5 мин

48K

Data Mining*Python*Визуализация данных*

Из песочницы

Как-то раз, читая новости на Медузе, я обратил внимание на то, что у разных новостей разное соотношение лайков из Facebook и ВКонтакте. Какие-то новости мегапопулярны на fb, а другими люди делятся только во ВКонтакте. Захотелось присмотреться к этим данным, попытаться найти в них интересные закономерности. Заинтересовавшихся приглашаю под кат!

Читать дальше →

+57

miptgirl 26 мар 2016 в 23:43

Web Scraping с помощью python

7 мин

574K

Python*Data Mining*

Введение

Недавно заглянув на КиноПоиск, я обнаружила, что за долгие годы успела оставить более 1000 оценок и подумала, что было бы интересно поисследовать эти данные подробнее: менялись ли мои вкусы в кино с течением времени? есть ли годовая/недельная сезонность в активности? коррелируют ли мои оценки с рейтингом КиноПоиска, IMDb или кинокритиков?
Но прежде чем анализировать и строить красивые графики, нужно получить данные. К сожалению, многие сервисы (и КиноПоиск не исключение) не имеют публичного API, так что, приходится засучить рукава и парсить html-страницы. Именно о том, как скачать и распарсить web-cайт, я и хочу рассказать в этой статье.
В первую очередь статья предназначена для тех, кто всегда хотел разобраться с Web Scrapping, но не доходили руки или не знал с чего начать.

Off-topic: к слову, Новый Кинопоиск под капотом использует запросы, которые возвращают данные об оценках в виде JSON, так что, задача могла быть решена и другим путем.

Читать дальше →

+22

5