How to become an author

Сергей Новоградцев @snipsnap

Java разработчик

ProfileArticles9PostsNewsComments158

yorko Nov 8 2015 at 22:34

Некоторые репозитории в помощь изучающим и преподающим Python и машинное обучение

13 min

64K

Python*Machine learning*Programming*

Привет сообществу!

Я Юрий Кашницкий, раньше делал здесь обзор некоторых MOOC по компьютерным наукам и искал «выбросы» среди моделей Playboy.

Сейчас я преподаю Python и машинное обучение на факультете компьютерных наук НИУ ВШЭ и в онлайн-курсе сообщества по анализу данных MLClass, а также машинное обучение и анализ больших данных в школе данных одного из российских телеком-операторов.

Почему бы воскресным вечером не поделиться с сообществом материалами по Python и обзором репозиториев по машинному обучению… В первой части будет описание репозитория GitHub с тетрадками IPython по программированию на языке Python. Во второй — пример материала курса «Машинное обучение с помощью Python». В третьей части покажу один из трюков, применяемый участниками соревнований Kaggle, конкретно, Станиславом Семеновым (4 место в текущем мировом рейтинге Kaggle). Наконец, сделаю обзор попавшихся мне классных репозиториев GitHub по программированию, анализу данных и машинному обучению на Python.

Читать дальше →

+22

kuznetsovin Dec 2 2013 at 11:07

Пример решения задачи кредитного скоринга c помощью связки python+pandas+scikit-learn

12 min

84K

Python*Data Mining*

Введение

Добрый день, уважаемые читатели.
Недавно, бродя по просторам глобальной паутины, я наткнулся на турнир, который проводился банком ТКС в начале этого года. Ознакомившись с заданиями, я решил проверить свои навыки в анализе данных на них.
Начать проверку я решил с задачи о скоринге (Задание №3). Для ее решения я, как всегда, использовал Python с аналитическими модулями pandas и scikit-learn.

Читать дальше →

+15

Riateche Feb 25 2010 at 09:51

Python Tips, Tricks, and Hacks (часть 2)

6 min

134K

Translation

Содержание

Списки. Свёртка списка (reduce). Прохождение по списку (range, xrange и enumerate). Проверка всех элементов списка на выполнение условия (all и any). Группировка элементов нескольких списков (zip). Еще несколько операторов для работы со списками. Продвинутые логические операции с типом set.
Словари. Создание словаря с помощью именованных аргументов. Преобразование словаря в список и обратно. «Dictionary Comprehensions».

Читать дальше →

+63

Olga_ol Oct 4 2016 at 11:50

Лекции Техносферы. 1 семестр. Введение в анализ данных (весна 2016)

3 min

44K

VK corporate blogAlgorithms*R*Python*Mathematics*

Слушайте и смотрите новую подборку лекций Техносферы Mail.Ru. На этот раз представляем в открытом доступе весенний курс «Введение в анализ данных», на котором слушателей знакомят со сферой анализа данных, основными инструментами, задачами и методами, с которыми сталкивается любой исследователь данных в работе. Курс преподают Евгений Завьялов (аналитик проекта Поиск Mail.Ru, занимающийся извлечением полезных бизнесу знаний из данных, генерируемых поисковым движком и десктопными приложениями), Михаил Гришин (программист-исследователь из отдела анализа данных) и Сергей Рыбалкин (старший программист из студии Allods Team).

Лекция 1. Введение в Python

Из первой лекции вы узнаете, что такое анализ данных, какие инструменты используют для анализа данных, а также как работает Python.

Читать дальше →

+60

Trans00 Oct 5 2016 at 07:14

Docker in production: «Когда ты это кушаешь, тебе, как минимум, не противно, особенно если знаешь, как готовить»

12 min

36K

JUG Ru Group corporate blogJava*Programming*

Идея контейнеризации появилась уже давно, однако Docker оказался первой технологией, которая смогла достичь массовой популярности. О том, почему это случилось, насколько Docker «повзрослел» за 3 года, а заодно о том, когда можно перестать волноваться и начать использовать Docker в своем production приложении, мы поговорили с нашими экспертами:

Александр aatarasoff Тарасов — Software Architect в Альфа-Лаборатории. В настоящее время внедряет микросервисную архитектуру и двигает направление DevOps, а больше года назад рассказывал про свой опыт внедрения Docker в Альфа-Банке.

Docker in production: Нельзя использовать инструмент только потому, что он модный

– Почему вы стали использовать Docker?

Читать дальше →

+42

m9_psy Aug 3 2016 at 09:17

Математика для искусственных нейронных сетей для новичков, часть 1 — линейная регрессия

8 min

157K

Machine learning*Python*

Оглавление

Часть 1 — линейная регрессия
Часть 2 — градиентный спуск
Часть 3 — градиентный спуск продолжение

Введение

Этим постом я начну цикл «Нейронные сети для новичков». Он посвящен искусственным нейронным сетям (внезапно). Целью цикла является объяснение данной математической модели. Часто после прочтения подобных статей у меня оставалось чувство недосказанности, недопонимания — НС по-прежнему оставались «черным ящиком» — в общих чертах известно, как они устроены, известно, что делают, известны входные и выходные данные. Но тем не менее полное, всестороннее понимание отсутствует. А современные библиотеки с очень приятными и удобными абстракциями только усиливают ощущение «черного ящика». Не могу сказать, что это однозначно плохо, но и разобраться в используемых инструментах тоже никогда не поздно. Поэтому моей первичной целью является подробное объяснение устройства нейронных сетей так, чтобы абсолютно ни у кого не осталось вопросов об их устройстве; так, чтобы НС не казались волшебством. Так как это не математический трактат, я ограничусь описанием нескольких методов простым языком (но не исключая формул, конечно же), предоставляя поясняющие иллюстрации и примеры.

Цикл рассчитан на базовый ВУЗовский математический уровень читающего. Код будет написан на Python3.5 с numpy 1.11. Список остальных вспомогательных библиотек будет в конце каждого поста. Абсолютно все будет написано с нуля. В качестве подопытного выбрана база MNIST — это черно-белые, центрированные изображения рукописных цифр размером 28*28 пикселей. По-умолчанию, 60000 изображений отмечены для обучения, а 10000 для тестирования. В примерах я не буду изменять распределения по-умолчанию.

Читать дальше →

+40

SLY_G Sep 28 2016 at 19:35

Как меняется мораль со сменой языка

5 min

42K

Popular scienceBrain

Translation

Что определяет нашу личность? Наши привычки? Наши эстетические вкусы? Нашу память? Если бы мне пришлось отвечать, я бы сказал, что если и есть у меня какая-то основа личности, неотъемлемая часть меня самого, то это – мой моральный центр, моё встроенное чувство того, что хорошо и что плохо.

И всё же, как и другие люди, знающие больше одного языка, я иногда чувствую, что с каждым из моих языков я становлюсь немного другим человеком. Более напористым с английским, более расслабленным с французским, более сентиментальным с чешским. Возможно ли, что вместе с этими изменениями мой моральный компас также указывает в разных направлениях, в зависимости от используемого в данный момент языка?

Психологи, изучающие моральные суждения, уже заинтересовались этим вопросом. Несколько исследований изучают то, как люди оценивают этику, думая на неродном языке – например, так, как группа делегатов ООН использует язык лингва-франка для обсуждения резолюций. Открытия говорят о том, что в случае моральных дилемм люди могут вести себя по-разному, в зависимости от того, думают они на родном языке или на другом.

Читать дальше →

+31

MzMz Dec 28 2015 at 16:16

Kaggle и Titanic — еще одно решение задачи с помощью Python

23 min

81K

Python*Machine learning*Programming*Sport programming*

Tutorial

Хочу поделиться опытом работы с задачей известного конкурса по машинному обучению от Kaggle. Этот конкурс позиционируется как конкурс для начинающих, а у меня как раз не было почти никакого практического опыта в этой области. Я немного знал теорию, но с реальными данными дела почти не имел и с питоном плотно не работал. В итоге, потратив пару предновогодних вечеров, набрал 0.80383 (первая четверть рейтинга).

Читать дальше →

+29

borisblade Aug 1 2014 at 12:52

Создание и настройка сервера Minecraft

13 min

315K

Selectel corporate blog

Tutorial

Minecraft Selectel

Minecraft сегодня принадлежит к числу самых популярных сетевых игр. За неполных три года (первый официальный релиз состоялся осенью 2011 года) у него появились миллионы поклонников по всему миру.

Разработчики игры сознательно ориентируются на лучшие образцы двадцатилетней давности, когда многие игры были по сегодняшним меркам примитивными с точки зрения графики и несовершенными с точки зрения юзабилити, но при этом — по-настоящему захватывали.

Читать дальше →

+14

ZlodeiBaal Jan 13 2016 at 00:36

Постановка задачи компьютерного зрения

13 min

72K

Algorithms*System Analysis and Design*Machine learning*Image processing*Website development*

Последние лет восемь я активно занимаюсь задачами, связанными с распознаванием образов, компьютерным зрением, машинным обучением. Получилось накопить достаточно большой багаж опыта и проектов (что-то своё, что-то в ранге штатного программиста, что-то под заказ). К тому же, с тех пор, как я написал пару статей на Хабре, со мной часто связываются читатели, просят помочь с их задачей, посоветовать что-то. Так что достаточно часто натыкаюсь на совершенно непредсказуемые применения CV алгоритмов.
Но, чёрт подери, в 90% случаев я вижу одну и ту же системную ошибку. Раз за разом. За последние лет 5 я её объяснял уже десяткам людей. Да что там, периодически и сам её совершаю…

В 99% задач компьютерного зрения то представление о задаче, которое вы сформулировали у себя в голове, а тем более тот путь решения, который вы наметили, не имеет с реальностью ничего общего. Всегда будут возникать ситуации, про которые вы даже не могли подумать. Единственный способ сформулировать задачу — набрать базу примеров и работать с ней, учитывая как идеальные, так и самые плохие ситуации. Чем шире база-тем точнее поставлена задача. Без базы говорить о задаче нельзя.

Тривиальная мысль. Но все ошибаются. Абсолютно все. В статье я приведу несколько примеров таких ситуаций. Когда задача поставлена плохо, когда хорошо. И какие подводные камни вас ждут в формировании ТЗ для систем компьютерного зрения.

Читать дальше →

+72

ternaus Sep 23 2016 at 02:51

Из физиков в Data Science (Из двигателей науки в офисный планктон). Вторая часть

22 min

47K

Примерно год назад я написал текст о том как у меня происходил процесс перехода из академической среды в популярную ныне профессию Data Scientist. На удивление я получил достаточно много сообщений от людей, которые оказались в похожей ситуации, то есть мой пост нашел свою аудиторию и кому-то оказался полезен. Теперь пришла пора написать продолжение.

(Заранее извиняюсь за обилие английских слов, какие-то из них я не знаю как перевести, а какие-то мне переводить не хочется.)

+59

alconost Sep 23 2016 at 07:51

Майкл Прайор, Trello: Как построить продукт для массового рынка. Продолжение

7 min

7.8K

Alconost corporate blogGrowth Hacking*BrandingInternet marketing*Web services monetization*

Translation

Вы тоже устраиваетесь в кресле поудобнее, когда создатель крупного продукта рассказывает о своих ошибках? Тогда читайте продолжение занятного интервью с исполнительным директором Trello. Майкл Прайор честно поведал о сложностях позиционирования, о тонкостях монетизации, о неожиданных открытиях и о том, что бы он изменил в прошлом. А потели над переводом этой беседы переводчики компании-локализатора Alconost.

Читать дальше →

+15

olemskoi Sep 23 2016 at 07:13

Кластер Docker Swarm за 30 секунд

5 min

88K

Слёрм corporate blogSystem administration*Server Administration*Virtualization**nix*

Tutorial

Translation

В этом июне, в качестве лейтмотива конференции DockerCon мы видели демо, в котором 3-узловой Swarm-кластер был создан за 30 секунд используя набор инструментов для кластеризации Swarm, интегрированную в Docker Engine 1.12.

Впечатляет, но естественно, мне нужно было попробовать сделать это самому, чтобы увидеть своими глазами.

Читать дальше →

+25

ternaus Nov 2 2015 at 12:04

Из физиков в Data Science (Из двигателей науки в офисный планктон)

14 min

68K

Вступление

Не так давно, а именно двенадцать месяцев назад, начался мой последний год аспирантуры на физическом факультете ВУЗа под названием University of California, Davis. Вставал законный вопрос — что делать дальше? За преподаванием, движением науки и прочими развлечениями год пройдёт очень быстро. Решать надо было заранее. Основной план был найти позицию постдока, причем где-нибудь в Токио, Рио де Жанейро или Сингапуре, так что вроде как и путешествуешь, а вроде как и работаешь. И по идее под это дело у меня всё было подготовлено: и статьи, и знакомые, и знаний в определённых областях физики конденсированных сред — на троих. Я начал активно гуглить сайты разных вузов, в интересующих меня географически частях мира, написал научно ориентированный CV, подписался на рассылки где публикуются вакансии постдоков, намекнул всем знакомым, что если что — то мне надо сказать в первую очередь. Я даже по скайпу с какими то профессорами общался на тему работы в их научных группах. В общем всё куда-то катилось.

Примерно в то же время к нам в городок заехал один мой знакомый, который в свое время тоже выпустился с нашего доблестного факультета, но на пару лет раньше. Последние пару лет он мыкался и тыкался в разные конторы и вот наконец нашёл работу на позицию под названием Data Scientist. Посидели в баре, потрепались — то, чем он занимается, особенно не зацепило (когда каждый день пытаешься разобраться что и куда квантовать, чтобы описать свойства наноматериалов, рассказы о том, как в некой базе данных что-то куда-то аггрегируется и почему это важно для каких-то продаж офисных принадлежностей, вообще не цепляет), но зацепила зарплата. Для справки, в США грязными, то есть до вычета налогов:

Аспирант — $27k
Постдок — $45k
Профессор — $117k

Читать дальше →

+19

Top3DShop Sep 23 2016 at 08:26

[Обзор] Сервис обработки заказов 3D-печати Digifabster

4 min

6.2K

Top 3D Shop corporate blog

Всем привет, с вами Top 3D Shop.

И сегодня мы рассмотрим довольно интересную разработку компании 3DPrintus – Digifabster. Что же это такое?

Читать дальше →

+8

ragequit Sep 22 2016 at 22:03

«Казаки 3» — краткий обзор перезапуска легендарной RTS

8 min

72K

Games and game consoles

Два дня назад, 20 сентября, без особого шума и рекламной кампании состоялся релиз третьей части легендарной исторической RTS «Казаки 3». Новая игра от украинской студии GSC Game World по сути является перезапуском серии, так как возвращает нас во временной период первой части. Однако, нельзя сказать, что это плохо. Жанр RTS стагнирует уже много лет, лишь изредка радуя поклонников качественными тайтлами, так что выход «Казаков» пришелся кстати.

Отзывы к игре в Steam противоречивы, что свидетельствует о сырости и забагованности проекта. Но предлагаю дать новым «Казакам» шанс. Обзор игры под катом.

+35

OlegPyatakov Sep 17 2016 at 16:40

Викторина для ботов на Twitch.tv

8 min

24K

Games and game consoles

Как известно, на Twitch.tv есть боты. Я говорю не о “плохих” ботах для накрутки зрителей или чата, а о ботах, которые позволяют стримеру добавить тот или иной функционал на стрим или в чат при стриме. Среди наиболее известных из них: Moobot, Nightbot и MirRobot. О последнем как раз и пойдет речь. Mirrobot написан нашим соотечественником и заслуженно входит число самых популярных ботов. Одной из его возможностей, которая весьма востребована, является проведение викторины в чате.

Читать дальше →

+10

cleg Jul 25 2008 at 13:03

Основы Python — кратко. Часть 3. Списки, кортежи, файлы.

5 min

396K

В общем-то последняя из готовых глав. Остальные будут выходить чуть реже, поскольку еще не написаны (но я уверен что будут, хотя это зависит только от ваших пожеланий, уважаемые читатели :)

Также следует заметить что это это, видимо, последний «простой урок», дальше я постараюсь углубиться во все аспекты программирования, которые мы прошли «по верхам» и продолжить более детально.

В общем, те кому не интересно — читают следующую новость, а остальных — прошу пройти

+30

NikolaySivko Sep 17 2016 at 06:11

Как мы неделю чинили compaction в Cassandra

7 min

13K

okmeter.io corporate blogDevOps*System administration*Data storage*

Основным хранилищем метрик у нас является cassandra, мы используем её уже более трех лет. Для всех предыдущих проблем мы успешно находили решение, используя встроенные средства диагностики кассандры.

В кассандре достаточно информативное логгирование (особенно на уровне DEBUG, который можно включить на лету), подробные метрики, доступные через JMX и богатый набор утилит (nodetool, sstable*).

Но недавно мы столкнулись с одной достаточно интересной проблемой, и нам пришлось серьезно поломать голову, почитать исходный код кассандры, чтобы разобраться, что происходит.

Читать дальше →

+41

olegbunin Sep 9 2016 at 09:17

Масштабирование базы данных через шардирование и партиционирование

11 min

172K

Конференции Олега Бунина (Онтико) corporate blogMySQL*PostgreSQL*High performance*Website development*

Масштабирование базы данных через шардирование и партиционирование

Денис Иванов (2ГИС)

Всем привет! Меня зовут Денис Иванов, и я расскажу о масштабировании баз данных через шардирование и партиционирование. После этого доклада у всех должно появиться желание что-то попартицировать, пошардировать, вы поймете, что это очень просто, оно никак жрать не просит, работает, и все замечательно.

Немного расскажу о себе — я работаю в команде WebAPI в компании 2GIS, мы предоставляем API для организаций, у нас очень много разных данных, 8 стран, в которых мы работаем, 250 крупных городов, 50 тыс. населенных пунктов. У нас достаточно большая нагрузка — 25 млн. активных пользователей в месяц, и в среднем нагрузка около 2000 RPS идет на API. Все это располагается в трех датацентрах.

Перейдем к проблемам, которые мы с вами сегодня будем решать. Одна из проблем — это большое количество данных. Когда вы разрабатываете тот или иной проект, у вас в любой момент времени может случиться так, что данных становится очень много. Если бизнес работает, он приносит деньги. Соответственно, данных больше, денег больше, и с этими данными что-то нужно делать, потому что эти запросы очень долго начинают выполняться, и у нас сервер начинает не вывозить. Одно из решений, что с этими данными делать — это масштабирование базы данных.

Читать дальше →

+31

1 2 ...

32

33 34 ...