Articles / Bookmarks / Profile of kopcap_va / Habr

How to become an author

Владислав Яновский @kopcap_va

SEO

Profile Publications 1Comments 8Bookmarks 179

yorko Nov 9 2015 at 01:34

Некоторые репозитории в помощь изучающим и преподающим Python и машинное обучение

13 min

64K

Python*Programming*Machine learning*

Привет сообществу!

Я Юрий Кашницкий, раньше делал здесь обзор некоторых MOOC по компьютерным наукам и искал «выбросы» среди моделей Playboy.

Сейчас я преподаю Python и машинное обучение на факультете компьютерных наук НИУ ВШЭ и в онлайн-курсе сообщества по анализу данных MLClass, а также машинное обучение и анализ больших данных в школе данных одного из российских телеком-операторов.

Почему бы воскресным вечером не поделиться с сообществом материалами по Python и обзором репозиториев по машинному обучению… В первой части будет описание репозитория GitHub с тетрадками IPython по программированию на языке Python. Во второй — пример материала курса «Машинное обучение с помощью Python». В третьей части покажу один из трюков, применяемый участниками соревнований Kaggle, конкретно, Станиславом Семеновым (4 место в текущем мировом рейтинге Kaggle). Наконец, сделаю обзор попавшихся мне классных репозиториев GitHub по программированию, анализу данных и машинному обучению на Python.

Читать дальше →

+22

yorko Jan 16 2015 at 12:55

Обзор некоторых MOOC Coursera по компьютерным наукам

3 min

37K

Python*Programming*Data Mining*Algorithms*Machine learning*

Скорее всего, если вы зашли на Хабр и читаете эту статью, то хоть раз в жизни да слышали про MOOC-курсы.

Но если все же не слышали, то MOOC (по-русски принято произносить «мук») означает «Massive Open Online Course» — массовый открытый онлайн-курс. Это настоящий феномен в образовании XXI века. Газета «New York Times» назвала даже 2012 год «годом MOOC» в связи с появлением на рынке дистанционного образования 3-х «китов» — Coursera, Udacity и EdX. MOOC-ам посвящено множество статей, кто-то видит в них будущее образования, кто-то, наоборот, угрозу. Пытаются также предсказать «традиционную» и «дистанционную» составляющии обучения будущего.

Однако в этой статье я не буду обсуждать перспективы развития дистанционного образования, а расскажу про свой опыт знакомства с курсами на платформе Coursera. Эти курсы будут полезны студентам, изучающим прикладную математику и информатику, в особенности анализ данных. Многое из того, что мне дали эти курсы, как я потом понял — это знания, которыми должен обладать любой уважающий себя исследователь данных (так я предпочитаю переводить профессию Data Scientist).

Читать дальше →

+18

lytr Jan 28 2015 at 14:53

Deep learning и Caffe на новогодних праздниках

9 min

55K

Data Mining*Image processing*Big Data*

Мотивация

В данной статье вы познакомитесь c применением deep learning на практике. Будет использован фреймворк Caffe на датасете SVHN.

Deep Learning. Этот buzz word уже давно звенит в ушах, но попробовать его на практике никак не удавалось. Подвернулся удобный случай это исправить! На новогодние праздники был назначен контест на kaggle по распознаванию номеров домов в рамках курса по анализу изображений.

Читать дальше →

+21

itmo Feb 3 2016 at 18:57

Подборка: Более 70 источников по машинному обучению для начинающих

5 min

103K

Website development*Python*Professional literature*Machine learning*ITMO corporate blog

Индикатор кулачкового аналогового компьютера / Wiki

В нашем блоге мы уже рассказывали о разработке системы квантовой связи и о том, как из простых студентов готовят продвинутых программистов. Сегодня мы решили вернуться к теме машинного обучения и привести адаптированную (источник) подборку полезных материалов.

Читать дальше →

+27

rocknrollnerd Jun 16 2014 at 13:31

Про котиков, собак, машинное обучение и deep learning

15 min

83K

Image processing*

«В 1997 году Deep Blue обыграл в шахматы Каспарова.
В 2011 Watson обставил чемпионов Jeopardy.
Сможет ли ваш алгоритм в 2013 году отличить Бобика от Пушистика?»

Эта картинка и предисловие — из челленджа на Kaggle, который проходил осенью прошлого года. Забегая вперед, на последний вопрос вполне можно ответить «да» — десятка лидеров справилась с заданием на 98.8%, что на удивление впечатляет.

И все-таки — откуда вообще берется такая постановка вопроса? Почему задачи на классификацию, которые легко решает четырехлетний ребенок, долгое время были (и до сих пор остаются) не по зубам программам? Почему распознавать предметы окружающего мира сложнее, чем играть в шахматы? Что такое deep learning и почему в публикациях о нем с пугающим постоянством фигурируют котики? Давайте поговорим об этом.

По заветам издателей Стивена Хокинга - без формул

+95

asash Nov 9 2015 at 12:45

Big data от А до Я. Часть 3: Приемы и стратегии разработки MapReduce-приложений

7 min

83K

Website development*Big Data*Hadoop*

Привет, Хабр! В предыдущих статьях мы описали парадигму MapReduce, а также показали как на практике реализовать и выполнить MapReduce-приложение на стеке Hadoop. Пришла пора описать различные приёмы, которые позволяют эффективно использовать MapReduce для решения практических задач, а также показать некоторые особенности Hadoop, которые позволяют упростить разработку или существенно ускорить выполнение MapReduce-задачи на кластере.

Читать дальше →

+23

SkillsWiki Dec 1 2015 at 11:18

Data Science Skills

6 min

60K

Website development*Data Mining*Algorithms*Big Data*R*

Продолжаем серию аналитических исследований востребованности навыков на рынке труда. В этот раз благодаря Павлу Сурменку sharky мы рассмотрим новую профессию – Data Scientist.

Последние года термин Data Science начал набирать популярность. Об этом много пишут, говорят на конференциях. Некоторые компании даже нанимают людей на должность со звучным названием Data Scientist. Что же такое Data Science? И кто такие Data Scientists?

Читать дальше →

+11

Roman_Kh Dec 30 2015 at 13:20

Numpy и многопроцессорность

4 min

22K

Python*Data Mining*Big Data*

Сейчас уже многие используют библиотеку numpy в своих python-программах, поскольку она заметно ускоряет работу с данными и выполнение математических операций. Однако во многих случаях numpy работает в разы медленнее, чем она может… потому что использует только один процессор, хотя могла бы использовать все, что у вас есть.

Читать дальше →

+20

ph_piter Feb 5 2016 at 16:49

Знакомство с Apache Spark

8 min

118K

Big Data*Издательский дом «Питер» corporate blog

Translation

Здравствуйте, уважаемые читатели!

Мы наконец-то приступаем к переводу серьезной книги о фреймворке Spark:

Сегодня мы предлагаем вашему вниманию перевод обзорной статьи о возможностях Spark, которую, полагаем, можно с полным правом назвать слегка потрясающей.

Читать дальше →

+13

ZlodeiBaal Feb 12 2016 at 03:51

Нейрореволюция в головах и сёлах

8 min

94K

Algorithms*Image processing*Machine learning*

В последнее время всё чаще и чаще слышишь мнение, что сейчас происходит технологическая революция. Бытует мнение, что мир стремительно меняется.

На мой взгляд такое и правда происходит. И одна из главных движущих сил — новые алгоритмы обучения, позволяющие обрабатывать большие объёмы информации. Современные разработки в области компьютерного зрения и алгоритмов машинного обучения могут быстро принимать решения с точностью не хуже профессионалов.

Я работаю в области связанной с анализом изображений. Это одна из областей которую новые идеи затронули сильнее всего. Одна из таких идей — свёрточные нейронные сети. Четыре года назад с их помощью впервые начали выигрывать конкурсы по обработке изображений. Победы не остались незамеченными. Нейронными сетями, до тех пор стоящими на вторых ролях, стали заниматься и пользоваться десятки тысяч последователей. В результате, полтора-два года назад начался бум, породивший множество идей, алгоритмов, статей.

В своём рассказе я сделаю обзор тех идей, которые появились за последние пару лет и зацепили мою тематику. Почему происходящее — революция и чего от неё ждать.

Кто лишится в ближайшие лет десять работы, а у кого будут новые перспективные вакансии.

Читать дальше →

+74

mkot May 28 2014 at 19:35

Заочное обучение в ШАД Яндекса: 570 замечательных часов моей жизни

6 min

57K

Machine learning*

Два года назад на меня сильное впечатление произвела хабрастатья «Стивен Вольфрам проанализировал свою жизнь». К тому времени я уже года два записывал в Google-календаре, что и когда я делал, но к тому моменту я не задумывался, о том, что можно сделать с этой информацией. После прочтения той статьи, я понял: эту информацию можно анализировать! Сейчас я могу посчитать сколько раз мы с друзьями собирались играть в баскетбол за эти годы, сколько часов я провёл в больнице и т. п.

На этой неделе я сделал последнюю домашнюю работу в ШАД и решил посчитать сколько времени у меня ушло на обучение, сколько я в среднем тратил в неделю, сколько строчек кода я написал и т. д. Построил несколько графиков и гистограмм, показал их друзьям и понял, что, возможно, такая информация будет интересна кому-либо ещё. Так что если вы хотите узнать сколько страниц отчётов было написано, насколько верна оценка нагрузки в ШАД в 15–20 часов в неделю, а также моё субъективное мнение о курсах в ШАД, то добро пожаловать под хабракат.

Читать дальше →

+48

redlinelm Feb 2 2016 at 12:08

Машинное обучение от Octave\Matlab к Python

3 min

21K

Python*Machine learning*Matlab*

Решил я познакомится с такой интересной для меня областью, как Machine learning. После непродолжительных поисков я обнаружил достаточно популярный курс Стэнфордского университета Machine learning. В нем рассказываются основы и дается широкое представление о machine learning, datamining, and statistical pattern recognition. Был для меня в этом курсе небольшой минус как Python программиста- домашние задания надо было выполнять на Octave\Matlab. В итоге я не пожалел, что получил представления о новом языке программирования, но как учебный пример для более тесного знакомства с соответствующими библиотеками решил переписать домашние задания на Python. То что получилось лежит на GitHub тут.

Читать дальше →

+13

ragequit Nov 26 2015 at 22:49

Исповедь Google-спамера

10 min

48K

Website development*Search engines*ua-hosting.company corporate blog

Translation

Правдивая история о том, как беспринципный «ботаник» заработал миллионы долларов на поисковом гиганте

Прежде чем заняться телемаркетингом, я как-то умудрился заработать за месяц $50 000, и все благодаря спаму в Google. Причем занятию этому нужно было уделять всего порядка 10 часов в неделю. Но, признаться честно, не советую, вот совершенно откровенно, повторять такие «подвиги».

В этом посте я как раз и решил пояснить, почему.

Мое видение мира в 2009 году

Я вовсе не собирался спамить в интернете. Но Google не оставил мне выбора, да тогда я рассуждал, примерно, так.

Если спамить так плохо, думал я, почему же спам всегда отлично работает? Большинство черных SEO-шников, вероятно, придерживаются той же точки зрения. Они просто находят ряд подходящих оправданий спаму, направленному против индексации Google:

Мы же помогаем Google совершенствовать существующий алгоритм индексации!
Кто сказал, что контент наше все?!? LOL! Ссылки, вот что вам нужно. Google врет. Спам по ним плачет.
Если не будем спамить мы, этим займутся наши конкуренты, а, значит, они нас сделают. Придется спамить.
Вообще-то, если вы не в курсе, мы заботимся о своих клиентах: только так мы сможем выиграть битву против гигантской империи зла, которая того и гляди поработит всех, наживаясь на плате за клики!

Читать дальше →

+15

XaocCPS Nov 7 2008 at 09:51

Как написать отличную статью и завоевать умы

12 min

18K

Content-marketing*

Web 2.0, существование которого некоторыми отрицается, привел в интернет много авторов, которые стали писать статьи и заметки на самые разные темы. В зависимости от ресурса, вид, содержание, оформление и размер таких статей различаются, но у них есть один общий компонент — авторский текст, который, собственно, почти всегда, является сутью статьи. Такие статьи, в основном, пишутся не профессиональными журналистами, а простыми пользователями, которые в силу разных причин делятся своими мыслями, идеями или полученной информацией.

В данной статье мне хотелось бы предложить несколько вариантов того, как стоит создавать статьи, как их подавать и как поддерживать жизнь своей статьи.

Читать дальше →

+61

ethoz Feb 7 2016 at 17:30

Почему Яндекс отказался от подтверждения сайтов txt-файлом

5 min

56K

Information Security*

Эта история про забавное стечение обстоятельств и один крошечный баг, который до недавнего времени имел место быть в сервисе «Я.Вебмастер». Хронология и некоторые моменты, изложенные тут, немного изменены, для более складного повествования. Но тем не менее, суть, остаётся не изменной.

Началось всё с того, что я заметил странную особенность CMS Wordpress. Так, при при первом обращении, к моему сайту по адресу www.domain.com/non_existent_file.ext выводился заголовок «404 Not Found», а при повторном «200 OK». На тот момент казалось, что на это могут влиять мои правки в движке и различные прикрученные костыли. Но при диагностике, на этапе отключения плагинов, выяснилось, что причиной такого поведения является плагин «W3 Total Cache». Не разбираясь в деталях, с мыслью «допилят ещё», включил его снова и забыл.

Через пару месяцев решил добавить этот сайт в Я.Вебмастер. Сервис предоставлял несколько способов для подтверждения владения сайтом.

Читать дальше →

+64

RELAXART Feb 3 2016 at 13:16

Импорт словаря в Lingualeo.com

3 min

23K

Предыстория

Для импорта слов в Lingualeo.com есть несколько решений:

Приложения для браузера или телефонов:
Добавление слов на сайте.

Минусы этих способов в том, что вносить слова можно только по одному. Нам необходима реализация, которая позволит добавлять несколько слов за раз.

Читать дальше →

+10

ser0t0nin Jan 11 2016 at 16:35

Рекурентная нейронная сеть в 10 строчек кода оценила отзывы зрителей нового эпизода “Звездных войн”

11 min

160K

Python*Machine learning*DCA (Data-Centric Alliance) corporate blog

Hello, Habr! Недавно мы получили от “Известий” заказ на проведение исследования общественного мнения по поводу фильма «Звёздные войны: Пробуждение Силы», премьера которого состоялась 17 декабря. Для этого мы решили провести анализ тональности российского сегмента Twitter по нескольким релевантным хэштегам. Результата от нас ждали всего через 3 дня (и это в самом конце года!), поэтому нам нужен был очень быстрый способ. В интернете мы нашли несколько подобных онлайн-сервисов (среди которых sentiment140 и tweet_viz), но оказалось, что они не работают с русским языком и по каким-то причинам анализируют только маленький процент твитов. Нам помог бы сервис AlchemyAPI, но ограничение в 1000 запросов в сутки нас также не устраивало. Тогда мы решили сделать свой анализатор тональности с блэк-джеком и всем остальным, создав простенькую рекурентную нейронную сеть с памятью. Результаты нашего исследования были использованы в статье “Известий”, опубликованной 3 января.

В этой статье я немного расскажу о такого рода сетях и познакомлю с парой классных инструментов для домашних экспериментов, которые позволят строить нейронные сети любой сложности в несколько строк кода даже школьникам. Добро пожаловать под кат.

Читать дальше →

+68

StudyQA Aug 3 2015 at 14:12

Стипендиальные правительственные программы по всему миру. Часть 1

5 min

21K

Programming*Mathematics*StudyQA corporate blog

Recovery Mode

Если вы собираетесь учиться да рубежом, а курс доллара и евро не вызывает положительных эмоций, то есть несколько основных источников финансирования, с которых нужно начать поиски. Расскажем подробнее об одном из них.

Читать дальше →

+13

peremen Aug 4 2015 at 14:09

В чем разница между наукой о данных, анализом данных, большими данными, аналитикой, дата майнингом и машинным обучением

4 min

41K

System Analysis and Design*Data Mining*Big Data*.io corporate blog

Recovery Mode

В последнее время слово big data звучит отовсюду и в некотором роде это понятие стало мейнстримом. С большими данными тесно связаны такие термины как наука о данных (data science), анализ данных (data analysis), аналитика данных (data analytics), сбор данных (data mining) и машинное обучение (machine learning).

Почему все стали так помешаны на больших данных и что значат все эти слова?

Читать дальше →

+11

9851754 Aug 4 2015 at 15:56

Анализ открытых данных в R, часть 1

5 min

15K

Введение

На момент написания статьи большинство приложений на основе открытых данных (на официальных сайтах data.mos.ru/apps и data.gov.ru) представляют собой интерактивные справочники по инфраструктуре города или поселения с наглядной визуализацией и часто с опцией выбора оптимального маршрута. Цель этой и последующих публикаций состоит в том, чтобы привлечь внимание сообщества к обсуждению стратегий анализа открытых данных, в т.ч. направленных на прогнозирование, построение статистических моделей и извлечение информации, не представленной в явном виде. В качестве инструментария используется язык R и среда разработки RStudio.

Читать дальше →

+7

3