Статьи / Закладки / Профиль kopcap_va / Хабр

Как стать автором

Владислав Яновский @kopcap_va

SEO

Профиль Публикации 1Комментарии 8Закладки 180

yorko 9 ноя 2015 в 01:34

Некоторые репозитории в помощь изучающим и преподающим Python и машинное обучение

13 мин

64K

Python*Программирование*Машинное обучение*

Привет сообществу!

Я Юрий Кашницкий, раньше делал здесь обзор некоторых MOOC по компьютерным наукам и искал «выбросы» среди моделей Playboy.

Сейчас я преподаю Python и машинное обучение на факультете компьютерных наук НИУ ВШЭ и в онлайн-курсе сообщества по анализу данных MLClass, а также машинное обучение и анализ больших данных в школе данных одного из российских телеком-операторов.

Почему бы воскресным вечером не поделиться с сообществом материалами по Python и обзором репозиториев по машинному обучению… В первой части будет описание репозитория GitHub с тетрадками IPython по программированию на языке Python. Во второй — пример материала курса «Машинное обучение с помощью Python». В третьей части покажу один из трюков, применяемый участниками соревнований Kaggle, конкретно, Станиславом Семеновым (4 место в текущем мировом рейтинге Kaggle). Наконец, сделаю обзор попавшихся мне классных репозиториев GitHub по программированию, анализу данных и машинному обучению на Python.

Читать дальше →

+22

yorko 16 янв 2015 в 12:55

Обзор некоторых MOOC Coursera по компьютерным наукам

3 мин

37K

Python*Программирование*Data Mining*Алгоритмы*Машинное обучение*

Из песочницы

Скорее всего, если вы зашли на Хабр и читаете эту статью, то хоть раз в жизни да слышали про MOOC-курсы.

Но если все же не слышали, то MOOC (по-русски принято произносить «мук») означает «Massive Open Online Course» — массовый открытый онлайн-курс. Это настоящий феномен в образовании XXI века. Газета «New York Times» назвала даже 2012 год «годом MOOC» в связи с появлением на рынке дистанционного образования 3-х «китов» — Coursera, Udacity и EdX. MOOC-ам посвящено множество статей, кто-то видит в них будущее образования, кто-то, наоборот, угрозу. Пытаются также предсказать «традиционную» и «дистанционную» составляющии обучения будущего.

Однако в этой статье я не буду обсуждать перспективы развития дистанционного образования, а расскажу про свой опыт знакомства с курсами на платформе Coursera. Эти курсы будут полезны студентам, изучающим прикладную математику и информатику, в особенности анализ данных. Многое из того, что мне дали эти курсы, как я потом понял — это знания, которыми должен обладать любой уважающий себя исследователь данных (так я предпочитаю переводить профессию Data Scientist).

Читать дальше →

+18

lytr 28 янв 2015 в 14:53

Deep learning и Caffe на новогодних праздниках

9 мин

55K

Data Mining*Обработка изображений*Big Data*

Из песочницы

Мотивация

В данной статье вы познакомитесь c применением deep learning на практике. Будет использован фреймворк Caffe на датасете SVHN.

Deep Learning. Этот buzz word уже давно звенит в ушах, но попробовать его на практике никак не удавалось. Подвернулся удобный случай это исправить! На новогодние праздники был назначен контест на kaggle по распознаванию номеров домов в рамках курса по анализу изображений.

Читать дальше →

+21

itmo 3 фев 2016 в 18:57

Подборка: Более 70 источников по машинному обучению для начинающих

5 мин

103K

Веб-разработка*Python*Профессиональная литература*Машинное обучение*Блог компании ИТМО

Индикатор кулачкового аналогового компьютера / Wiki

В нашем блоге мы уже рассказывали о разработке системы квантовой связи и о том, как из простых студентов готовят продвинутых программистов. Сегодня мы решили вернуться к теме машинного обучения и привести адаптированную (источник) подборку полезных материалов.

Читать дальше →

+27

rocknrollnerd 16 июн 2014 в 13:31

Про котиков, собак, машинное обучение и deep learning

15 мин

83K

Обработка изображений*

Из песочницы

«В 1997 году Deep Blue обыграл в шахматы Каспарова.
В 2011 Watson обставил чемпионов Jeopardy.
Сможет ли ваш алгоритм в 2013 году отличить Бобика от Пушистика?»

Эта картинка и предисловие — из челленджа на Kaggle, который проходил осенью прошлого года. Забегая вперед, на последний вопрос вполне можно ответить «да» — десятка лидеров справилась с заданием на 98.8%, что на удивление впечатляет.

И все-таки — откуда вообще берется такая постановка вопроса? Почему задачи на классификацию, которые легко решает четырехлетний ребенок, долгое время были (и до сих пор остаются) не по зубам программам? Почему распознавать предметы окружающего мира сложнее, чем играть в шахматы? Что такое deep learning и почему в публикациях о нем с пугающим постоянством фигурируют котики? Давайте поговорим об этом.

По заветам издателей Стивена Хокинга - без формул

+95

asash 9 ноя 2015 в 12:45

Big data от А до Я. Часть 3: Приемы и стратегии разработки MapReduce-приложений

7 мин

83K

Веб-разработка*Big Data*Hadoop*

Привет, Хабр! В предыдущих статьях мы описали парадигму MapReduce, а также показали как на практике реализовать и выполнить MapReduce-приложение на стеке Hadoop. Пришла пора описать различные приёмы, которые позволяют эффективно использовать MapReduce для решения практических задач, а также показать некоторые особенности Hadoop, которые позволяют упростить разработку или существенно ускорить выполнение MapReduce-задачи на кластере.

Читать дальше →

+23

SkillsWiki 1 дек 2015 в 11:18

Data Science Skills

6 мин

60K

Веб-разработка*Data Mining*Алгоритмы*Big Data*R*

Продолжаем серию аналитических исследований востребованности навыков на рынке труда. В этот раз благодаря Павлу Сурменку sharky мы рассмотрим новую профессию – Data Scientist.

Последние года термин Data Science начал набирать популярность. Об этом много пишут, говорят на конференциях. Некоторые компании даже нанимают людей на должность со звучным названием Data Scientist. Что же такое Data Science? И кто такие Data Scientists?

Читать дальше →

+11

Roman_Kh 30 дек 2015 в 13:20

Numpy и многопроцессорность

4 мин

22K

Python*Data Mining*Big Data*

Из песочницы

Сейчас уже многие используют библиотеку numpy в своих python-программах, поскольку она заметно ускоряет работу с данными и выполнение математических операций. Однако во многих случаях numpy работает в разы медленнее, чем она может… потому что использует только один процессор, хотя могла бы использовать все, что у вас есть.

Читать дальше →

+20

ph_piter 5 фев 2016 в 16:49

Знакомство с Apache Spark

8 мин

118K

Big Data*Блог компании Издательский дом «Питер»

Перевод

Здравствуйте, уважаемые читатели!

Мы наконец-то приступаем к переводу серьезной книги о фреймворке Spark:

Сегодня мы предлагаем вашему вниманию перевод обзорной статьи о возможностях Spark, которую, полагаем, можно с полным правом назвать слегка потрясающей.

Читать дальше →

+13

ZlodeiBaal 12 фев 2016 в 03:51

Нейрореволюция в головах и сёлах

8 мин

94K

Алгоритмы*Обработка изображений*Машинное обучение*

В последнее время всё чаще и чаще слышишь мнение, что сейчас происходит технологическая революция. Бытует мнение, что мир стремительно меняется.

На мой взгляд такое и правда происходит. И одна из главных движущих сил — новые алгоритмы обучения, позволяющие обрабатывать большие объёмы информации. Современные разработки в области компьютерного зрения и алгоритмов машинного обучения могут быстро принимать решения с точностью не хуже профессионалов.

Я работаю в области связанной с анализом изображений. Это одна из областей которую новые идеи затронули сильнее всего. Одна из таких идей — свёрточные нейронные сети. Четыре года назад с их помощью впервые начали выигрывать конкурсы по обработке изображений. Победы не остались незамеченными. Нейронными сетями, до тех пор стоящими на вторых ролях, стали заниматься и пользоваться десятки тысяч последователей. В результате, полтора-два года назад начался бум, породивший множество идей, алгоритмов, статей.

В своём рассказе я сделаю обзор тех идей, которые появились за последние пару лет и зацепили мою тематику. Почему происходящее — революция и чего от неё ждать.

Кто лишится в ближайшие лет десять работы, а у кого будут новые перспективные вакансии.

Читать дальше →

+74

mkot 28 мая 2014 в 19:35

Заочное обучение в ШАД Яндекса: 570 замечательных часов моей жизни

6 мин

57K

Машинное обучение*

Два года назад на меня сильное впечатление произвела хабрастатья «Стивен Вольфрам проанализировал свою жизнь». К тому времени я уже года два записывал в Google-календаре, что и когда я делал, но к тому моменту я не задумывался, о том, что можно сделать с этой информацией. После прочтения той статьи, я понял: эту информацию можно анализировать! Сейчас я могу посчитать сколько раз мы с друзьями собирались играть в баскетбол за эти годы, сколько часов я провёл в больнице и т. п.

На этой неделе я сделал последнюю домашнюю работу в ШАД и решил посчитать сколько времени у меня ушло на обучение, сколько я в среднем тратил в неделю, сколько строчек кода я написал и т. д. Построил несколько графиков и гистограмм, показал их друзьям и понял, что, возможно, такая информация будет интересна кому-либо ещё. Так что если вы хотите узнать сколько страниц отчётов было написано, насколько верна оценка нагрузки в ШАД в 15–20 часов в неделю, а также моё субъективное мнение о курсах в ШАД, то добро пожаловать под хабракат.

Читать дальше →

+48

redlinelm 2 фев 2016 в 12:08

Машинное обучение от Octave\Matlab к Python

3 мин

21K

Python*Машинное обучение*Matlab*

Решил я познакомится с такой интересной для меня областью, как Machine learning. После непродолжительных поисков я обнаружил достаточно популярный курс Стэнфордского университета Machine learning. В нем рассказываются основы и дается широкое представление о machine learning, datamining, and statistical pattern recognition. Был для меня в этом курсе небольшой минус как Python программиста- домашние задания надо было выполнять на Octave\Matlab. В итоге я не пожалел, что получил представления о новом языке программирования, но как учебный пример для более тесного знакомства с соответствующими библиотеками решил переписать домашние задания на Python. То что получилось лежит на GitHub тут.

Читать дальше →

+13

ragequit 26 ноя 2015 в 22:49

Исповедь Google-спамера

10 мин

48K

Веб-разработка*Поисковые технологии*Блог компании ua-hosting.company

Перевод

Правдивая история о том, как беспринципный «ботаник» заработал миллионы долларов на поисковом гиганте

Прежде чем заняться телемаркетингом, я как-то умудрился заработать за месяц $50 000, и все благодаря спаму в Google. Причем занятию этому нужно было уделять всего порядка 10 часов в неделю. Но, признаться честно, не советую, вот совершенно откровенно, повторять такие «подвиги».

В этом посте я как раз и решил пояснить, почему.

Мое видение мира в 2009 году

Я вовсе не собирался спамить в интернете. Но Google не оставил мне выбора, да тогда я рассуждал, примерно, так.

Если спамить так плохо, думал я, почему же спам всегда отлично работает? Большинство черных SEO-шников, вероятно, придерживаются той же точки зрения. Они просто находят ряд подходящих оправданий спаму, направленному против индексации Google:

Мы же помогаем Google совершенствовать существующий алгоритм индексации!
Кто сказал, что контент наше все?!? LOL! Ссылки, вот что вам нужно. Google врет. Спам по ним плачет.
Если не будем спамить мы, этим займутся наши конкуренты, а, значит, они нас сделают. Придется спамить.
Вообще-то, если вы не в курсе, мы заботимся о своих клиентах: только так мы сможем выиграть битву против гигантской империи зла, которая того и гляди поработит всех, наживаясь на плате за клики!

Читать дальше →

+15

XaocCPS 7 ноя 2008 в 09:51

Как написать отличную статью и завоевать умы

12 мин

18K

Контент и копирайтинг*

Web 2.0, существование которого некоторыми отрицается, привел в интернет много авторов, которые стали писать статьи и заметки на самые разные темы. В зависимости от ресурса, вид, содержание, оформление и размер таких статей различаются, но у них есть один общий компонент — авторский текст, который, собственно, почти всегда, является сутью статьи. Такие статьи, в основном, пишутся не профессиональными журналистами, а простыми пользователями, которые в силу разных причин делятся своими мыслями, идеями или полученной информацией.

В данной статье мне хотелось бы предложить несколько вариантов того, как стоит создавать статьи, как их подавать и как поддерживать жизнь своей статьи.

Читать дальше →

+61

ethoz 7 фев 2016 в 17:30

Почему Яндекс отказался от подтверждения сайтов txt-файлом

5 мин

55K

Информационная безопасность*

Эта история про забавное стечение обстоятельств и один крошечный баг, который до недавнего времени имел место быть в сервисе «Я.Вебмастер». Хронология и некоторые моменты, изложенные тут, немного изменены, для более складного повествования. Но тем не менее, суть, остаётся не изменной.

Началось всё с того, что я заметил странную особенность CMS Wordpress. Так, при при первом обращении, к моему сайту по адресу www.domain.com/non_existent_file.ext выводился заголовок «404 Not Found», а при повторном «200 OK». На тот момент казалось, что на это могут влиять мои правки в движке и различные прикрученные костыли. Но при диагностике, на этапе отключения плагинов, выяснилось, что причиной такого поведения является плагин «W3 Total Cache». Не разбираясь в деталях, с мыслью «допилят ещё», включил его снова и забыл.

Через пару месяцев решил добавить этот сайт в Я.Вебмастер. Сервис предоставлял несколько способов для подтверждения владения сайтом.

Читать дальше →

+64

RELAXART 3 фев 2016 в 13:16

Импорт словаря в Lingualeo.com

3 мин

23K

Из песочницы

Предыстория

Для импорта слов в Lingualeo.com есть несколько решений:

Приложения для браузера или телефонов:
Добавление слов на сайте.

Минусы этих способов в том, что вносить слова можно только по одному. Нам необходима реализация, которая позволит добавлять несколько слов за раз.

Читать дальше →

+10

ser0t0nin 11 янв 2016 в 16:35

Рекурентная нейронная сеть в 10 строчек кода оценила отзывы зрителей нового эпизода “Звездных войн”

11 мин

160K

Python*Машинное обучение*Блог компании DCA (Data-Centric Alliance)

Hello, Habr! Недавно мы получили от “Известий” заказ на проведение исследования общественного мнения по поводу фильма «Звёздные войны: Пробуждение Силы», премьера которого состоялась 17 декабря. Для этого мы решили провести анализ тональности российского сегмента Twitter по нескольким релевантным хэштегам. Результата от нас ждали всего через 3 дня (и это в самом конце года!), поэтому нам нужен был очень быстрый способ. В интернете мы нашли несколько подобных онлайн-сервисов (среди которых sentiment140 и tweet_viz), но оказалось, что они не работают с русским языком и по каким-то причинам анализируют только маленький процент твитов. Нам помог бы сервис AlchemyAPI, но ограничение в 1000 запросов в сутки нас также не устраивало. Тогда мы решили сделать свой анализатор тональности с блэк-джеком и всем остальным, создав простенькую рекурентную нейронную сеть с памятью. Результаты нашего исследования были использованы в статье “Известий”, опубликованной 3 января.

В этой статье я немного расскажу о такого рода сетях и познакомлю с парой классных инструментов для домашних экспериментов, которые позволят строить нейронные сети любой сложности в несколько строк кода даже школьникам. Добро пожаловать под кат.

Читать дальше →

+68

StudyQA 3 авг 2015 в 14:12

Стипендиальные правительственные программы по всему миру. Часть 1

5 мин

21K

Программирование*Математика*Блог компании StudyQA

Recovery Mode

Если вы собираетесь учиться да рубежом, а курс доллара и евро не вызывает положительных эмоций, то есть несколько основных источников финансирования, с которых нужно начать поиски. Расскажем подробнее об одном из них.

Читать дальше →

+13

peremen 4 авг 2015 в 14:09

В чем разница между наукой о данных, анализом данных, большими данными, аналитикой, дата майнингом и машинным обучением

4 мин

41K

Анализ и проектирование систем*Data Mining*Big Data*Блог компании .io

Recovery Mode

В последнее время слово big data звучит отовсюду и в некотором роде это понятие стало мейнстримом. С большими данными тесно связаны такие термины как наука о данных (data science), анализ данных (data analysis), аналитика данных (data analytics), сбор данных (data mining) и машинное обучение (machine learning).

Почему все стали так помешаны на больших данных и что значат все эти слова?

Читать дальше →

+11

9851754 4 авг 2015 в 15:56

Анализ открытых данных в R, часть 1

5 мин

15K

R*Открытые данные*

Из песочницы

Введение

На момент написания статьи большинство приложений на основе открытых данных (на официальных сайтах data.mos.ru/apps и data.gov.ru) представляют собой интерактивные справочники по инфраструктуре города или поселения с наглядной визуализацией и часто с опцией выбора оптимального маршрута. Цель этой и последующих публикаций состоит в том, чтобы привлечь внимание сообщества к обсуждению стратегий анализа открытых данных, в т.ч. направленных на прогнозирование, построение статистических моделей и извлечение информации, не представленной в явном виде. В качестве инструментария используется язык R и среда разработки RStudio.

Читать дальше →

+7

3