Articles / Bookmarks / Profile of Repulse / Habr

@Repulse^{read⁠-⁠only}

User

ProfileBookmarks526

pustota_2009 Dec 26 2016 at 13:41

Быстрый Data Mining или сравнение производительности C# vs Python (pandas-numpy-skilearn)

7 min

14K

Big Data * C# * Data Mining * Python * High performance *

Всем привет! Разбираясь со Spark Apache, столкнулся с тем, что после достаточно небольшого усложнения алгоритмов подготовки данных расчеты стали выполняться крайне медленно. Поэтому захотелось реализовать что-нибудь на C# и сравнить производительность с аналогичным по классу решением на стеке python (pandas-numpy-skilearn). Аналогичным, потому что они выполняются на локальной машине. Подготовка данных на C# осуществлялась встроенными средствами (linq), расчет линейной регрессии библиотекой extremeoptimization.

В качестве тестовой использовалась задача «B. Предсказание трат клиентов» с ноябрьского соревнования Sberbank Data Science Journey.

Сразу стоит подчеркнуть, что в данной статье описан исключительно аспект сравнения производительности платформ, а не качества модели и предсказаний.

Итак, сначала краткое описание последовательности действий реализованных на C# (куски кода будут ниже):

1. Загрузить данные из csv. Использовалась библиотека Fast Csv Reader.
2. Отфильтровать расходные операции и выполнить группировку по месяцам.
3. Добавить каждому клиенту те категории, по которым у него не было операций. Для того, чтобы избежать длительный перебор цикл-в-цикле использовал фильтр Блума. Реализацию на C# нашел тут.
4. Формирование массива Hashing trick. Так как готовой реализации под C# не удалось найти, пришлось реализовать самому. Для этого скачал и допилил реализацию хеширования murmurhash3
5. Собственно расчет регрессии.

Читать дальше →

0

VladVin Dec 26 2016 at 12:22

Система отслеживания степени заледенелости улиц: машинное обучение + Microsoft Azure + Android

10 min

6.8K

Big Data * Microsoft Azure * NoSQL * Machine learning * Development for Android *

Привет всем! Каждую зиму в русских (да и не только) городах появляется зловредный гололед. Множество людей подскальзывается и травмирует различные части тела. Скажете, эта проблема должна решаться коммунальщиками — да, так и есть, но они часто не доглядывают за состоянием тротуаров и дворовых тропинок, а может быть и просто не знают, куда смотреть. Чтобы хоть как-то улучшить ситуацию, в решение проблемы все больше должны включаться современные технологии. Возможное улучшение — это приложение, в котором люди могут определить для себя наиболее безопасный маршрут из точки A в точку B, глядя на карту заледенелости. Итак, сегодня поговорим о создании системы оценки степени заледенелости улиц, основанной на статистике падений людей. Под катом машинное обучение, облака и мобильные приложения.

3 примера использования системы

Читать дальше →

+25

SmirkinDA Dec 20 2016 at 07:27

Подборка фреймворков для машинного обучения

7 min

49K

Parallels corporate blogProgramming * Machine learning * Robotics

В последние годы машинное обучение превратилось в мейнстрим небывалой силы. Эта тенденция подпитывается не только дешевизной облачных сред, но и доступностью мощнейших видеокарт, применяемых для подобных вычислений, — появилась ещё и масса фреймворков для машинного обучения. Почти все из них open source, но куда важнее то, что эти фреймворки проектируются таким образом, чтобы абстрагироваться от самых трудных частей машинного обучения, делая эти технологии более доступными широкому классу разработчиков. Под катом представлена подборка фреймворков для машинного обучения, как недавно созданных, так переработанных в уходящем году. Если у вас все хорошо с английским, то статья в оригинале доступна здесь.

Читать дальше →

+29

adev_one Dec 19 2016 at 11:14

RxJava. Убираем магию

4 min

43K

Java * Development for Android *

Я долго боялся использовать RxJava в production. Её назначение и принцип работы оставались для меня загадкой. Чтение исходного кода не добавляло ясности, а статьи только путали. Под катом попытка ответить на вопросы: «Какие задачи эта технология решает лучше аналогов?» и «Как это работает?» с помощью аналогий с классической Java и простых метафор.

Читать дальше →

+10

wunder_editor Dec 19 2016 at 18:05

Статьи, лежащие в основе подхода Facebook к компьютерному зрению

8 min

14K

Wunder Fund corporate blogMachine learning * Algorithms *

Translation

Знаете такую компанию — Facebook? Да-да, ту самую, у сайта которой 1,6 миллиардов пользователей. И если взять все посты-поздравления с днем рождения, ваши позорные детские фотографии (у меня они такие), того дальнего родственника, лайкающего каждый ваш статус, — и вот вам множество данных для анализа.

С точки зрения анализа изображений Facebook весьма далеко продвинулся со сверточными нейронными сетями (Convolutional Neural Network, CNN). В августе подразделение Facebook по исследованиям в области искусственного интеллекта (Facebook AI Research, сокращенно FAIR) опубликовала блог-пост об алгоритмах компьютерного зрения, которые лежат в основе некоторых их алгоритмов сегментации изображений. В этом посте мы кратко изложим и разъясним три статьи, на которые ссылается этот блог.

Читать дальше →

+15

Knjazh Dec 19 2016 at 06:24

Скорочтение. Как читать в восемь раз быстрее, если тебя преследуют демоны

4 min

171K

SmartProgress corporate blogStudying in ITReading room

Tutorial

Автор иллюстрации — John Kenn

После того как я стал равнодушен к своему магазину и закрыл его, надо мной нависли три демона: СХУ, депрессия и прокрастинация. Они тянули меня в пучину безысходности, и с каждый днем я погружался все глубже. К психологу идти я был не готов и начал искать выход сам.

Решив, что в этой проблеме не одинок — я начал искать ответ в книгах. Начитавшись умных книжек и статей, я составил список из 100 книг к прочтению, которые выдернут меня из когтей демонов.

Моего терпения хватило на шесть книг, после этого я забросил свой список. Ведь это занимало так много времени, а мне его категорически не хватало. Хотя я не знал на что его тратить.

Мой ридлист провалялся нетронутым месяц, потом в какой-то из статей я наткнулся на рекомендуемые к прочтению книги и среди «100 книг которые должен прочесть каждый» было «Скорочтение» Питера Кампа.

Изучив метод предлагаемый автором мне удалось повысить скорость чтения. С автором я согласен не во всем, но некоторые способы были полезны. Об основных методах и будет эта статья.

Читать дальше →

+32

b0noII Dec 16 2016 at 07:39

Chatbot на базе рекуррентной нейронной сети своими руками за 1 вечер/6$ и ~ 100 строчек кода

10 min

115K

Tutorial

Translation

В данной статье я хочу показать насколько просто сегодня использовать нейронные сети. Вокруг меня довольно много людей одержимы идеей того, что нейронки может использовать только исследователь. И что бы получить хоть какой то выхлоп, нужно иметь как минимуму кандидатскую степень. А давайте на реальном примере посмотрим как оно на самом деле, взять и с нуля за один вечер обучить chatbot. Да еще не просто абы чем а самым что нинаесть ламповым TensorFlow. При этом я постарался описать все настолько просто, что-бы он был понятен даже начинающему программисту! В путь!

Читать дальше →

+48

m31 Dec 15 2016 at 10:30

Вебинар: Введение в Data Science

1 min

6.2K

FlyElephant corporate blogBig Data * Data Mining * High performance * Machine learning *

Команда FlyElephant приглашает всех 21 декабря в 18.00 (EET) на вебинар «Введение в Data Science». В его рамках мы рассмотрим на примерах, что такое Data Science, Data Mining, Machine Learning и Deep Learning, кто такой data scientist и какими инструментами он пользуется для сбора, хранения, обработки и визуализации данных. Поговорим о платформе FlyElephant и чем она может быть полезна для работы data scientist’а.

Зарегистрироваться на вебинар можно здесь.

+10

AlexeyR Dec 15 2016 at 21:17

Логика сознания. Часть 9. Искусственные нейронные сети и миниколонки реальной коры

26 min

56K

Programming * Algorithms * Image processing * Machine learning * Robotics

Приходит ветеринар к терапевту. Терапевт: — На что жалуетесь? Ветеринар: — Нет, ну так каждый может!

Искусственные нейронные сети способны обучаться. Воспринимая множество примеров, они могут самостоятельно находить в данных закономерности и выделять скрытые в них признаки. Искусственные нейронные сети во многих задачах показывают очень неплохие результаты. Закономерный вопрос — насколько нейронные сети похожи на реальный мозг? Ответ на этот вопрос важен главным образом для того, чтобы понять, можно ли, развивая идеологию искусственных нейронных сетей, добиться того же, на что способен человеческий мозг? Важно понять, носят ли различия косметический или идеологический характер.

Как это ни удивительно, но очень похоже, что реальный мозг противоречит всем базовым принципам искусственных нейронных сетей. Это вдвойне удивительно, учитывая, что изначально искусственные нейронные сети создавались как попытка воспроизвести именно биологические механизмы. Но в том и коварство подобных ситуаций. Очень часто то, что на первый взгляд выглядит правдоподобно, на поверку оказывается полной противоположностью того, что есть на самом деле.

Читать дальше →

+34

imalion Dec 15 2016 at 07:55

Яндекс использовал нейросеть и научился прогнозировать осадки с точностью до минут

6 min

62K

Яндекс corporate blogMachine learning * Mathematics * Algorithms *

Сегодня я вновь хотел бы поговорить с вами о погоде. Вновь — потому что почти год назад мы уже о ней разговаривали: я рассказал про нашу технологию построения прогнозов Метеум, основанную на метеомоделировании и машинном обучении. Теперь я хочу поговорить не о той погоде, которая будет завтра, на следующей неделе или в новогоднюю ночь, — а о той, которая уже установилась за окном, и о той, которая наступит в ближайшие несколько часов.

Под катом я расскажу о том, что такое наукастинг и как мы над ним работали.

Читать дальше →

+105

Indexator Dec 14 2016 at 17:32

Создайте свои собственные “Нейронные Картины” с помощью Глубокого Обучения

3 min

21K

Machine learning * Open source *

Tutorial

Translation

Нейронные сети могут делать много разных вещей. Они могут понимать наши голоса, распознавать изображения и переводить речь, но знаете ли вы, что еще они умеют рисовать? Изображение сверху демонстрирует некоторые сгенерированные результаты применения нейронного рисования.

Сегодня я собираюсь познакомить вас с тем как это делается. Прежде всего, убедитесь, что у вас обновленная копия Ubuntu (14.04 — та, что использовал я). Вам необходимо иметь несколько гигов свободного пространства на жестком диске и в оперативной памяти, хотя бы не менее 6 GB (больше оперативки для больших выводимых разрешений). Для запуска Ubuntu как виртуальной машины, вы можете использовать Vagrant вместе с VirtualBox.

Читать дальше →

+31

mnv Dec 14 2016 at 11:50

Синтаксический анализ текстов с помощью SyntaxNet

4 min

39K

PHP * Python * Algorithms * Machine learning * Programming *

Для одной из задач мне понадобился синтаксический анализатор русскоязычных текстов. Что это такое. Например, у нас есть предложение «Мама мыла раму». Нам нужно получить связи слов в этом предложении в виде дерева:

Из этого дерева понятно, что связаны слова «мама» и «мыла», а также «мыла» и «раму», а слова «мама» и «раму» напрямую не связаны.

Статья будет полезна тем, кому понадобился синтаксический анализатор, но не понятно, с чего начать.

Я занимался этой темой несколько месяцев назад, и на тот момент нашел не много информации по поводу того, где бы взять готовый и желательно свободный анализатор.

Читать дальше →

+26

Schvepsss Dec 13 2016 at 13:10

Как выбирать алгоритмы для машинного обучения Microsoft Azure

12 min

36K

Microsoft corporate blogMicrosoft Azure * Algorithms * Machine learning *

Translation

В статье вы найдете шпаргалку по алгоритмам машинного обучения Microsoft Azure, которая поможет вам выбрать подходящий алгоритм для ваших решений предиктивной аналитики из библиотеки алгоритмов Microsoft Azure. А также вы узнаете, как ее использовать.

Читать дальше →

+21

itmo Dec 12 2016 at 07:50

Дайджест Университета ИТМО: Подборка ресурсов по искусственному интеллекту

5 min

9.7K

ITMO corporate blogDevelopment for e-commerce * Programming * Machine learning * System Analysis and Design *

Искусственный интеллект оброс большим количеством мифов, обещающих страшные полуфантастические сценарии. Поэтому мы решили составить подборку (прошлый выпуск нашего дайджеста о резидентах наших акселераторов) надежных источников не только об этой области и ее истории, но и о перспективных направлениях развития и конкретных исследованиях, проводящихся как в России, так и за рубежом.

Читать дальше →

+15

KomarovI Dec 7 2016 at 10:50

Dual-pane с использованием фрагментов

12 min

4K

Development for Android *

Tutorial

Небольшое введение, или зачем все это нужно

Не так давно мне потребовалось реализовать переключение между single-pane и dual-pane режимами при повороте экрана. Поскольку готовые решения, которые удалось найти, меня не устроили, то пришлось изощряться и изобретать собственный велосипед.

Альтернативный текст

В документации, а также в нотациях material design указывается, что при стандартной обработке поворота экрана, место может задействоваться неэффективно, а потому следует выделять два режима: single-pane (на экране присутствует один фрагмент, находящийся внизу иерархии) и dual/multi-pane (пользователю предлагается взаимодействовать с несколькими фрагментами, идущими последовательно в иерархии)

Все подходы для решения данной задачи, которые я видел, использовали либо ViewPager, либо дополнительную Activity. Я же решил данный кейс в несколько ином виде, использовав лишь FragmentManager и два контейнера.

Читать дальше →

+1

wunder_editor Dec 6 2016 at 12:02

Особенности Jupyter Notebook, о которых вы (может быть) не слышали

10 min

375K

Wunder Fund corporate blogPython * Programming *

Translation

Jupyter Notebook – это крайне удобный инструмент для создания красивых аналитических отчетов, так как он позволяет хранить вместе код, изображения, комментарии, формулы и графики:

Ниже мы расскажем о некоторых фишках, которые делают Jupyter очень крутым. О них можно прочитать и в других местах, но если специально не задаваться этим вопросом, то никогда и не прочитаешь.

Читать дальше →

+38

snowman647 Dec 2 2016 at 14:44

Как создать торгового робота с помощью генетического программирования

15 min

34K

Algorithms * Machine learning * Programming *

Доброго времени суток. В этой статье расскажу о создании системы в которой генетические алгоритмы пишут роботов. В теории эти роботы могли бы торговать на бирже.

Я фанат трех вещей — искусственного интеллекта, высокопроизводительных машин и практического применения любых знаний. Имея некоторое свободное время, я спроектировал небольшую задачку, приобрел железо и сел творить.

Проект возник из желания попробовать на практике генетическое программирование. Первым вариантом было создавать бота к какой-нибудь игре, но я остановился на торговых роботах, где биржа тоже своего рода игра.

Читать дальше →

+22

Karaoke Nov 22 2016 at 13:32

Обучаемся самостоятельно: подборка видеокурсов по Computer Science

11 min

131K

Edison corporate blogAlgorithms * Mathematics * Machine learning * Programming *

Translation

Содержание

+47

vyalow Jan 18 2009 at 09:48

Осваиваем Python. Унция ноль. Введение.

4 min

127K

Предыстория

Присоединяюсь к MaxElc, DarwinTenk и Devgru :) Начинаю цикл статей посвященных Python. Сам я имею некоторый опыт обращения с PHP и Java. Но каждый раз, при относительном освоении какого-то инструмента — оставалось определённое неудовлетворение им, связанное с чем-то конкретным, и поиски продолжались. На сегодняшний день наиболее близко к идеалу в моих глазах стоит Python. Идеал недостижим — это понятно, посему и у Python есть недостатки. Прежде всего — это скорость выполнения, однако, эта проблема решаема несколькими путями и об этом мы обязательно поговорим чуть позднее.
Сам я начал осваивать Python буквально недавно. Начиная этот цикл статей — я преследую несколько целей. Во-первых, это дополнительная само мотивация + интерактивность, во-вторых, опыт. В-третьих, блуждая по просторам рунета — вижу, что Python куда менее популярен, чем в мире. Ситуацию надо исправлять :)
В соответствии с идеологией Python, а именно с тем, что одни из главных его козырей — это быстрота в освоении и скорость разработки, мы достаточно быстро, практически тезисно пронесёмся по основам синтаксиса и построения программ и перейдём к основной цели данного цикла — освоение django.
Итак, мы начинаем.

Читать дальше →

+66

cleg Jul 23 2008 at 20:59

Основы Python — кратко. Строки.

4 min

259K

Поскольку число положительных отзывов превысило число отрицательных, продолжу выкладывание уроков. Те кто уже знаком с основами — можете или просто пропустить урок, или попробовать сделать задание 3 самым коротким способом :)

Для начала маленькое замечание.

Начиная с Python 2.3, всем, кто использует не-ASCII кодировку нужно добавлять указание о кодировке в самом начале программы. Для русского языка это будет в основном:

# -*- coding: cp1251 -*-

или использовать для хранения исходных текстов файлы utf-8 (что предпочтительней).

Изучив управление числами, пришла пора осваивать строки. Пайтон обладает весьма богатым набором возможностей в этой области.

Строки

Существует множество способов задать строку в Пайтоне...

+43

1 2 ...

22