Все потоки

Илья Захаркин@izakharkin

Computer Vision & Graphics RnD

ПрофильСтатьи3ПостыНовостиКомментарии19

@gudvinr 18 июл 2016 в 13:24

Транспорт-бот Jabber конференций для Telegram

7 мин

24K

Open source * Python * Мессенджеры *

Из песочницы

Доброго времени суток.

В один прекрасный день, после значительного перерыва, судьба вновь столкнула меня с jabber-конференциями. Правда, среди знакомых jabber уже никто не использует, 2007 год канул в лету, а основным средством общения стал Telegram. Поддержка XMPP на мобильных устройствах оставляла желать лучшего — клиенты на Android хороши каждый в чём-то одном, с iOS и WP всё мягко скажем, не очень. И особенности протокола тоже сказываются на автономности. Поэтому возникла мысль: а не сделать ли бота, которой будет транслировать сообщения из конференций в чат Telegram?

В качестве инструментов использовались:

Python 3.5
aiohttp для API Telegram
slixmpp для xmpp
gunicorn как wsgi сервер
nginx как фронтенд и прокси для gunicorn
VS Code в качестве IDE

Читать дальше →

+15

@grigoryvp 5 мая 2017 в 11:32

Необычный хакатон 20-21 мая: S7 Airlines

2 мин

6.8K

Блог компании VoximplantХакатоны

Уже много лет я веду хакатоны. А Voximplant помогает их организовывать: отправляет меня, предоставляет призы, рассказывает на Хабре. Через две недели состоится хакатон S7, который очень необычен. Это я говорю как человек, который их провел уже несколько десятков.

Самое важное о хакатоне:

Его проводит авиакомпания, чтобы усилить свой бренд как место, где хорошо работать. На площадке будут разработчики компании, у которых вы сможете не только узнать, как и что они делают, но и поинтересоваться, как на самом деле падают самолеты, какой сейчас овербукинг и как правильно хакнуть программу лояльности. Им просто некуда будет деться;
Это один из немногих хакатонов, куда приглашаются не все желающие. Чтобы потусоваться с нами два дня на площадке, нужно выполнить небольшое задание, после чего коллеги из S7 отберут 50 лучших команд. Иногородним они обеспечат трансфер в Москву;
Хакатон проводится в Парке Горького в коворкинге «Рабочая Станция». Природа, солнце, шашлыки, вот это всё;
Это будет первый хакатон, на котором я опробую новую систему оценки проектов, подсмотренную на Финском Junction. Она обещает ускорить и упростить все в разы. Конечно, если я ничего в процессе не пофейлю.

Немного подробностей и ваши вопросы под катом

+20

@Ferres 27 апр 2017 в 11:36

PyMC3 — MCMC и не только

17 мин

24K

Блог компании Open Data ScienceМашинное обучение * Математика * Python * Data Mining *

PyMC3 — МСМС и не только

Привет, Хабрахабр!

В этом посте уже упоминался PyMC3. Там можно почитать про основы MCMC-сэмплирования. Здесь я расскажу про вариационный вывод (ADVI), про то, зачем все это нужно и покажу на довольно простых примерах из галереи PyMC3, чем это может быть полезно. Одним из таких примеров будет байесовская нейронная сеть для задачи классификации, но это в самом конце. Кому интересно — добро пожаловать!

Читать дальше →

+33

@alex4321 4 июл 2016 в 10:29

Классификатор на word2vec

3 мин

19K

Машинное обучение *

После недавнего диалога возник вопрос поиска классификаторов, способных работать с текстами на русском языке без костылей в виде сборки watson-го NLC и bing translator-а. Решено было свелосипедить макет. За основу взят word2vec для получения векторного представления примеров и пользовательского ввода. Больше примеров работы с ним можно найти, например — тут. Кстати, вопрос более опытным — нет ли более подходящей альтернативы? Классифицировать объемные тексты не планируется. Напомню, что word2vec позволяет получать векторное представление переданного слова (к полученным векторам можно применить сложение/вычитание и умножение на численный коофициент). При этом вектор будет в пространстве, в котором в качестве осей — применим «связанные» слова.

Код на https://github.com/alex4321/word2vec-nlc. Написан с применением gensim. Применялась эта модель (работающая с английским языком) GoogleNews-vectors-negative300.bin.gz.

Читать дальше →

0

@Arseny_Info 3 апр 2017 в 11:07

Открытый курс машинного обучения. Тема 6. Построение и отбор признаков

24 мин

203K

Блог компании Open Data ScienceData Mining * Python * Алгоритмы * Машинное обучение *

Сообщество Open Data Science приветствует участников курса!

В рамках курса мы уже познакомились с несколькими ключевыми алгоритмами машинного обучения. Однако перед тем как переходить к более навороченным алгоритмам и подходам, хочется сделать шаг в сторону и поговорить о подготовке данных для обучения модели. Известный принцип garbage in – garbage out на 100% применим к любой задаче машинного обучения; любой опытный аналитик может вспомнить примеры из практики, когда простая модель, обученная на качественно подготовленных данных, показала себя лучше хитроумного ансамбля, построенного на недостаточно чистых данных.

UPD 01.2022: С февраля 2022 г. ML-курс ODS на русском возрождается под руководством Петра Ермакова couatl. Для русскоязычной аудитории это предпочтительный вариант (c этими статьями на Хабре – в подкрепление), англоговорящим рекомендуется mlcourse.ai в режиме самостоятельного прохождения.

Читать дальше →

+49

@miptgirl 20 авг 2016 в 19:30

Немного про кино или как делать интерактивные визуализации в python

5 мин

72K

Python * Визуализация данных *

Введение

В этой заметке я хочу рассказать о том, как можно достаточно легко строить интерактивные графики в Jupyter Notebook'e с помощью библиотеки plotly. Более того, для их построения не нужно поднимать свой сервер и писать код на javascript. Еще один большой плюс предлагаемого подхода — визуализации будут работать и в NBViewer'e, т.е. можно будет легко поделиться своими результатами с коллегами. Вот, например, мой код для этой заметки.

Для примеров я взяла скаченные в апреле данные о фильмах (год выпуска, оценки на КиноПоиске и IMDb, жанры и т.д.). Я выгрузила данные по всем фильмам, у которых было хотя бы 100 оценок — всего 36417 фильмов. Про то, как скачать и распарсить данные КиноПоиска, я рассказывала в предыдущем посте.

Читать дальше →

+50

@miptgirl 6 мар 2017 в 12:58

Открытый курс машинного обучения. Тема 2: Визуализация данных c Python

15 мин

466K

Блог компании Open Data ScienceМашинное обучение * Визуализация данных * Python * Data Mining *

Второе занятие посвящено визуализации данных в Python. Сначала мы посмотрим на основные методы библиотек Seaborn и Plotly, затем поанализируем знакомый нам по первой статье набор данных по оттоку клиентов телеком-оператора и подглядим в n-мерное пространство с помощью алгоритма t-SNE. Есть и видеозапись лекции по мотивам этой статьи в рамках второго запуска открытого курса (сентябрь-ноябрь 2017).

UPD 01.2022: С февраля 2022 г. ML-курс ODS на русском возрождается под руководством Петра Ермакова couatl. Для русскоязычной аудитории это предпочтительный вариант (c этими статьями на Хабре – в подкрепление), англоговорящим рекомендуется mlcourse.ai в режиме самостоятельного прохождения.

Сейчас статья уже будет существенно длиннее. Готовы? Поехали!

Читать дальше →

+49

@cotique 28 фев 2017 в 09:45

Открытый курс машинного обучения. Тема 1. Первичный анализ данных с Pandas

Простой

15 мин

1.2M

Блог компании Open Data ScienceData Mining * Python * Визуализация данных * Машинное обучение *

Туториал

Открытый курс машинного обучения mlcourse.ai сообщества OpenDataScience – это сбалансированный по теории и практике курс, дающий как знания, так и навыки (необходимые, но не достаточные) машинного обучения уровня Junior Data Scientist. Нечасто встретите и подробное описание математики, стоящей за используемыми алгоритмами, и соревнования Kaggle Inclass, и примеры бизнес-применения машинного обучения в одном курсе. С 2017 по 2019 годы Юрий Кашницкий yorko и большая команда ODS проводили живые запуски курса дважды в год – с домашними заданиями, соревнованиями и общим рейтингом учаcтников (имена героев запечатлены тут). Сейчас курс в режиме самостоятельного прохождения.

Читать дальше →

+39

@Valr 5 авг 2015 в 18:58

Введение в машинное обучение с помощью scikit-learn (перевод документации)

6 мин

109K

Python * Машинное обучение *

Из песочницы

Данная статья представляет собой перевод введения в машинное обучение, представленное на официальном сайте scikit-learn.

В этой части мы поговорим о терминах машинного обучения, которые мы используем для работы с scikit-learn, и приведем простой пример обучения.

Машинное обучение: постановка вопроса

В общем, задача машинного обучения сводится к получению набора выборок данных и, в последствии, к попыткам предсказать свойства неизвестных данных. Если каждый набор данных — это не одиночное число, а например, многомерная сущность (multi-dimensional entry или multivariate data), то он должен иметь несколько признаков или фич.

Машинное обчение можно разделить на несколько больших категорий:

обучение с учителем (или управляемое обучение). Здесь данные представлены вместе с дополнительными признаками, которые мы хотим предсказать. (Нажмите сюда, чтобы перейти к странице Scikit-Learn обучение с учителем). Это может быть любая из следующих задач:

классификация: выборки данных принадлежат к двум или более классам и мы хотим научиться на уже размеченных данных предсказывать класс неразмеченной выборки. Примером задачи классификации может стать распознавание рукописных чисел, цель которого — присвоить каждому входному набору данных одну из конечного числа дискретных категорий. Другой способ понимания классификации — это понимание ее в качестве дискретной (как противоположность непрерывной) формы управляемого обучения, где у нас есть ограниченное количество категорий, предоставленных для N выборок; и мы пытаемся их пометить правильной категорией или классом.
регрессионный анализ: если желаемый выходной результат состоит из одного или более непрерывных переменных, тогда мы сталкиваемся с регрессионным анализом. Примером решения такой задачи может служить предсказание длинны лосося как результата функции от его возраста и веса.

обучение без учителя (или самообучение). В данном случае обучающая выборка состоит из набора входных данных Х без каких-либо соответствующих им значений. Целью подобных задач может быть определение групп схожих элементов внутри данных. Это называется кластеризацией или кластерным анализом. Также задачей может быть установление распределения данных внутри пространства входов, называемое густотой ожидания (density estimation). Или это может быть выделение данных из высоко размерного пространства в двумерное или трехмерное с целью визуализации данных. (Нажмите сюда, чтобы перейти к странице Scikit-Learn обучение без учителя).

Читать дальше →

+14

@VanSuede 21 апр 2017 в 10:23

Предсказываем популярность статьи на TJ

10 мин

11K

Data Mining * Python * Машинное обучение *

Из песочницы

Однажды томным вечером, сидя напротив мелькающей ленты tjournal и попивая ромашковый чай, внезапно обнаружил себя за чтением статьи про советскую лампочку, которая освещала чей-то подъезд уже 80 лет. Да, весьма интересно, но все же я предпочитаю статьи про ~~политику~~ достижения ИИ в игре дум, приключения ракет SpaceX и, в конце концов, — с наибольшим кол-вом просмотров. А какие вообще статьи набирают внушительные рейтинги? Посты размером с твит про какую-то политическую акцию или же талмуды с детальным анализом российской киноиндустрии? Ну что же, тогда самое время расчехлять свой Jupyter notebook и выводить формулу идеальной статьи.

Читать дальше →

+16

@tensor_sbis 18 апр 2017 в 14:16

Здравствуй, Хабр

3 мин

25K

Блог компании ТензорБиллинговые системы * Разработка мобильных приложений * Linux * Windows *

Тензор уже более 20 лет работает на рынке программного обеспечения. Бухгалтер, который выдает вам зарплату, точно знает, кто мы, и что мы делаем. А вот в IT-сфере мы о себе специально не заявляли. Пришло время это изменить и познакомиться.

Электронная отчетность, электронный документооборот, поиск и анализ закупок, корпоративная соцсеть, видеокоммуникации, управление персоналом – это лишь часть наших сервисов. Мы автоматизируем рабочие процессы и превращаем их в «несколько кликов».

Работать в СБИС можно офлайн, онлайн и в мобильном приложении.

Не будем грузить вас рассказами о нашем продукте. Если интересно, то вот здесь мы в буковках и картинках рассказали о нем все.

Почему мы – интересные и полезные?

Для разработки своих продуктов (online сервисов, desktop и мобильных приложений) мы используем собственный PaaS-фреймворк.

Backend фреймворк мы пишем на С++, при этом прикладной код можно писать как на С++, так и на Python или Javascript, для этого ко всем встроенным типам сделаны bridges. Помимо встроенных типов и системы вызовов (remoting, IPC, inproc), важной частью фреймворка является сервер приложения, который работает быстрее сервера Node.JS на аналогичном железе, но об этом чуть позже в отдельной статье.

Читать дальше →

+22

@Developers_Relations 7 апр 2017 в 13:53

Surf Studio: машинное обучение в production

8 мин

11K

Блог компании Google DevelopersGoogle Cloud Platform * Машинное обучение *

Представляем гостевой пост от компании Surf Studio (Certified Google Developer Agency).

Привет, Хабр. Меня зовут Александр Ольферук (@olferuk), я занимаюсь машинным обучением в Surf. С 2011 года мы разрабатываем мобильные приложения для крупного бизнеса, а теперь готовим к релизу B2B-продукт с TensorFlow. Спасибо коллегам из Google за возможность рассказать немного о нашем опыте.

В современном машинном обучении много энтузиастов, но критически не хватает профессионалов. В нашей команде я вживую наблюдал превращение таких энтузиастов в специалистов с боевым опытом. Разрабатывая первый для нас коммерческий продукт, связанный с машинным обучением, команда столкнулась с кучей нюансов. Всеми любимые соревнования на Kaggle оказались очень далеки от решения задач реального бизнеса. Сейчас хочу поделиться опытом, показать примеры и рассказать немного о том, через что мы прошли.

Читать дальше →

+10

@ru_vds 7 апр 2017 в 12:58

Bash-скрипты, часть 2: циклы

8 мин

915K

Блог компании RUVDS.comНастройка Linux * Серверное администрирование *

Перевод

Bash-скрипты: начало
Bash-скрипты, часть 2: циклы
Bash-скрипты, часть 3: параметры и ключи командной строки
Bash-скрипты, часть 4: ввод и вывод
Bash-скрипты, часть 5: сигналы, фоновые задачи, управление сценариями
Bash-скрипты, часть 6: функции и разработка библиотек
Bash-скрипты, часть 7: sed и обработка текстов
Bash-скрипты, часть 8: язык обработки данных awk
Bash-скрипты, часть 9: регулярные выражения
Bash-скрипты, часть 10: практические примеры
Bash-скрипты, часть 11: expect и автоматизация интерактивных утилит

В прошлый раз мы рассказали об основах программирования для bash. Даже то немногое, что уже разобрано, позволяет всем желающим приступить к автоматизации работы в Linux. В этом материале продолжим рассказ о bash-скриптах, поговорим об управляющих конструкциях, которые позволяют выполнять повторяющиеся действия. Речь идёт о циклах for и while, о методах работы с ними и о практических примерах их применения.

Внимание: в посте спрятана выгода!

Читать дальше →

+20

@ingles 5 апр 2017 в 09:20

Несколько полезных команд для работающих в терминале Linux

1 мин

20K

Настройка Linux * *nix *

Из песочницы

Загрузка файла по ссылке с возможностью продолжить загрузку, например, при обрыве соединения:

wget -c http://link/file

Просмотр записи в текстовый файл в реальном времени:

tailf file

Узнать время выполнения команды:

time command

Слежение за изменениями в выводе команды:

watch command

Сочетание клавиш для закрытия текущей сессии в bash и различных утилитах, например клиент MySQL:

Ctrl-D

Быстрое создание резервной копии файла:

cp file{,.copy}

Читать дальше →

-6

@webglazok 5 апр 2017 в 10:30

Облачное видеонаблюдение из веб-камеры и роутера

5 мин

60K

Я пиарюсь

Из песочницы

Если вы хотите установить у себя дома систему видеонаблюдения, но изучив цены на камеры и видеорегистраторы, такая идея пропадает, то давайте рассмотрим бюджетный вариант с использованием веб-камеры и роутера.

Нам понадобятся:

роутер TP-Link TL-MR3020
веб-камера (с поддержкой MJPEG)
USB-хаб
USB-флешка

Веб-камера и USB-флешка подключаются к USB-порту роутера через USB-хаб. На роутер устанавливается прошивка WebGlazok. Прошивка создана на базе OpenWrt и использует программу детектор движения Motion.

Получаем простую систему видеонаблюдения с функцией обнаружением движения и облачного хранения, которая не требует включенного компьютера, видеорегистратора и белого IP-адреса.

Читать дальше →

+21

@AloneCoder 6 мар 2017 в 12:54

Я написал самую быструю хеш-таблицу

29 мин

74K

Блог компании VKВысоконагруженные системы * Анализ и проектирование систем * Алгоритмы * C++ *

Перевод

В конце концов я должен был к этому прийти. Когда-то я опубликовал статью «Я написал быструю хеш-таблицу», а потом ещё одну — «Я написал ещё более быструю хеш-таблицу». Теперь я завершил работу над самой быстрой хеш-таблицей. И под этим я подразумеваю, что реализовал самый быстрый поиск по сравнению со всеми хеш-таблицами, какие мне только удалось найти. При этом операции вставки и удаления также работают очень быстро (хотя и не быстрее конкурентов).

Я использовал хеширование по алгоритму Robin Hood с ограничением максимального количества наборов. Если элемент должен быть на расстоянии больше Х позиций от своей идеальной позиции, то увеличиваем таблицу и надеемся, что в этом случае каждый элемент сможет быть ближе к своей желаемой позиции. Похоже, такой подход действительно хорошо работает. Величина Х может быть относительно невелика, что позволяет реализовать некоторые оптимизации внутреннего цикла поиска по хеш-таблице.

Если вы хотите только попробовать её в работе, то можете скачать отсюда. Либо пролистайте вниз до раздела «Исходный код и использование». Хотите подробностей — читайте дальше.

Читать дальше →

+113

@neru 1 апр 2017 в 08:09

Несколько аргументов против Dependency Injection и Inversion of Control

9 мин

22K

Программирование * Анализ и проектирование систем *

Помнится, во времена .NET 1.1 и 2.0 можно было часто увидеть пророчества майкрософтовских евангелистов, мол, скоро любая домохозяйка сможет создавать сайты и писать программы. Большинство программистов посмеялось, но, как выяснилось, кто-то отнёсся к этому серьёзно. Во всяком случае, это объясняет, почему шаблоны проектирования IoC/DI получили второе дыхание в 2000-х, причём даже внутри самой MS (желаю Вам никогда в жизни не столкнуться с SCSF).

С точки зрения теории разработки ПО лично мне гораздо чаще приходилось читать или слышать хвалебные статьи и отзывы об IoC/DI, но, как всегда, критика тоже есть. Можно ознакомиться, например, здесь (англ.), здесь (англ.), тут (Хабр), ещё (англ.). В частности в вину ставится нарушение принципа инкапсуляции в ООП.

Читать дальше →

+4

@NE88 27 мар 2017 в 08:38

Победное решение конкурса ML Boot Camp III

5 мин

8.6K

Машинное обучение *

Из песочницы

Добрый день! В этой статье я хотел бы вкратце рассказать о решении которое принесло мне первое место на конкурсе по машинному обучению ML Boot Camp III от mail.ru.

Читать дальше →

+23

@poemmuse 23 июл 2014 в 20:14

Дюжина логических задач с собеседований

2 мин

329K

Программирование * Веб-разработка *

Не знаю, как у вас, но у меня любимая часть интервью — логические задачи.
Довелось пройти немало собеседований на вакансию разработчика, поэтому набралась небольшая коллекция.
Спешу поделиться с вами!

Некоторые задачи проще и широкоизвестные, другие заставляют хорошенько задуматься.
Ответы пока что публиковать не буду, надеюсь, вы сами сможете всё решить.
Предлагаю размять свой мозг…

Читать дальше →

+38

@miptgirl 23 мар 2017 в 11:01

Предсказываем будущее с помощью библиотеки Facebook Prophet

10 мин

137K

Блог компании Open Data ScienceData Mining * Python * Математика * Машинное обучение *

Прогнозирование временных рядов — это достаточно популярная аналитическая задача. Прогнозы используются, например, для понимания, сколько серверов понадобится online-сервису через год, каков будет спрос на каждый товар в гипермаркете, или для постановки целей и оценки работы команды (для этого можно построить baseline прогноз и сравнить фактическое значение с прогнозируемым).

Существует большое количество различных подходов для прогнозирования временных рядов, такие как ARIMA, ARCH, регрессионные модели, нейронные сети и т.д.

Сегодня же мы познакомимся с библиотекой для прогнозирования временных рядов Facebook Prophet (в переводе с английского, "пророк", выпущена в open-source 23-го февраля 2017 года), а также попробуем в жизненной задаче – прогнозировании числа постов на Хабрехабре.

Читать дальше →

+53

6

7 8 ...