Как стать автором
Поиск
Написать публикацию
Обновить
31.92

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга
Уровень сложности

Машинное обучение в горнолыжном спорте

Время на прочтение9 мин
Количество просмотров7.4K


В этой статье речь пойдет о возможностях применения машинного обучения для анализа биомеханики в горнолыжном спорте.

Изначально гипотеза об указанных возможностях свелась к следующему набору требований:

  • способность классифицировать технические элементы;
  • способность по определенной метрике сравнивать указанные элементы; находить нетривиальные особенности прохождения трассы, позволяющие минимизировать время;
  • способность строить прогнозы (например, на вторую попытку).
Читать дальше →

Распознавание дорожных знаков с помощью CNN: Инструменты для препроцессинга изображений

Время на прочтение11 мин
Количество просмотров27K
Привет, Хабр! Продолжаем серию материалов от выпускника нашей программы Deep Learning, Кирилла Данилюка, об использовании сверточных нейронных сетей для распознавания образов — CNN (Convolutional Neural Networks)

Введение


За последние несколько лет сфера компьютерного зрения (CV) переживает если не второе рождение, то огромный всплеск интереса к себе. Во многом такой рост популярности связан с эволюцией нейросетевых технологий. Например, сверточные нейронные сети (convolutional neural networks или CNN) отобрали себе большой кусок задач по генерации фич, ранее решаемых классическими методиками CV: HOG, SIFT, RANSAC и т.д.

Маппинг, классификация изображений, построение маршрута для дронов и беспилотных автомобилей — множество задач, связанных с генерацией фич, классификацией, сегментацией изображений могут быть эффективно решены с помощью сверточных нейронных сетей.


MultiNet как пример нейронной сети (трех в одной), которую мы будем использовать в одном из следующих постов. Источник.
Читать дальше →

Artisto: опыт запуска нейросетей в production

Время на прочтение21 мин
Количество просмотров17K
конференция разработчиков высоконагруженных систем HighLoad++

Эдуард Тянтов (Mail.ru Group)


Меня зовут Эдуард Тянтов, я занимаюсь машинным обучением в компании Mail.ru Group. Я расскажу про приложение стилизации видео с помощью нейронных сетей Artisto, про технологию, которая лежит в основе этого приложения.

Давайте я дам пару фактов о нашем приложении:

  • 1-е мобильное приложение стилизации видео в мире;
  • Уникальная технология стабилизации видео;
  • Приложение с технологией разработаны за 1 месяц.
Читать дальше →

Нестандартная кластеризация, часть 3: приёмы и метрики для кластеризации временных рядов

Время на прочтение16 мин
Количество просмотров49K
Часть первая — Affinity Propagation
Часть вторая — DBSCAN
Часть третья — кластеризация временных рядов
Часть четвёртая — Self-Organizing Maps (SOM)
Часть пятая — Growing Neural Gas (GNG)

Пока другие специалисты по машинному обучению и анализу данных выясняют, как прикрутить побольше слоёв к нейронной сети, чтобы она ещё лучше играла в Марио, давайте обратимся к чему-нибудь более приземлённому и применимому на практике.

Кластеризация временных рядов — неблагодарное дело. Даже при группировке статических данных часто получаются сомнительные результаты, что уж говорить про информацию, рассеянную во времени. Однако нельзя игнорировать задачу, только потому что она сложна. Попробуем разобраться, как выжать из рядов без меток немного смысла. В этой статье рассматриваются подтипы кластеризации временных рядов, общие приёмы и популярные меры расстояния между рядами. Статья рассчитана на читателя, уже имевшего дело с последовательностями в data science: о базовых вещах (тренд, ARMA/ARIMA, спектральный анализ) рассказываться не будет.

Читать дальше →

Поиск по документации InterSystems с помощью технологий iKnow и iFind

Время на прочтение7 мин
Количество просмотров2.8K
image

В СУБД InterSystems Caché есть встроенная технология работы с неструктурированных данными iKnow, а также технология полнотекстового поиска iFind. Решили разобраться с технологией и заодно сделать что-то полезное. В итоге получился DocSearch — Веб приложение для поиска по документации InterSystems, с использованием технологий iKnow и iFind.
Читать дальше →

Анализируем карьеру игроков NHL с помощью Survival Regression и Python

Время на прочтение6 мин
Количество просмотров9.8K
Привет, Хабр! Сегодня рассмотрим один из подходов к оценке временного риска, который основан на кривой выживаемости и одноименной регрессии, и применим его к анализу продолжительности карьеры игроков НХЛ.

Когда у данного пациента произойдет рецидив? Когда наш клиент уйдет? Ответы на подобные вопросы можно найти с помощью анализа выживания, который может быть использован во всех областях, где исследуется временной промежуток от «рождения» до «смерти» объекта, либо аналогичные события: период от поступления оборудования до его выхода из строя, от начала использования услуг компании и до отказа от них и т.д. Чаще всего данные модели используются в медицине, где необходимо оценить риск летального исхода у больного, чем и обусловлено название модели, однако они также применимы в сфере производства, банковском и страховом секторах.

image
Читать дальше →

Как тысячи игроков Eve Online помогают в расшифровке человеческого тела

Время на прочтение5 мин
Количество просмотров21K
От переводчика
Представляю вашему вниманию перевод статьи Мэта Камена (Matt Kamen) от 28 апреля 2016 года.
В статье рассказывается о том, какие возможности могут предоставить и предоставляют многопользовательские игры в решении важных проблем для всего человечества, связанных с необходимостью привлечения большого количества человеческих ресурсов.


image

Credit CCP Games
Читать дальше →

Чудесный мир Word Embeddings: какие они бывают и зачем нужны?

Время на прочтение19 мин
Количество просмотров146K

Начать стоит от печки, то есть с постановки задачи. Откуда берется сама задача word embedding?
Лирическое отступление: К сожалению, русскоязычное сообщество еще не выработало единого термина для этого понятия, поэтому мы будем использовать англоязычный.
Сам по себе embedding — это сопоставление произвольной сущности (например, узла в графе или кусочка картинки) некоторому вектору.


image

Читать дальше →

Можно ли уехать из Клинцов? (data mining of blablacar.ru)

Время на прочтение14 мин
Количество просмотров12K

Парсинг сайта blablacar.ru и анализ пассажиропотока из г. Клинцы Брянской области с помощью языка программирования R.


image

Читать дальше →

Чем занимались пиарщики РПЦ в день встречи Путина и Трампа на G20?

Время на прочтение2 мин
Количество просмотров32K


В рамках данной статьи мы будем проводить замеры динамики пульсации сущностей в информационном пространстве.
Читать дальше →

Видеозаписи с Avito Data Science meetup

Время на прочтение2 мин
Количество просмотров7.4K
Привет всем! Сегодня мы публикуем видеозаписи с митапа для профессионалов Data Science, который прошел в нашем московском офисе 24 июня. Под катом — доклады о построении рекомендательных систем от специалистов из Яндекс.Дзена, OZON.ru и Avito, а также подробные описания решений финалистов нашего конкурса, который прошел на площадке Dataring.ru. И, конечно, награждение его победителей!


Делаем data science-портфолио: история через данные

Время на прочтение28 мин
Количество просмотров29K
Предисловие переводчика

Перевод внезапно удачно попал в струю других датасайенсных туториалов на хабре. :)
Этот написан Виком Паручури, основателем Dataquest.io, где как раз и занимаются подобного рода интерактивным обучением data science и подготовкой к реальной работе в этой области. Каких-то эксклюзивных ноу-хау здесь нет, но очень подробно рассказан процесс от сбора данных до первичных выводов о них, что может быть интересно не только желающим составить резюме на data science, но и тем, кто просто хочет попробовать себя в практическом анализе, но не знает, с чего начать.


Data science-компании всё чаще смотрят портфолио, когда принимают решение о приёме на работу. Это, в  частности, из-за того, что лучший способ судить о практических навыках — именно портфолио. И хорошая новость в том, что оно полностью в вашем распоряжении: если постараетесь – сможете собрать отличное портфолио, которым будут впечатлены многие компании.

Читать дальше →

Футбол как точная наука: как Университет ИТМО помогает организаторам Кубка конфедераций и ЧМ-2018

Время на прочтение5 мин
Количество просмотров4.1K
Кубок конфедераций плавно подходит к концу – остается всего пара решающих матчей. Однако футбол – это не только красивая игра, но и повод для проведения серьезных научных исследований. В этом материале расскажем, как ученые Университета ИТМО работают над проектами, помогающими сделать просмотр футбольного матча на стадионе безопаснее и комфортнее.

Ближайшие события

Полезные функции Google Таблиц, которых нет в Excel

Время на прочтение8 мин
Количество просмотров345K
Cтатья написана в соавторстве с Ренатом Шагабутдиновым.

image

В этой статье речь пойдет о нескольких очень полезных функциях Google Таблиц, которых нет в Excel (SORT, объединение массивов, FILTER, IMPORTRANGE, IMAGE, GOOGLETRANSLATE, DETECTLANGUAGE)

Очень много букв, но есть разборы интересных кейсов, все примеры, кстати, можно рассмотреть поближе в Google Документе goo.gl/cOQAd9 (файл-> создать копию, чтобы скопировать файл себе на Google Диск и иметь возможность редактирования).
Читать дальше →

Data Science meetup в офисе Avito 24 июня

Время на прочтение3 мин
Количество просмотров5.3K
image

24 июня мы собираем специалистов по Data Science в нашем московском офисе, чтобы обменяться опытом в создании рекомендательных сервисов. На встрече мы подведём итоги проходившего на площадке Dataring.ru конкурса Avito на построение рекомендательной системы для объявлений: наградим победителей и попросим их подробнее рассказать о своих решениях. Кроме того, в программе интересные доклады от представителей Яндекс.Дзена, OZON.ru и, конечно же, Avito. Подробности под катом!
Читать дальше →

AgeHack — первый онлайн-хакатон по продлению жизни на платформе MLBootCamp

Время на прочтение3 мин
Количество просмотров9.4K


Сегодня, 15 июня, стартует чемпионат на платформе ML Boot Camp, посвященный проблемам здравоохранения и долголетия человечества. Чемпионат организован нами совместно с Insilico Medicine в сотрудничестве с Республиканским центром электронного здравоохранения при Министерстве здравоохранения Республики Казахстан. О том, почему это не очень обычный для нас конкурс — под катом.

Читать дальше →

Поддержка исследователей в области Deep Learning

Время на прочтение1 мин
Количество просмотров5K
Хабр, нам тут пришла одна идея… В настоящий момент у нас возникло некое межсезонье между разными образовательными программами. Мы подумали, зачем нашей инфраструктуре зря простаивать, когда есть люди, которые могли бы на этой инфраструктуре что-то классное сделать.

Мы решили сделать небольшой вклад в развитие deep learning в России и выделить 3 виртуальных сервера с GPU тем, кто что-то делает в этой области. 2 виртуалки мы решили отдать нашим выпускникам, а 1 виртуалку дать в пользование кому-то «со стороны».

image

Читать дальше →

Нейрокурятник: часть 4 — итоговая модель и код на прод

Время на прочтение10 мин
Количество просмотров13K
image

Типичный день в нейрокурятнике — куры часто еще и крутятся в гнезде

Чтобы довести, наконец, проект нейрокурятника до своего логического завершения, нужно произвести на свет работающую модель и задеплоить ее на продакшен, да еще и так, чтобы соблюдался ряд условий:

  • Точность предсказаний не менее 70-90%;
  • Raspberry pi в самом курятнике в идеале мог бы определять принадлежности фотографий к классам;
  • Нужно как минимум научиться отличать всех кур друг от друга. Программа максимум — также научиться считать яйца;

В данной статье мы расскажем что же в итоге у нас получилось, какие модели мы попробовали и какие занятные вещи нам попались на дороге.

Статьи про нейрокурятник

Заголовок спойлера
  1. Вступление про обучение себя нейросетям
  2. Железо, софт и конфиг для наблюдения за курами
  3. Бот, который постит события из жизни кур — без нейросети
  4. Разметка датасетов
  5. Работающая модель для распознавания кур в курятнике
  6. Итог — работающий бот, распознающий кур в курятнике

Нейрокурятник часть 3. Про разметку кур

Время на прочтение4 мин
Количество просмотров8.8K
И про то, что у кур тоже бывают психи.

image
Птица beauty в гнезде

Одна не сильно впечатляющая статья про разметку изображений кур.


Статьи про нейрокурятник

Заголовок спойлера
  1. Вступление про обучение себя нейросетям
  2. Железо, софт и конфиг для наблюдения за курами
  3. Бот, который постит события из жизни кур — без нейросети
  4. Разметка датасетов
  5. Работающая модель для распознавания кур в курятнике
  6. Итог — работающий бот, распознающий кур в курятнике

Что такое диалоговые системы, или Кое-что об Элизе

Время на прочтение4 мин
Количество просмотров14K

Диалоговые системы давно и прочно вошли в нашу жизнь. В заглавии упомянута и на картинке представлена ELIZA — диалоговая система-психоаналитик (сейчас, ее назвали бы чат-бот), родом из 60-ых годов. Если вам интересно, как человек дошел до общения с ботами-психоаналитиками и что еще есть интересного в диалоговых системах, добро пожаловать под кат.


image
Читать дальше →