Как стать автором
Поиск
Написать публикацию
Обновить
19.85

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга
Уровень сложности

Самообучающийся трекер объектов: как отслеживать цель в изменчивых условиях сцены

Время на прочтение16 мин
Количество просмотров16K

Специалисты по компьютерному зрению не один десяток лет бьются над трекингом объектов. Они перепробовали многое: от старой-доброй оценки движения оптическим потоком до сетей-трансформеров.

Есть один подход к трекингу, широко известный на западе, но о котором мало пишут по-русски: Incremental Visual Tracker (IVT). Это трекер объектов на основе модифицированного метода главных компонент: он самообучается на ходу и адаптируется к изменчивым условиям.

Давайте исследуем физиологию этого трекера, чем он интересен и где его можно применить — а затем изучим проблемы его реализации и нюансы использования. Под катом ссылка на репозиторий и много математики.

Читать далее

Как переносить данные откуда угодно куда угодно с помощью Meltano

Время на прочтение8 мин
Количество просмотров3.4K

Создание пайплайнов для трансфера данных — рутинная задача Data-инженеров. Чтобы ее решить, многие копируют код коннекторов из одного проекта в другой. Из-за копипаста общая структура ломается, и в перспективе может возникнуть трудность с поддержкой проекта.

Источников данных много — Яндекс.Директ, Google Analytics и другие. По отдельности они не дают нужной картины, — данные всё равно приходится собирать в один Data Warehouse. Тут на помощь приходит Meltano: он позволяет стандартизировать написание коннекторов к различным источникам данных и быстро перенести все нужные данные.

Читать далее

От идеи до внедрения: как построить систему анализа данных для промышленного предприятия

Время на прочтение5 мин
Количество просмотров5.4K

По данным Barc, ещё в 2015 году компании, использующие Big Data & Analytics, смогли на 8% увеличить доходы и на 10% снизить затраты. Сегодняшний тренд на цифровизацию и импортозамещение подталкивает руководителей активнее изучать и внедрять аналитику данных в работу своих предприятий. И если раньше анонсы о внедрении Big Data в основном были связаны с пилотными проектами, то сегодня промышленные компании всё чаще рассматривают работу с данными как важную часть корпоративной стратегии развития.

Мы занимаемся разработкой ПО для промышленных предприятий, и сегодня обладаем достаточной экспертизой о трудностях, которые могут возникать на каждом из этапов внедрения анализа данных, а также об инструментах для их решения. В этой статье мы разберём весь путь внедрения анализа больших данных на предприятии с использованием этих продуктов.

Читать далее

Руководство по Human Pose Estimation

Время на прочтение12 мин
Количество просмотров15K

Обычно эту задачу решают при помощи глубокого обучения.

Это одна из самых интересных областей исследований, получившая популярность благодаря своей полезности и универсальности — она находит применение в широком спектре сфер, в том числе в гейминге, здравоохранении, AR и спорте.

В этой статье приведён исчерпывающий обзор определения положения тела человека (Human Pose Estimation, HPE) и того, как оно работает. Также в ней рассматриваются различные подходы к решению задачи HPE — классические методы и методы на основе глубокого обучения, метрики и способы оценки, а также многое другое.
Читать дальше →

Как обезличить персональные данные

Время на прочтение8 мин
Количество просмотров11K

Для ML-моделей не нужны (и даже вредны) персональные данные. Но пригодятся данные, которые описывают не отдельных людей, а их группы, то есть обезличенные. Как их получить и как с ними работать? Как убедиться, что права того, чьи данные были взяты за основу, не нарушены? И где граница между персональными и анонимными данными?

Меня зовут Алексей Нейман, я исполнительный директор Ассоциации больших данных. В этой статье попробуем разобраться в этих вопросах.

Читать далее

Преимущества алго-трейдинга и важность анализа маркет-даты

Время на прочтение6 мин
Количество просмотров22K

Аннотация: в статье раскрываются основные понятия алготрейдинга. Отдельно рассмотрены хэдж-фонды, площадки для алготрейдинга, а также его преимущества. Отмечается, что алготрейдинг используется в банковском секторе и на крипторынке.

Ключевые слова: алготрейдинг, алгоритмическая торговля, трейдеры, хедж-фонды,

Понятие об алготрейдинге

Понятие алгоритмического трейдинга имеет два основных определения:

1) Алготрейдинг. Автосистема, которая может торговать без трейдера в заданном ей алгоритме. Система необходима для получения прямой прибыли за счёт автоанализа рынка и открытия позиций. Этот алгоритм ещё называют «торговым роботом» либо «советником».

2) Алгоритмическая торговля. Исполнение крупных ордеров на рынке, когда они в автоматическом порядке делятся на части и постепенно открываются в соответствии с заданными правилами.

Если упростить, алгоритмическая торговля — это автоматизация повседневных операций, выполняемых трейдерами, которая позволяет уменьшить время, необходимое для анализа информации об акциях, расчёта математических моделей и проведения транзакций.

Важно, что автоматизация процессов позволяет решить важнейшую проблему человеческого фактора. К данному фактору можно отнести эмоциональность, домыслы, интуицию, неверные прогнозы, ошибки мышления. Все это может препятствовать получению прибыли.

Автор статьи Ulangazy Askarbekov

Director of Quotex (HK) Limited

Читать далее

Как мы научились дистанционно оценивать техническое состояние автомобиля

Время на прочтение7 мин
Количество просмотров7.6K

Добрый день, коллеги! Меня зовут Елена Волченко. В компании Финолаб я являюсь руководителем отдела машинного обучения и анализа данных. Этой статьей я хочу начать цикл публикаций о создании нашей командой сервиса дистанционной оценки технического состояния автомобилей на основе технологий искусственного интеллекта.

Мой рассказ будет разделен на две части. В первой расскажу о потребностях и проблемах в дистанционной оценке повреждений автомобилей. Во второй - о том, как мы решали эту задачу с помощью нейронных сетей и классического machine learning, с какими проблемами сталкивались, каких результатов достигли и что еще предстоит сделать.

Читать далее

Smart Forms: Наш опыт автоматизации сбора данных

Время на прочтение11 мин
Количество просмотров5.6K

Привет, Хабр! Сегодня я хочу поговорить о проблеме автоматизации сбора данных. В этом посте мы обсудим, какие именно минусы несет сбор данных через файлы Excel, а также расскажем подробнее о наших собственных наработках по автоматизации сбора информации. Речь пойдет о практических аспектах применения инструмента Smart Forms, поэтому пост будет интересен в первую очередь пользователям решений Visiology, а также специалистам, которые организуют сбор информации или планируют это делать. Всех, у кого уже есть подобный опыт на любой платформе приглашаю присоединиться к обсуждению в комментариях.

Читать далее

Продвинутые методы Uplift-моделирования

Время на прочтение8 мин
Количество просмотров9.4K

Всем привет! Меня зовут Окунева Полина, я ведущий аналитик компании GlowByte. Сегодня я хочу рассказать о задаче Uplift-моделирования — частном случае такой большой сферы как Causal Inference, или причинно-следственный анализ, — и методах ее решения. Задачи такого типа важны во многих областях. Если вы сотрудник, например, продуктовой компании, то причинно-следственный анализ поможет сократить издержки на коммуникации с людьми, на которых она не повлияет. Если вы врач, то такой анализ подскажет, выздоровел пациент благодаря лекарству или из-за удачного стечения обстоятельств. 

Какого-то полноценного гайда по продвинутым методам Uplift-моделирования я не встретила ни в русско-, ни даже в англоязычном интернете, поэтому было огромное желание структурировать информацию и поделиться ею с интересующимися.

Читать далее

Майним технохардкор в сезоне Data Mining

Время на прочтение8 мин
Количество просмотров28K

С 5 сентября по 20 октября на Хабре проходит сезон Data Mining — конкурс технических статей для дата-сатанистов, знающих толк в оккультных практиках работы с данными.

Хабр проводит сезон вместе с SM Lab (IT-компанией «Спортмастера»). У них, кстати, открыта middle-вакансия для Data / ML Engineer.

Правила просты: вы пишете статью в хаб Data Mining и, если её рейтинг оказывается самым высоким, SM Lab отгружает вам игровой монитор и грант на написание следующего шедевра.

UPD. Сезон закончился, а подробности и победителя можно посмотреть в итоговом посте.

Читать далее

Бот или не бот — вот в чем вопрос

Время на прочтение36 мин
Количество просмотров9.3K

Идентификация пользователей интернета по "веб-отпечатку" (fingerprint) формирует новую реальность. Интернет теряет анонимность прямо сейчас. Это происходит не по причине насилия регулятора, а естественным путем вследствие появления доступной технологии защиты от ботов. Почему защита от ботов деанонимизировала людей, как это уже ударило по коммерции и как совсем скоро изменит общество в целом - популярно под катом.

Читать далее

NoRecSys. Машинное обучение — помощник в формировании ассортимента товаров для ритейла

Время на прочтение29 мин
Количество просмотров4.5K

Статья про другой взгляд на рекомендательные системы - определение самого неподходящего товара для покупателей.

Статья про то как определять спрос на новый товар, и как выявлять характеристики товара, из-за которых ритейл и интернет площадки теряют продажи.

Поделюсь как зародилась у меня идея прогнозировать антрейтинг для нового товара.

Читать далее

Концепция Data Mesh. Принципы, идеи, применение на практике

Время на прочтение5 мин
Количество просмотров15K

С чего началась наша компания? В первую очередь, конечно, с людей и с идеи. Как это обычно бывает, правильные люди абсолютно случайно познакомились друг с другом, и вот я здесь, сижу и пишу этот пост =) Была, однако, и ещё одна очень важная составляющая - данные...

Любой ML-проект начинается с анализа ландшафта доступных данных - что мы можем скачать, выгрузить, разметить, купить. За четыре года наша культура работы с данными, инструментарий, подходы, процесс разметки претерпели очень большие изменения. Сейчас у нас накоплено почти 100 терабайт медицинских исследований, но количество данных абсолютно не важно, если они плохого качества, и их неудобно изучать, понимать и использовать. Недавно я делал обзорный доклад про разные аспекты качества медицинских данных, а вот наше выступление про технические аспекты пути к качеству. Сегодня же я хочу поговорить об очень интересной концепции (или даже философии), которая в последнее время на слуху, но, судя по разным постам в интернете, её суть понятна далеко не всем. Это Data Mesh.

Впервые я столкнулся с этим понятием в докладе Леруа Мерлен на митапе LeanDS. Доклад любопытный, но суть дата меш мне из него была понятна не до конца, так что недавно я взялся за чтение книги от авторки этой концепции и термина - Data Mesh: Devlivering Data-Driven Value at Scale.

Книга мне очень понравилась - она концептуальная, почти не затрагивает конкретные инструменты и способы реализации, но раскрывает суть идеи целиком и полностью. Полный конспект я могу скинуть в комментариях, если кого-то заинтересует, а в этом посте я поговорю об основных принципах, моей интерпретации и самых интересных моментах для нашей компании.

Читать далее

Ближайшие события

Проверка нормальности распределения с использованием критерия Эппса-Палли средствами Python

Время на прочтение16 мин
Количество просмотров15K

Методический разбор для специалистов DataScience по применению критерия Эппса-Палли для проверки нормальности распределения средствами python

Читать далее

Как организовать потоковую обработку данных. Часть 2

Время на прочтение6 мин
Количество просмотров4.5K

Привет, Хабр! Я – Евгений Ненахов из центра Big Data МТС Digital. Это вторая часть  статьи о том, как мы создали универсальный инструмент потоковой обработки данных и построили с его помощью мощную систему стриминга. В первой половине статьи мы обсудили основные компоненты методологии, а сейчас поговорим о том, как ими пользоваться.

Если вам интересна обработка данных – жмите кнопку «Читать далее»!

Читать далее

Анализ различий подачи новостей в Telegram-каналах

Время на прочтение3 мин
Количество просмотров15K

Привет. Прошло уже почти полгода как я сделал новостной агрегатор каналов в Телеграме с открытым исходным кодом. Краткую статью про него можно прочитать на VC. Здесь же я бы хотел поделиться некоторыми интересными вещами, которые я нашёл в данных за всё время работы агрегатора.

Дисклеймер 1: многое из этого отчёта может показаться политизированным. Но здесь я не делаю никаких выводов про то, кто прав, а кто виноват; кто грязный пропагандист, а кто носитель священной истины.

Дисклеймер 2: это не руководство по визуализации данных средствами Plotly и PyVis. В самой статье я не привожу никакого кода и не объясняю, почему он устроен именно так. При этом Colab с кодом открыт, и примеры оттуда вполне можно использовать.

Google Colab: ссылка на ноутбук

Хочу знать подробности!

Как организовать потоковую обработку данных. Часть 1

Время на прочтение10 мин
Количество просмотров12K

Привет, Хабр! Меня зовут Евгений Ненахов, я работаю в центре Big Data МТС Digital. В этой статье я расскажу о том, как мы создали универсальный инструмент потоковой обработки данных и построили с его помощью мощную систему стриминга. Если вам интересна обработка данных – добро пожаловать под кат!

Читать далее

Jira, Jirа! Повернись к лесу задом, ко мне передом

Время на прочтение4 мин
Количество просмотров10K

*Избушка, Olga Kolopetko. https://illustrators.ru/illustrations/1474142)*
Избушка, Olga Kolopetko. https://illustrators.ru/illustrations/1474142


Повсеместная цифровизация не только в телевизоре. Она теперь повсюду нас окружает, на работе и не только. Типичным представителем являются трекеры действий (системы Сервис Деск, проектные системы, документообороты и пр.). Общей болевой точкой всех этих систем являются сложная объектная и процессная модель и фокус на поддержку операционного обслуживания. Шаг влево или вправо в попытках понять всю картину целиком повергает аналитиков в уныние и порождает безуспешные проекты на многие месяцы. А вопрос этот висит в воздухе, в том или ином виде, почти ежедневно.


Ниже покажу один из возможных подходов по решению подобных задач средствами DS «за час» и «один экран кода». ИТ курсов на несколько месяцев появилось множество, но даже для начинающих подход от конца, когда показываешь решение насущной задачи, а потом раскладываешь его на кубики — куда эффективнее.


Для примера возьмем Jira, как часто используемую в среде разработчиков, обладающую богатым функционалом, длительной историей и хорошим API.


Все предыдущие публикации.

Читать дальше →

Как анализировать данные из облачных сервисов для автоматизации бизнеса

Время на прочтение4 мин
Количество просмотров3.7K

Всем привет! Меня зовут Елена Боброва, и мы в команде CloudReports работаем над проектом, с помощью которого пользователи облачных систем могут начать легко и просто работать со своими данными. 

В последнее время всё большее число компаний внедряют в свою работу различные облачные сервисы, такие как CRM системы, системы управления складом, автоматизация записи клиентов и др. Рано или поздно любой бизнес сталкивается с необходимостью анализировать данные. Облачные системы в большинстве случаев имеют ряд готовых отчетов. Но если требуется более детальный анализ, то данные, как правило, можно забрать с помощью  API и поместить во внешнюю базу (хранилище данных), с которым уже удобно работать аналитикам.

Читать далее

Часть 4. Ищем матчи в Dota 2 по названиям роликов на YouTube с помощью BERT и OpenDota

Время на прочтение12 мин
Количество просмотров5.4K

Представьте, что с одной стороны у вас есть видео на YouTube с интересными моментами из матча по Dota 2. А с другой стороны база данных всех матчей. Как для видео найти соответствующую запись в БД? Этой задачей мы сегодня и займемся.

Читать далее