Как стать автором
Поиск
Написать публикацию
Обновить
32.38

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга
Уровень сложности

ETL в анализе данных без перерывов на кофе и курилку

Время на прочтение18 мин
Количество просмотров7.8K


Кадр из фильма «Индиана Джонс: В поисках утраченного ковчега» (1981)


Наблюдаемая все чаще и чаще картина в задаче анализа данных вызывает удручающее впечатление. Intel, AMD и другие производители непрерывно наращивают вычислительную мощность. Гениальные математики-программисты пишут суперэффективные библиотеки и алгоритмы. И вся эта мощь гасится и распыляется рядовыми аналитиками и разработчиками. Причем начинается это все с нулевого этапа — этап подготовки и загрузки данных для анализа. Многочисленные вопросы и диалоги показывают, что в нынешних программах обучения зияют огромные дыры. Людям просто незнакомы многие концепции и инструменты, уже давно придуманные для этих задач. Для тех, кто хочет увеличить свою продуктивность, далее тезисно будут рассмотрены ряд таких подходов и инструментов в частичной привязке к реальным задачам.


В первую очередь, материал ориентирован на аналитиков, которые манипулируют разумными объемами данных, необходимых для решения практических задач. ETL из Бигдаты в котором перекачиваются сотни Тб ежесуточно живет своей отдельной жизнью.


Является продолжением серии предыдущих публикаций.

Читать дальше →

Как организовать разметку данных для машинного обучения: методики и инструменты

Время на прочтение17 мин
Количество просмотров11K

Если бы у data science существовал собственный зал славы, отдельную его часть нужно было бы посвятить разметке. Памятник отвечающим за разметку выглядел бы как атлант, держащий огромный камень, символизирующий их тяжелый и скрупулезный труд. Собственной стелы заслужила бы и база данных изображений ImageNet. За девять лет её контрибьюторы вручную разметили более 14 миллионов изображений. Даже представлять этот труд утомительно.

Хотя разметка и не является особо интеллектуальным трудом, она всё равно остаётся серьёзной проблемой. Разметка — неотъемлемый этап предварительной обработки данных для контролируемого обучения. Для этого стиля обучения моделей используются исторические данных с заранее заданными целевыми атрибутами (значениями). Алгоритм может находить целевые атрибуты, только если их указал человек.

Занимающиеся разметкой люди должны быть чрезвычайно внимательны, поскольку каждая ошибка или неточность отрицательно влияет на качество датасета и на общую производительность прогнозирующей модели.

Как получить высококачественный размеченный набор данных и не поседеть в процессе работы? Главной трудностью являются выбор ответственных за разметку, оценка необходимого для неё времени и подбор наиболее подходящих инструментов.
Читать дальше →

Парсинг Instagram в промышленных масштабах

Время на прочтение28 мин
Количество просмотров42K

В декабре 2020 года, завершив работать в научном институте, я увлёкся задачей добычи данных из соцсетей, в частности из Инстаграма. Прежде я работал только с готовыми данными, поэтому мне всегда было интересно, как эти данные можно добывать. За несколько дней до Нового Года я написал достаточно базовую статью про то как парсить Инст. В первых числах января мне написал заказчик и попросил сделать для него масштабный парсер инстаграма, который был бы способен делать более 10.000 запросов в сутки.

С тех пор прошло уже больше полугода, за которые я набил всевозможные шишки в данной области и написал промышленный парсер, который способен делать сотни тысяч, если не миллионы запросов в сутки.

В рамках данной статьи я хочу рассказать про путь развития своего Pet-Project в потенциально мощный и серьёзный инструмент. Впереди вас ждёт увлекательное путешествие от хранения данных в простых Json-ах на жестком диске сервера, до облачной базы данных и автоматической инициализации cron расписания запуска процессов внутри докер контейнера, поехали!

Поехали!

HuggingArtists | Генерируем текст песен с трансформером за 5 минут

Время на прочтение7 мин
Количество просмотров18K

image


В этой статье я расскажу о том, как создавался проект HuggingArtists и что у него под капотом.
Мне будет очень приятно, если вы поставите сразу звезду в репозитории:
GitHub stars

Читать дальше →

Автоматически генерируем стикеры для Телеграма из фото плакатов в интернет-магазине

Время на прочтение4 мин
Количество просмотров5.5K

Всем привет!

В этой статье я расскажу, как я автоматически генерировал 42 стикера для Телеграма на основе изображений из интернет-магазина плакатов. На сайте продаются плакаты с разными забавными надписями, но соответствующих стикеров в Телеграме нет. Попробуем сделать сами. Единственная проблема состоит в следующем: чтобы сделать один стикер, нужно скачать фотографию плаката с сайта, отделить надпись от фона в фотошопе и сохранить в нужном разрешении, чтобы она соответствовала требованиям телеграма к стикерам. Поскольку изображений 42, это муторное и трудоемкое занятие.

Давайте автоматизируем

Обзор методов чистки данных

Время на прочтение9 мин
Количество просмотров9K

Приветствую! Меня зовут Игорь Буянов, я NLP-разработчик в команде MTS AI. В рамках рабочих проектов группы обработки естественного языка я провожу исследования в области активного обучения, редукции шума и, в целом, занимаюсь подготовкой и обработкой датасетов.

В этой статье будут рассмотрены методы чистки данных – noise reduction – и результаты тестирования алгоритмов.

Чистка данных – значение и применение

Чистка данных – это процесс удаления шума из датасетов, который появляется в результате неправильно размеченных примеров. Источники такого шума могут быть разными: случайные ошибки аннотатора – человека или машины, которые размечают данные в соответствии с задачей, – неслучайные ошибки из-за плохого понимания задачи или двусмысленного примера, ошибки автоматической разметки. 

Несмотря на то, что существует много способов разметки и контроля качества данных, подобный шум всегда будет присутствовать в датасетах. В задачах классификации одна из причин шума – невозможность однозначно провести границу между классами. Для большинства современных моделей наличие шума в данных объемом до 10% – несерьезная проблема. Поэтому, если датасет создан грамотно или найденный набор данных надежен, результат будет удовлетворительным. 

Но что делать, если нужно решить специфическую задачу, для которой доступен только один датасет сомнительного качества? Или вам недоступны средства для качественной разметки, вы вынуждены размечать данные вручную и хотите проверить себя? На помощь придут алгоритмы чистки данных.

Читать далее

7 способов получить качественные размеченные данные для машинного обучения

Время на прочтение5 мин
Количество просмотров5.2K
Наличие размеченных данных необходимо для машинного обучения, но получение таких данных — непростая и дорогостоящая задача. Мы рассмотрим семь способов их сбора, в том числе перепрофилирование, поиск бесплатных источников, многократное обучение на данных с постепенно повышающимся качеством, а также другие способы.

Любой data scientist знает, что необученная ML модель бесполезна. Без высококачественных размеченных данных для обучения контролируемое, обучение разваливается; при этом невозможно гарантировать, что модели смогут прогнозировать, классифицировать или каким-то иным образом анализировать интересующее нас явление с хоть какой-нибудь точностью.


При проведении контролируемого обучения (supervised learning) лучше не разрабатывать модель, если нет возможности найти подходящие данные для обучения. Даже если вы нашли подходящий набор обучающих данных, он не особо полезен, если его элементы не размечены, не снабжены метками и аннотациями для эффективного обучения алгоритма.
Читать дальше →

Зачем роботам делать выбор за вас

Время на прочтение11 мин
Количество просмотров3.1K

Как только мы слышим про массовую персонализацию, мы сразу представляем себе тонну рекламы, которая нам не нужна. На самом деле, это история про то, как алгоритмы уронили цену для персонализации продукта. Раньше вы могли себе позволить персонального менеджера, персональные договоры и условия только для очень крупных клиентов. Сейчас это можно предложить каждому.

У вас в почте лежит бронь на отель, а в календаре деловые встречи? Вот координаты ближайших удобных мест с бизнес-ланчами, где можно провести встречи. И скидка. Железяка по нескольким метрикам вычислит деловую цель поездки и не будет предлагать вам конные прогулки вместе с билетами в кино. В идеальном варианте робот отберёт у вас выбор, но вам это понравится. Приложение вовремя подсунет кнопку для вызова такси и за день до встречи предложит услуги экспресс-глажки костюма в ближайшей химчистке. Система адаптируется к вашим паттернам и предлагает вам именно то, что лучше укладывается в ваш поведенческий профиль. Например, провести платёж по ипотеке в нужную дату с напоминанием или при снятии денег в банкомате предложить вам ровно сумму на две пинты Гиннесса, которые вы берёте в баре каждую пятницу.

Читать далее

Дайджест новостей искусственного интеллекта и машинного обучения за июль

Время на прочтение2 мин
Количество просмотров5.8K

Привет, Хабр! Давно не виделись.

Отфильтровав для вас большое количество источников и подписок, сегодня собрал все наиболее значимые новости из мира будущего, машинного обучения, роботов и искусственного интеллекта за июнь. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие новости.

Итак, а теперь дайджест за июнь:

1. Прошли успешные испытания первого нейроимпланта, превращающего мысли в слова

Прочитать весь дайджест

Топ-5 инструментов для разметки данных в 2021 году

Время на прочтение9 мин
Количество просмотров13K

Программы для разметки данных (data labeling) необходимы для прокачки машинного обучения и создания обучающих наборов данных. Поэтому мы решили изучить наилучшие решения из этой области, имеющиеся сегодня на рынке.

Читать далее

«От категорий к векторам» или нестандартное кодирование категориальных данных. Часть 1

Время на прочтение7 мин
Количество просмотров5.6K

Привет, Хабр! С вами Артём, аналитик больших данных МегаФона. На работе занимаюсь рекомендательными системами и интересуюсь NLP. Эти две вещи и привели меня к рассматриваемой тут теме, так что садитесь поудобнее, и поехали. Кстати, к статье прилагается код, ищите ссылки внутри.

В путь

Как ФБК* сами слили все данные оппозиции в открытый доступ

Время на прочтение5 мин
Количество просмотров125K

Привет! Здесь я хочу указать на возможную причину, почему были слиты данные зарегистрировавшихся в УГ и предупредить, что ФБК* на несколько недель в июне была открыта, как эта калитка в меме.

Читать далее

Как мы анализировали на хакатоне схемы севооборота

Время на прочтение6 мин
Количество просмотров2.2K

Привет, Хабр! Периодически мы делаем посты о проектах наших студентов магистратуры «Наука о данных» НИТУ МИСиС и Zavtra.Online — подразделения SkillFactory по работе с университетами, эти проекты создаются на внутренних хакатонах. Ребята уже за неделю собирали датасеты по коммерческим объектам, музыкальным трекам, вакансиям и даже котикам, пробовали кластеризовать транспорт и побеждали букмекеров с помощью ИИ. Сегодня делимся новым учебным проектом наших студентов об анализе схем севооборота. Далее речь идёт от лица команды.

Читать далее

Ближайшие события

Большая подборка телеграмм-каналов для аналитиков

Время на прочтение6 мин
Количество просмотров66K

Работа аналитика требует постоянного пополнения своих знаний - новые инструменты, обновления и методы создаются, как горячие пирожочки. Но перерабатывать такие объемы информации просто нереально, а узнавать что-то новенькое и полезное хочется. И что делать?

Можно, конечно, подписаться на «стоковые» группы и каналы, которые каждый день публикуют по 10-20 постов с «полезным» материалом. Но, признайтесь, это просто самообман: во-первых, столько информации в день просто невозможно пропустить через себя - это только и надо, что статьи читать, а есть же еще работа/учеба. Во-вторых, «полезность» этих статей сомнительна - не каждый пост от умного индуса можно считать полезным, увы :(

Так как же быть? Ответ прост - читать авторские каналы, где реальные специалисты делятся информацией, которую они для себя считают полезной!

Итак, мы собрали для Вас большую подборку телеграм-каналов на любой вкус - каждый найдет для себя что-то интересное. Здесь и BI, и продуктовая аналитика, и программирование, и дашборды, и хранилища данных - одним словом, есть где разгуляться аналитической душе! 

Сохраняйте себе и подписывайтесь на ребят - они это точно заслужили! :)

Читать далее

Как мы автоматизировали для пользователей работу с данными через Google Colab

Время на прочтение6 мин
Количество просмотров4.4K

Как хорошо уметь читать, не так ли? А когда пользователи безопасно и организованно могут сами получать любые данные из DWH в нужном виде - это вообще сказка!

В статье описан инструмент автоматизации выдачи данных конечным пользователям. Материал будет полезен специалистам, обслуживающим хранилища данных, которых это решение сильно разгрузит.

Читать далее
Если вы попытаетесь найти перевод термина Data Scientist на русский язык, то, скорее всего, увидите что-то вроде «аналитик базы данных», или «специалист по анализу данных», или даже «программист-аналитик». По сути это логическая ловушка, потому что, в зависимости от ситуации, это могут быть как один человек, так и три разных отдела. Мы со Сбером решили расставить точки над «i» в этой теме и узнать, как именно вы представляете себе работу Data Scientist’а. Понять, как всё устроено конкретно у вас на рабочем месте, и выяснить, какие роли могут скрываться за общим термином Data Science. Результаты опроса мы подведём в отдельном посте, так что следите за обновлениями.
А пока поехали!

Методы укладки Gephi. Force Atlas и Force Atlas 2

Время на прочтение4 мин
Количество просмотров4K

Прежде чем определиться с выбором раскладки вашего графа, нужно понять какие цели вы преследуете, когда строите его и что именно вы хотите проанализировать и показать.

Впечатление, которое производит ваш граф, может значительно отличаться в зависимости от выбранного алгоритма. Вы должны понимать, что окончательный выбор может стать очевидным только после экспериментов и визуальной оценки. Он должен соответствовать как вашим данным, так и цели построения графа. Здесь нет абсолютно правильных или неправильных ответов: часть решения будет принята субъективно, исходя из вашего собственного визуального суждения.

Рассмотрите свои варианты с точки зрения целостности. Конечная цель создать граф, который не только понятен, но и позволяет рассказать убедительную историю. Если при достижении этих целей макет выглядит впечатляюще, даже лучше! Однако любое прочтение литературы и поиск в интернете быстро покажет, что многие графы выглядят впечатляюще, но не передают смысла данных, и они настолько плотны, что их невозможно прочитать. Не становитесь жертвой создания, чего-то впечатляющего, ради красивой картинки - всегда помните, что вы используете средство просмотра графов, и делаете все возможное, чтобы показать данные чётко. Теперь, когда мы определили приоритеты, мы можем перейти к рассмотрению различных компоновок Gephi.

Для демонстрации настроек раскладок будем использовать данные о переводах пользователей трёх различных банков.

Читать далее

Обучение с подкреплением: как работают новые возможности библиотеки SberPM

Время на прочтение6 мин
Количество просмотров5.8K

Что такое Process Mining и как его применять, мы рассказывали в первом посте. Во второй части мы представили краткое руководство пользования библиотекой для интеллектуального анализа процессов SberPM. В данной статье мы подробнее раскроем функционал библиотеки и расскажем о новом модуле оптимизации процессов и клиентских путей, использующем обучение с подкреплением для поиска оптимального пути.  

Оптимизация бизнес-процессов играет важнейшую роль в повышении операционной эффективности компании. В SberPM обучение с подкреплением используется для реконструкции процесса в соответствии с заданными критериями:

·         Отсутствие зацикленности.

·         Минимальное время выполнения этапов.

·         Минимальное число этапов.

·         Успешное завершение процесса.

Читать далее

RamblerMeetup&Usermodel

Время на прочтение2 мин
Количество просмотров870

Мы долго шли к этому и вот наконец! Наш внутренний RamblerMeetup&Usermodel выходит в свет! Уже 30 июня эксперты поделятся своими кейсами в области ML и Big Data.

Читать далее

Проблемы мониторинга дата-пайплайнов и как я их решал

Время на прочтение7 мин
Количество просмотров3.6K

Мониторинг - сложная, но необходимая часть разработки, она становится вдвойне сложней, когда мониторить надо не просто технические вещи, а их фактический смысл для бизнеса.

Данные, собранные и трансформированные в дата-пайплайнах очень часто поступают сразу к аналитикам и к другим людям, принимающим бизнес-решения, так что мониторинг таких вещей должен быть удобен не только инженерам, но и для других людей, которым важно знать, можно ли доверять данным и есть ли какие-то проблемы с их обработкой.

О том, какие проблемы со сбором и обработкой данных бывают, как избежать ложных алертов и как я делал мониторинг на основе событий максимально понятным и прозрачным для бизнеса, я и приглашаю почитать в этой статье.

Читать далее