Pull to refresh
20
0
Алексей Приньков @prinkov

Software Developer | ML Engineer | Math

Send message

Обзор методов чистки данных

Reading time9 min
Views8K

Приветствую! Меня зовут Игорь Буянов, я NLP-разработчик в команде MTS AI. В рамках рабочих проектов группы обработки естественного языка я провожу исследования в области активного обучения, редукции шума и, в целом, занимаюсь подготовкой и обработкой датасетов.

В этой статье будут рассмотрены методы чистки данных – noise reduction – и результаты тестирования алгоритмов.

Чистка данных – значение и применение

Чистка данных – это процесс удаления шума из датасетов, который появляется в результате неправильно размеченных примеров. Источники такого шума могут быть разными: случайные ошибки аннотатора – человека или машины, которые размечают данные в соответствии с задачей, – неслучайные ошибки из-за плохого понимания задачи или двусмысленного примера, ошибки автоматической разметки. 

Несмотря на то, что существует много способов разметки и контроля качества данных, подобный шум всегда будет присутствовать в датасетах. В задачах классификации одна из причин шума – невозможность однозначно провести границу между классами. Для большинства современных моделей наличие шума в данных объемом до 10% – несерьезная проблема. Поэтому, если датасет создан грамотно или найденный набор данных надежен, результат будет удовлетворительным. 

Но что делать, если нужно решить специфическую задачу, для которой доступен только один датасет сомнительного качества? Или вам недоступны средства для качественной разметки, вы вынуждены размечать данные вручную и хотите проверить себя? На помощь придут алгоритмы чистки данных.

Читать далее
Total votes 4: ↑4 and ↓0+4
Comments4

Данные всех стран, не объединяйтесь

Reading time4 min
Views21K
Радует, когда на диаграмме кроме новых созвездий находится нечто похожее на зависимость. В таком случае мы строим модель, которая хорошо объясняет связь между двумя переменными. Но исследователь должен понимать не только, как работать с данными, но и какая история из реального мира за ними лежит. В противном случае легко сделать ошибку. Расскажу о парадоксе Симпсона — одном из самых опасных примеров обманчивых данных, который может перевернуть связь с ног на голову.
Читать дальше →
Total votes 109: ↑109 and ↓0+109
Comments10

Сказ о том, как мы BigQuery приручали

Reading time8 min
Views8.8K

Задача


На самом деле, задача, о которой хочется рассказать, проста до уныния по своей формулировке: нужно было визуализировать данные по продажам отдела e-commerce малой кровью, т.е., читай, практически даром.

Читать дальше →
Total votes 12: ↑12 and ↓0+12
Comments9

Визуализация больших графов для самых маленьких

Reading time12 min
Views57K


Что делать, если вам нужно нарисовать граф, но попавшиеся под руку инструменты рисуют какой-то комок волос или вовсе пожирают всю оперативную память и вешают систему? За последние пару лет работы с большими графами (сотни миллионов вершин и рёбер) я испробовал много инструментов и подходов, и почти не находил достойных обзоров. Поэтому теперь пишу такой обзор сам.
Читать дальше →
Total votes 95: ↑94 and ↓1+93
Comments30

Геокодирование. Как привязать 250 тысяч адресов к координатам за 10 минут?

Reading time10 min
Views16K


Привет, Хабр!

В этой статье я хотел бы поделиться опытом решения маленькой проблемы с большим количеством адресов. Если вы когда-либо работали с API геокодирования или пользовались онлайн инструментами, то думаю вы разделяете мою боль ожидания результата в течение нескольких часов, а то и больше.

Речь идет не о сложных алгоритмах оптимизации, а об использовании сервиса пакетного геокодирования, который принимает на вход список адресов и возвращает файл с результатами. Тем самым можно сократить время обработки с нескольких часов до минут.
Читать дальше →
Total votes 4: ↑3 and ↓1+6
Comments16

Практическое руководство по разработке бэкенд-сервиса на Python

Reading time57 min
Views176K
Привет, меня зовут Александр Васин, я бэкенд-разработчик в Едадиле. Идея этого материала началась с того, что я хотел разобрать вступительное задание (Я.Диск) в Школу бэкенд-разработки Яндекса. Я начал описывать все тонкости выбора тех или иных технологий, методику тестирования… Получался совсем не разбор, а очень подробный гайд по тому, как писать бэкенды на Python. От первоначальной идеи остались только требования к сервису, на примере которых удобно разбирать инструменты и технологии. В итоге я очнулся на сотне тысяч символов. Ровно столько потребовалось, чтобы рассмотреть всё в мельчайших подробностях. Итак, программа на следующие 100 килобайт: как строить бэкенд сервиса, начиная от выбора инструментов и заканчивая деплоем.



TL;DR: Вот репка на GitHub с приложением, а кто любит (настоящие) лонгриды — прошу под кат.
Читать дальше →
Total votes 57: ↑55 and ↓2+66
Comments48

Подготовка к собеседованиям в IT-гиганты: как я преодолела проклятье алгоритмического собеседования

Reading time12 min
Views205K

Дисклеймер:


Я не программирую с трёх лет, не знаю наизусть Кнута, не являюсь призёром олимпиад по информатике и чемпионатов по спортивному программированию, не училась в MIT. У меня за плечами образование по информатике и 6 лет опыта в коммерческой разработке. И до недавнего времени я не могла пройти дальше первого технического скрининга в IT-гиганты из FAANG (Facebook, Amazon, Apple, Netflix, Google и подобные), хотя предпринимала несколько попыток. 

Но теперь всё изменилось, я получила несколько офферов и хочу поделиться опытом, как можно к этому прийти. Речь пойдёт о позиции Software Engineer в европейских офисах перечисленных компаний.
Читать дальше →
Total votes 155: ↑150 and ↓5+191
Comments342

PSR Стандарты

Reading time15 min
Views137K
PHP-FIG

PSR — Чуть больше, чем стиль оформления кода.

Как показала практика, многие PHP-разработчики знакомы с аббревиатурой PSR. Однако большинство все еще ограничены знанием, что PSR это стандарт оформления кода.

Ребята из PHP-FIG (PHP Framework Interop Group), группа концепций совместимости PHP, которые занимаются развитием PSR (PHP Standards Recommendations) шагнули далеко вперед. Поэтому давайте разберемся, что из себя представляет PSR…

Читать дальше →
Total votes 25: ↑24 and ↓1+31
Comments39

Умирает ли RuTracker? Анализируем раздачи

Reading time14 min
Views235K

Любая деятельность генерирует данные. Чем бы вы ни занимались, у вас наверняка на руках кладезь необработаной полезной информации, ну или хотя бы доступ к его источнику.


Сегодня побеждает тот, кто принимает решения, основываясь на объективных данных. Навыки аналитика как никогда актуальны, а наличие под рукой необходимых для этого инструментов позволяет всегда быть на шаг впереди. Это и является подспорьем появления данной статьи.


У вас есть свой бизнес? Или может… хотя, не важно. Сам процесс добычи данных бесконечен и увлекателен. И даже просто хорошо покопавшись в интернете можно найти себе поле для деятельности.


Вот, что мы имеем сегодня – Неофициальная XML-база раздач сайта RuTracker.ORG. База обновляется раз в полгода и содержит в себе информацию о всех раздачах за историю существования данного торрент-трекера.


Что она может рассказать владельцам рутрекера? А непосредственным пособникам пиратства в интернете? Или обычному юзеру, увлекающемуся аниме, например?

Читать дальше →
Total votes 145: ↑141 and ↓4+183
Comments296

PHP-Дайджест № 178 (6 – 21 апреля 2020)

Reading time5 min
Views12K

Свежая подборка со ссылками на новости и материалы. В выпуске: Composer 2.0 Alpha и другие релизы, 5 новых и одно принятое RFC предложение из PHP Internals, а также обновленные атрибуты на голосовании, порция полезных инструментов, подкасты, интервью и многое другое.

Приятного чтения!

Читать дальше →
Total votes 47: ↑47 and ↓0+47
Comments6

Аналитика девушек с низкой социальной ответственностью (Заряжено Power BI, Qlik Sense, Tableau)

Reading time6 min
Views125K

Кто мы такие и какие были предпосылки проекта?


Добрый день, меня зовут Лазарев Владимир, я руководитель BI-интегратора Аналитикс Групп. Мы делаем для бизнеса наглядные отчёты по маркетингу, продажам, финансам, логистике на базе ведущих аналитических платформ Qlik Sense, Power BI, Tableau.

В BI платформах очень важна визуальная составляющая. Если вы посмотрели десятки демо-отчетов BI-систем и вам не нравится как выглядит та или иная платформа, то скорее всего вы ее не будете внедрять, даже если вас устраивает цена и технические характеристики. Исходя из этого рождается необходимость увидеть одни и те же данные в разных аналитических платформах, чтобы можно было сопоставить.

И желательно, чтобы данные были интересными… :-)

Откуда появилась идея сделать этот отчёт?


Несколько лет назад Высшая школа экономики опубликовала статью о формировании цен на услуги девушек низкой социальной ответственности в Москве. Это были агрегированные данные анализа 1.800 анкет. Нам показались интересными данные, которые стоят за этими выводами социологов ВШЭ. И мы решили проработать эту тематику.
Читать дальше →
Total votes 171: ↑139 and ↓32+107
Comments165

Простой план-фактный анализ в Power BI Desktop. Часть вторая – визуализация

Reading time4 min
Views31K
Всем привет!

Перед вами продолжение рассказа про план-фактный анализ в Power BI Desktop. Первую часть можно почитать здесь. Если хотите прочитать в целом про платформу Power BI, то добро пожаловать сюда.
Сегодня расскажу про построение интерактивных отчётов и совсем немного про создание вычисляемых полей в Power BI Desktop. Под катом будет много гифок, так что аккуратнее с трафиком.

Внешний вид Power BI Desktop
Рисунок 1. Внешний вид Power BI Desktop
Читать дальше →
Total votes 13: ↑12 and ↓1+11
Comments6

Простой план-фактный анализ в Power BI Desktop. Часть первая – консолидация и очистка данных

Reading time5 min
Views40K
UPD: Обновил публикации в связи с выходом Power BI Desktop из стадии Preview 24 июля.

Сегодня хочу рассказать про построение простого дашборда с план-фактным анализом доходов и расходов в Power BI Desktop и Power BI. В первой части рассмотрим работу с запросами, научимся объединять данные из нескольких источников и выполнять их очистку.

Исходные данные: несколько файлов Excel в которых хранится информация о показателях доходов и расходов компании за некоторое время. Поскольку форма отчетов и статьи учета несколько раз менялись, то листы с информацией имеют похожую, но не совсем одинаковую структуру. На выходе требуется получить нечто, что позволит руководителям получить представление о том, что происходит с финансами компании
Давайте посмотрим, как Power BI Desktop позволит объединить данные и их визуализировать.

Стартовое окно Power BI Desktop
Рисунок 1. Стартовое окно Power BI Desktop

Читать дальше →
Total votes 8: ↑8 and ↓0+8
Comments2

Новости Microsoft: поддержка R, новый Power BI для аналитики и отчетов, анимация и 3D-графика в облаке

Reading time4 min
Views13K
За последние несколько дней в экосистеме Microsoft произошло сразу три достаточно больших и серьезных события, между собой не связанные, но, так или иначе, имеющие принадлежность к сервисам в облаке и, что еще интересно, к науке и исследованиям. Для того, чтобы не писать три новости, мы решили объединить их в одну. Подробнее – под катом.

Итак:
  1. Open-source пакет для 3D-анимации Blender стал доступен для использования с нашей поддержкой в Microsoft Azure Batch – сервисе для осуществления серий расчетов в облаке.
  2. Microsoft достигла соглашения о приобретении Revolution Analytics – ведущего разработчика ПО и сервисов для R. Как известно, R – один из самых используемых языков для predictive analytics и статанализа. Соглашение с авторитетной в этой области компанией, имеющей большую экспертизу, означает новую функциональность и возможности для разработчиков.
  3. Анонс Power BI Preview – облачного сервиса для бизнес-аналитики для нетехнических бизнес-пользователей.

Читать дальше →
Total votes 29: ↑26 and ↓3+23
Comments5

Технические отличия BI систем (Power BI, Qlik Sense, Tableau)

Reading time13 min
Views87K
Время необходимое на прочтение 11 минут

Мы и Квадрат Гартнера 2019 BI :-)


Целью данной статьи является сравнение трёх ведущих BI платформ, которые находятся в лидерах квадранта Gartner:
— Power BI (Microsoft)
— Tableau
— Qlik

image
Рисунок 1. Gartner BI Magic Quadrant 2019

Меня зовут Андрей, я руководитель отдела аналитики компании Аналитикс Групп. Мы строим наглядные отчёты по маркетингу, продажам, финансам, логистике, другими словами занимаемся бизнес аналитикой и визуализацией данных.

Я со своими коллегами уже несколько лет работаем с различными BI платформами. Имеем весьма неплохой опыт проектов, что позволяет нам сравнивать платформы с точки зрения разработчиков, аналитиков, бизнес-пользователей и внедренцев BI систем.

У нас будет отдельная статья по сравнению цен и визуальному оформлению этих BI систем, поэтому тут постараемся оценить эти системы именно с точки зрения аналитика и разработчика.

Выделим несколько направлений для анализа и оценим по 3 бальной системе:
— Порог вхождения и требования к аналитику;
— Источники данных;
— Очистка данных, ETL (Extract, Transform, Load)
— Визуализации и разработка
— Корпоративная среда — сервер, отчеты
— Поддержка мобильных устройств
— Embedded (встроенная) аналитика в сторонние приложения/сайты

Читать дальше →
Total votes 12: ↑12 and ↓0+12
Comments41

Как обойти ошибки при построении отчетности в Power BI и прийти к построению системы выгрузки для больших данных

Reading time10 min
Views15K


За красивыми и понятными дашбордами Power BI часто скрываются недели подготовки и сведения данных. Особенно когда речь идет о построении полезной BI-отчетности в крупной организации с объемом трафика в десятки миллионов посетителей ежемесячно.

В данной статье я хочу описать ряд негативных моментов, с которыми столкнулся при построении BI-отчетности, основанной на данных из систем веб-аналитики в ряде компаний (крупные представители российского e-commerce, страховые компании и т.д.). Статья не имеет цель сделать антирекламу или наоборот рекламу тех или иных инструментов или решений. Она подготовлена для того, чтобы по возможности помочь избежать негативных моментов другим пользователям и указать на варианты решений.

Дисклеймер


Я говорю о больших объемах данных и показываю примеры выгрузки и сэмплинга из Google Analytics 360. На проектах с небольшим объемом данных таких сложностей может не быть. Со всеми обозначенными проблемами я встретился на практике и в статье описываю исключительно свой опыт решения — ваши могут быть совершенно другими.
Читать дальше →
Total votes 8: ↑8 and ↓0+8
Comments5

Сравниваем PHP FPM, PHP PPM, Nginx Unit, React PHP и RoadRunner

Reading time11 min
Views50K


Тестирование производилось с помощью Yandex Tank.
В качестве приложения использовались Symfony 4 и PHP 7.2.
Целью являлось сравнение характеристик сервисов при разных нагрузках и нахождение оптимального варианта.
Для удобства все собрано в docker-контейнеры и поднимается с помощью docker-compose.
Под катом много таблиц и графиков.
Читать дальше →
Total votes 72: ↑67 and ↓5+62
Comments46

Spiral: высокопроизводительный PHP/Go фреймворк

Reading time8 min
Views18K


Привет, Хабр. Меня зовут Антон Титов, CTO компании Spiral Scout. Сегодня я хотел бы рассказать вам про нашего PHP-слона. А точнее про вторую версию опен-сорсного full-stack PHP/Go фреймворка — Spiral.

Spiral — это компонентный full-stack фреймворк, разрабатываемый нашей компанией более одиннадцати лет и обслуживающий под сотню реальных проектов. Программный пакет основан на множестве открытых и собственных библиотек, включая RoadRunner и Cycle ORM.

Фреймворк совместим с большинством PSR рекомендаций, поддерживает MVC и работает в 5-10 раз быстрее Laravel/Symfony.

Если вы никогда не слышали о Spiral и гадаете, что такое PHP/Go фреймворк и куда делась первая версия — добро пожаловать под кат.
Читать дальше →
Total votes 23: ↑22 and ↓1+32
Comments61

Information

Rating
Does not participate
Location
Санкт-Петербург, Санкт-Петербург и область, Россия
Works in
Date of birth
Registered
Activity