Как стать автором
Обновить
10
Карма
0
Рейтинг
Алексей Приньков @prinkov

Web Developer | Data Engineer | Math

  • Подписчики 8
  • Подписки 4
  • Публикации
  • Комментарии

Обзор методов чистки данных

Блог компании МТС Data Mining *Машинное обучение *Искусственный интеллект Natural Language Processing *

Приветствую! Меня зовут Игорь Буянов, я NLP-разработчик в команде MTS AI. В рамках рабочих проектов группы обработки естественного языка я провожу исследования в области активного обучения, редукции шума и, в целом, занимаюсь подготовкой и обработкой датасетов.

В этой статье будут рассмотрены методы чистки данных – noise reduction – и результаты тестирования алгоритмов.

Чистка данных – значение и применение

Чистка данных – это процесс удаления шума из датасетов, который появляется в результате неправильно размеченных примеров. Источники такого шума могут быть разными: случайные ошибки аннотатора – человека или машины, которые размечают данные в соответствии с задачей, – неслучайные ошибки из-за плохого понимания задачи или двусмысленного примера, ошибки автоматической разметки. 

Несмотря на то, что существует много способов разметки и контроля качества данных, подобный шум всегда будет присутствовать в датасетах. В задачах классификации одна из причин шума – невозможность однозначно провести границу между классами. Для большинства современных моделей наличие шума в данных объемом до 10% – несерьезная проблема. Поэтому, если датасет создан грамотно или найденный набор данных надежен, результат будет удовлетворительным. 

Но что делать, если нужно решить специфическую задачу, для которой доступен только один датасет сомнительного качества? Или вам недоступны средства для качественной разметки, вы вынуждены размечать данные вручную и хотите проверить себя? На помощь придут алгоритмы чистки данных.

Читать далее
Всего голосов 4: ↑4 и ↓0 +4
Просмотры 5K
Комментарии 4

Данные всех стран, не объединяйтесь

Блог компании Wrike Data Mining *Математика *Машинное обучение *Статистика в IT
Радует, когда на диаграмме кроме новых созвездий находится нечто похожее на зависимость. В таком случае мы строим модель, которая хорошо объясняет связь между двумя переменными. Но исследователь должен понимать не только, как работать с данными, но и какая история из реального мира за ними лежит. В противном случае легко сделать ошибку. Расскажу о парадоксе Симпсона — одном из самых опасных примеров обманчивых данных, который может перевернуть связь с ног на голову.
Читать дальше →
Всего голосов 109: ↑109 и ↓0 +109
Просмотры 19K
Комментарии 10

Сказ о том, как мы BigQuery приручали

Python *SQL *Big Data *Google Cloud Platform *
Из песочницы

Задача


На самом деле, задача, о которой хочется рассказать, проста до уныния по своей формулировке: нужно было визуализировать данные по продажам отдела e-commerce малой кровью, т.е., читай, практически даром.

Читать дальше →
Всего голосов 12: ↑12 и ↓0 +12
Просмотры 6.9K
Комментарии 9

Визуализация больших графов для самых маленьких

Блог компании Open Data Science Data Mining *Визуализация данных Машинное обучение *Искусственный интеллект


Что делать, если вам нужно нарисовать граф, но попавшиеся под руку инструменты рисуют какой-то комок волос или вовсе пожирают всю оперативную память и вешают систему? За последние пару лет работы с большими графами (сотни миллионов вершин и рёбер) я испробовал много инструментов и подходов, и почти не находил достойных обзоров. Поэтому теперь пишу такой обзор сам.
Читать дальше →
Всего голосов 95: ↑94 и ↓1 +93
Просмотры 43K
Комментарии 30

Геокодирование. Как привязать 250 тысяч адресов к координатам за 10 минут?

Python *Maps API *Геоинформационные сервисы *
Из песочницы


Привет, Хабр!

В этой статье я хотел бы поделиться опытом решения маленькой проблемы с большим количеством адресов. Если вы когда-либо работали с API геокодирования или пользовались онлайн инструментами, то думаю вы разделяете мою боль ожидания результата в течение нескольких часов, а то и больше.

Речь идет не о сложных алгоритмах оптимизации, а об использовании сервиса пакетного геокодирования, который принимает на вход список адресов и возвращает файл с результатами. Тем самым можно сократить время обработки с нескольких часов до минут.
Читать дальше →
Всего голосов 8: ↑7 и ↓1 +6
Просмотры 9K
Комментарии 16

Когда закончится коронавирус

Data Mining *Data Engineering *
Из песочницы

Уважаемые читатели,


Я руковожу отделом Data Science в Британской Транспортной Полиции, и одной из задач нашего отдела является оптимальное распределение персонала в зависимости от уровня преступности, который, в свою очередь, зависит от потока пассажиров. Как вы понимаете, поток пассажиров стремительно изменится, как только правительство решит снять карантин или ослабить связанные с карантином меры. Закономерно возникает вопрос — когда закончится пандемия и как подготовиться к возвращению к нормальной жизни.

Читать дальше →
Всего голосов 26: ↑18 и ↓8 +10
Просмотры 11K
Комментарии 27

Практическое руководство по разработке бэкенд-сервиса на Python

Блог компании Яндекс Python *Программирование *Анализ и проектирование систем *Тестирование веб-сервисов *
Tutorial
Привет, меня зовут Александр Васин, я бэкенд-разработчик в Едадиле. Идея этого материала началась с того, что я хотел разобрать вступительное задание (Я.Диск) в Школу бэкенд-разработки Яндекса. Я начал описывать все тонкости выбора тех или иных технологий, методику тестирования… Получался совсем не разбор, а очень подробный гайд по тому, как писать бэкенды на Python. От первоначальной идеи остались только требования к сервису, на примере которых удобно разбирать инструменты и технологии. В итоге я очнулся на сотне тысяч символов. Ровно столько потребовалось, чтобы рассмотреть всё в мельчайших подробностях. Итак, программа на следующие 100 килобайт: как строить бэкенд сервиса, начиная от выбора инструментов и заканчивая деплоем.



TL;DR: Вот репка на GitHub с приложением, а кто любит (настоящие) лонгриды — прошу под кат.
Читать дальше →
Всего голосов 70: ↑68 и ↓2 +66
Просмотры 98K
Комментарии 50

Подготовка к собеседованиям в IT-гиганты: как я преодолела проклятье алгоритмического собеседования

Программирование *Учебный процесс в IT Карьера в IT-индустрии IT-компании
🔥 Технотекст 2020

Дисклеймер:


Я не программирую с трёх лет, не знаю наизусть Кнута, не являюсь призёром олимпиад по информатике и чемпионатов по спортивному программированию, не училась в MIT. У меня за плечами образование по информатике и 6 лет опыта в коммерческой разработке. И до недавнего времени я не могла пройти дальше первого технического скрининга в IT-гиганты из FAANG (Facebook, Amazon, Apple, Netflix, Google и подобные), хотя предпринимала несколько попыток. 

Но теперь всё изменилось, я получила несколько офферов и хочу поделиться опытом, как можно к этому прийти. Речь пойдёт о позиции Software Engineer в европейских офисах перечисленных компаний.
Читать дальше →
Всего голосов 201: ↑196 и ↓5 +191
Просмотры 183K
Комментарии 343

PSR Стандарты

PHP *
PHP-FIG

PSR — Чуть больше, чем стиль оформления кода.

Как показала практика, многие PHP-разработчики знакомы с аббревиатурой PSR. Однако большинство все еще ограничены знанием, что PSR это стандарт оформления кода.

Ребята из PHP-FIG (PHP Framework Interop Group), группа концепций совместимости PHP, которые занимаются развитием PSR (PHP Standards Recommendations) шагнули далеко вперед. Поэтому давайте разберемся, что из себя представляет PSR…

Читать дальше →
Всего голосов 33: ↑32 и ↓1 +31
Просмотры 55K
Комментарии 39

Умирает ли RuTracker? Анализируем раздачи

Data Mining *R *Визуализация данных
Из песочницы
🔥 Технотекст 2020

Любая деятельность генерирует данные. Чем бы вы ни занимались, у вас наверняка на руках кладезь необработаной полезной информации, ну или хотя бы доступ к его источнику.


Сегодня побеждает тот, кто принимает решения, основываясь на объективных данных. Навыки аналитика как никогда актуальны, а наличие под рукой необходимых для этого инструментов позволяет всегда быть на шаг впереди. Это и является подспорьем появления данной статьи.


У вас есть свой бизнес? Или может… хотя, не важно. Сам процесс добычи данных бесконечен и увлекателен. И даже просто хорошо покопавшись в интернете можно найти себе поле для деятельности.


Вот, что мы имеем сегодня – Неофициальная XML-база раздач сайта RuTracker.ORG. База обновляется раз в полгода и содержит в себе информацию о всех раздачах за историю существования данного торрент-трекера.


Что она может рассказать владельцам рутрекера? А непосредственным пособникам пиратства в интернете? Или обычному юзеру, увлекающемуся аниме, например?

Читать дальше →
Всего голосов 191: ↑187 и ↓4 +183
Просмотры 222K
Комментарии 296

PHP-Дайджест № 178 (6 – 21 апреля 2020)

Разработка веб-сайтов *PHP *Symfony *Yii *Laravel *

Свежая подборка со ссылками на новости и материалы. В выпуске: Composer 2.0 Alpha и другие релизы, 5 новых и одно принятое RFC предложение из PHP Internals, а также обновленные атрибуты на голосовании, порция полезных инструментов, подкасты, интервью и многое другое.

Приятного чтения!

Читать дальше →
Всего голосов 47: ↑47 и ↓0 +47
Просмотры 11K
Комментарии 6

Аналитика девушек с низкой социальной ответственностью (Заряжено Power BI, Qlik Sense, Tableau)

Data Mining *Brainfuck *Big Data *Визуализация данных Исследования и прогнозы в IT
Из песочницы

Кто мы такие и какие были предпосылки проекта?


Добрый день, меня зовут Лазарев Владимир, я руководитель BI-интегратора Аналитикс Групп. Мы делаем для бизнеса наглядные отчёты по маркетингу, продажам, финансам, логистике на базе ведущих аналитических платформ Qlik Sense, Power BI, Tableau.

В BI платформах очень важна визуальная составляющая. Если вы посмотрели десятки демо-отчетов BI-систем и вам не нравится как выглядит та или иная платформа, то скорее всего вы ее не будете внедрять, даже если вас устраивает цена и технические характеристики. Исходя из этого рождается необходимость увидеть одни и те же данные в разных аналитических платформах, чтобы можно было сопоставить.

И желательно, чтобы данные были интересными… :-)

Откуда появилась идея сделать этот отчёт?


Несколько лет назад Высшая школа экономики опубликовала статью о формировании цен на услуги девушек низкой социальной ответственности в Москве. Это были агрегированные данные анализа 1.800 анкет. Нам показались интересными данные, которые стоят за этими выводами социологов ВШЭ. И мы решили проработать эту тематику.
Читать дальше →
Всего голосов 171: ↑139 и ↓32 +107
Просмотры 119K
Комментарии 165

Простой план-фактный анализ в Power BI Desktop. Часть вторая – визуализация

Визуализация данных
Tutorial
Всем привет!

Перед вами продолжение рассказа про план-фактный анализ в Power BI Desktop. Первую часть можно почитать здесь. Если хотите прочитать в целом про платформу Power BI, то добро пожаловать сюда.
Сегодня расскажу про построение интерактивных отчётов и совсем немного про создание вычисляемых полей в Power BI Desktop. Под катом будет много гифок, так что аккуратнее с трафиком.

Внешний вид Power BI Desktop
Рисунок 1. Внешний вид Power BI Desktop
Читать дальше →
Всего голосов 13: ↑12 и ↓1 +11
Просмотры 25K
Комментарии 6

Простой план-фактный анализ в Power BI Desktop. Часть первая – консолидация и очистка данных

Data Mining *Визуализация данных
Из песочницы
Tutorial
UPD: Обновил публикации в связи с выходом Power BI Desktop из стадии Preview 24 июля.

Сегодня хочу рассказать про построение простого дашборда с план-фактным анализом доходов и расходов в Power BI Desktop и Power BI. В первой части рассмотрим работу с запросами, научимся объединять данные из нескольких источников и выполнять их очистку.

Исходные данные: несколько файлов Excel в которых хранится информация о показателях доходов и расходов компании за некоторое время. Поскольку форма отчетов и статьи учета несколько раз менялись, то листы с информацией имеют похожую, но не совсем одинаковую структуру. На выходе требуется получить нечто, что позволит руководителям получить представление о том, что происходит с финансами компании
Давайте посмотрим, как Power BI Desktop позволит объединить данные и их визуализировать.

Стартовое окно Power BI Desktop
Рисунок 1. Стартовое окно Power BI Desktop

Читать дальше →
Всего голосов 8: ↑8 и ↓0 +8
Просмотры 33K
Комментарии 2

Новости Microsoft: поддержка R, новый Power BI для аналитики и отчетов, анимация и 3D-графика в облаке

Блог компании Microsoft Big Data *Microsoft Azure R *
За последние несколько дней в экосистеме Microsoft произошло сразу три достаточно больших и серьезных события, между собой не связанные, но, так или иначе, имеющие принадлежность к сервисам в облаке и, что еще интересно, к науке и исследованиям. Для того, чтобы не писать три новости, мы решили объединить их в одну. Подробнее – под катом.

Итак:
  1. Open-source пакет для 3D-анимации Blender стал доступен для использования с нашей поддержкой в Microsoft Azure Batch – сервисе для осуществления серий расчетов в облаке.
  2. Microsoft достигла соглашения о приобретении Revolution Analytics – ведущего разработчика ПО и сервисов для R. Как известно, R – один из самых используемых языков для predictive analytics и статанализа. Соглашение с авторитетной в этой области компанией, имеющей большую экспертизу, означает новую функциональность и возможности для разработчиков.
  3. Анонс Power BI Preview – облачного сервиса для бизнес-аналитики для нетехнических бизнес-пользователей.

Читать дальше →
Всего голосов 29: ↑26 и ↓3 +23
Просмотры 13K
Комментарии 5

Технические отличия BI систем (Power BI, Qlik Sense, Tableau)

Data Mining *Big Data *Визуализация данных Исследования и прогнозы в IT
Время необходимое на прочтение 11 минут

Мы и Квадрат Гартнера 2019 BI :-)


Целью данной статьи является сравнение трёх ведущих BI платформ, которые находятся в лидерах квадранта Gartner:
— Power BI (Microsoft)
— Tableau
— Qlik

image
Рисунок 1. Gartner BI Magic Quadrant 2019

Меня зовут Андрей, я руководитель отдела аналитики компании Аналитикс Групп. Мы строим наглядные отчёты по маркетингу, продажам, финансам, логистике, другими словами занимаемся бизнес аналитикой и визуализацией данных.

Я со своими коллегами уже несколько лет работаем с различными BI платформами. Имеем весьма неплохой опыт проектов, что позволяет нам сравнивать платформы с точки зрения разработчиков, аналитиков, бизнес-пользователей и внедренцев BI систем.

У нас будет отдельная статья по сравнению цен и визуальному оформлению этих BI систем, поэтому тут постараемся оценить эти системы именно с точки зрения аналитика и разработчика.

Выделим несколько направлений для анализа и оценим по 3 бальной системе:
— Порог вхождения и требования к аналитику;
— Источники данных;
— Очистка данных, ETL (Extract, Transform, Load)
— Визуализации и разработка
— Корпоративная среда — сервер, отчеты
— Поддержка мобильных устройств
— Embedded (встроенная) аналитика в сторонние приложения/сайты

Читать дальше →
Всего голосов 12: ↑12 и ↓0 +12
Просмотры 63K
Комментарии 38

Как обойти ошибки при построении отчетности в Power BI и прийти к построению системы выгрузки для больших данных

Блог компании Агентство AGIMA Python *Google API *Яндекс API *Google Cloud Platform *
🔥 Технотекст 2020


За красивыми и понятными дашбордами Power BI часто скрываются недели подготовки и сведения данных. Особенно когда речь идет о построении полезной BI-отчетности в крупной организации с объемом трафика в десятки миллионов посетителей ежемесячно.

В данной статье я хочу описать ряд негативных моментов, с которыми столкнулся при построении BI-отчетности, основанной на данных из систем веб-аналитики в ряде компаний (крупные представители российского e-commerce, страховые компании и т.д.). Статья не имеет цель сделать антирекламу или наоборот рекламу тех или иных инструментов или решений. Она подготовлена для того, чтобы по возможности помочь избежать негативных моментов другим пользователям и указать на варианты решений.

Дисклеймер


Я говорю о больших объемах данных и показываю примеры выгрузки и сэмплинга из Google Analytics 360. На проектах с небольшим объемом данных таких сложностей может не быть. Со всеми обозначенными проблемами я встретился на практике и в статье описываю исключительно свой опыт решения — ваши могут быть совершенно другими.
Читать дальше →
Всего голосов 8: ↑8 и ↓0 +8
Просмотры 11K
Комментарии 5

Сравниваем PHP FPM, PHP PPM, Nginx Unit, React PHP и RoadRunner

Высокая производительность *PHP *Программирование *Тестирование веб-сервисов *


Тестирование производилось с помощью Yandex Tank.
В качестве приложения использовались Symfony 4 и PHP 7.2.
Целью являлось сравнение характеристик сервисов при разных нагрузках и нахождение оптимального варианта.
Для удобства все собрано в docker-контейнеры и поднимается с помощью docker-compose.
Под катом много таблиц и графиков.
Читать дальше →
Всего голосов 72: ↑67 и ↓5 +62
Просмотры 41K
Комментарии 46

Spiral: высокопроизводительный PHP/Go фреймворк

Высокая производительность *PHP *Go *


Привет, Хабр. Меня зовут Антон Титов, CTO компании Spiral Scout. Сегодня я хотел бы рассказать вам про нашего PHP-слона. А точнее про вторую версию опен-сорсного full-stack PHP/Go фреймворка — Spiral.

Spiral — это компонентный full-stack фреймворк, разрабатываемый нашей компанией более одиннадцати лет и обслуживающий под сотню реальных проектов. Программный пакет основан на множестве открытых и собственных библиотек, включая RoadRunner и Cycle ORM.

Фреймворк совместим с большинством PSR рекомендаций, поддерживает MVC и работает в 5-10 раз быстрее Laravel/Symfony.

Если вы никогда не слышали о Spiral и гадаете, что такое PHP/Go фреймворк и куда делась первая версия — добро пожаловать под кат.
Читать дальше →
Всего голосов 34: ↑33 и ↓1 +32
Просмотры 13K
Комментарии 61

Информация

В рейтинге
Не участвует
Откуда
Санкт-Петербург, Санкт-Петербург и область, Россия
Дата рождения
Зарегистрирован
Активность