Как стать автором
Обновить
21
0
Генрих @Ananiev_Genrih

аналитика и визуализация данных

Отправить сообщение

Tidy stemming велосипед, который поехал

Время на прочтение9 мин
Количество просмотров1.9K

Когда в NLP задачах речь доходит до стемминга, то никто особо не заморачивается - берет готовую реализацию, и она работает. Правда работает она только в тех случаях, когда текст является "классическим", то есть это человекочитаемый текст без огромного числа сокращений слов , и сами слова не являются транслитерацией с чужого языка.

Но что делать когда в качестве текста приходит например массив названий продуктов из внешних баз данных большого числа поставщиков и надо как-то автоматизировать классификацию (разные по написанию продукты свести к одному эталонному)?

Например возьмём винную продукцию где мало того-что много франко-итальянских написаний на русском, так и еще сокращения достигают до 20% от исходного полного слова (ограничения на длину строки в учетных системах поставщиков).

Это касается не только вина а любых продуктов, прочитайте в чеке названия продуктов которые вы купили в магазине, а теперь представьте что у вас есть второй чек из другого магазина с тем же продуктом и теперь надо провести стемминг чтобы максимально близко свести в многомерном пространстве одно наименование к другому.

Здесь классический стемминг остается не у дел, а вот о его замене в этой статье и поговорим.

Читать далее
Всего голосов 8: ↑8 и ↓0+8
Комментарии3

EDA под другим углом

Время на прочтение10 мин
Количество просмотров21K
image

Поговорим не про еду, а про разведочный анализ данных (exploratory data analysis, EDA) который является обязательной прелюдией перед любым суровым ML.

Будем честны, процесс довольно занудный, и чтобы выцепить хоть какие-то значимые инсайты про наши данные — требуется потратить достаточное количество времени активно используя любимую библиотеку визуализации.

А теперь представим что мы довольно ленивы (но любопытны) и будем следовать этому постулату всю эту статью.
Читать дальше →
Всего голосов 7: ↑7 и ↓0+7
Комментарии4

Пилим данные с комфортом

Время на прочтение10 мин
Количество просмотров2.9K
image

Доброго времени дня.

В реальной практике довольно часто сталкиваешься с задачами, далекими от сложных ML алгоритмов, но при этом являющихся не менее важными и насущными для бизнеса.
Поговорим об одной из них.

Задача сводится к тому что бы распределить (распилить, рассплитовать — жаргон бизнеса неиссякаем) данные какой-нибудь целевой таблицы с агрегатами (совокупные значения) на таблицу более детальной гранулярности.

Например коммерческому департаменту надо разбить годовой план, согласованный на уровне брендов — детально до продукции, маркетологам разбить годовой бюджет маркетинга по территориям страны, планово-экономическому департаменту разбить общехозяйственные издержки по центрам финансовой ответственности, и т.д. и т.п.

Если вы почувствовали что задачи подобные этой уже маячат перед вами на горизонте или уже относитесь к пострадавшим от таких задач, то прошу под кат.
Читать дальше →
Всего голосов 7: ↑7 и ↓0+7
Комментарии4

Power Pivot: Оконные функции под соусом DAX

Время на прочтение6 мин
Количество просмотров39K
[в связи со спорным переносом 1 части поста на geektimes (при том что 2-я часть осталась на хабре) возвращаю 1-ю часть на место]

Работая в сфере аналитики и мониторя различные инструменты BI рано или поздно наталкиваешься на обзор или упоминание надстройки Power Pivot Excel. В моем случае знакомство с ним произошло на конференции Microsoft Data Day.

Особых впечатлений после презентации инструмент не оставил: Да, бесплатен (в рамках лицензии Office), да — есть некий ETL функционал в части получения данных с разрозненных источников (БД,csv,xls, и т.д.), Join-ов этих источников и скармливания в оперативку записей на порядки выше 1 млн.строк в Excel. Короче, посмотрел и забыл.

А вспомнить пришлось, когда появилась необходимость идентификации определённых явлений в данных
Читать дальше →
Всего голосов 5: ↑4 и ↓1+3
Комментарии0

Power Pivot: Оконные функции под соусом DAX (еще немного специй)

Время на прочтение3 мин
Количество просмотров16K
image
Продолжение статьи о сравнении возможностей оконных функций SQL Server и формул DAX
Читать дальше →
Всего голосов 4: ↑4 и ↓0+4
Комментарии1

Power Pivot: Оконные функции под соусом DAX

Время на прочтение1 мин
Количество просмотров9.4K
в связи со спорным переносом 1 части поста на geektimes (при том что 2-я часть осталась на хабре) возвращаю 1-ю часть на место.
Первая часть здесь:
habrahabr.ru/post/245631
Всего голосов 10: ↑10 и ↓0+10
Комментарии0

Информация

В рейтинге
5 445-й
Откуда
Москва, Москва и Московская обл., Россия
Дата рождения
Зарегистрирован
Активность

Специализация

Data Analyst, BI Developer
Lead