Pull to refresh
20
0
Генрих @Ananiev_Genrih

аналитика и визуализация данных

Send message

Tidy stemming велосипед, который поехал

Reading time9 min
Views1.8K

Когда в NLP задачах речь доходит до стемминга, то никто особо не заморачивается - берет готовую реализацию, и она работает. Правда работает она только в тех случаях, когда текст является "классическим", то есть это человекочитаемый текст без огромного числа сокращений слов , и сами слова не являются транслитерацией с чужого языка.

Но что делать когда в качестве текста приходит например массив названий продуктов из внешних баз данных большого числа поставщиков и надо как-то автоматизировать классификацию (разные по написанию продукты свести к одному эталонному)?

Например возьмём винную продукцию где мало того-что много франко-итальянских написаний на русском, так и еще сокращения достигают до 20% от исходного полного слова (ограничения на длину строки в учетных системах поставщиков).

Это касается не только вина а любых продуктов, прочитайте в чеке названия продуктов которые вы купили в магазине, а теперь представьте что у вас есть второй чек из другого магазина с тем же продуктом и теперь надо провести стемминг чтобы максимально близко свести в многомерном пространстве одно наименование к другому.

Здесь классический стемминг остается не у дел, а вот о его замене в этой статье и поговорим.

Читать далее
Total votes 8: ↑8 and ↓0+8
Comments3

EDA под другим углом

Reading time10 min
Views20K
image

Поговорим не про еду, а про разведочный анализ данных (exploratory data analysis, EDA) который является обязательной прелюдией перед любым суровым ML.

Будем честны, процесс довольно занудный, и чтобы выцепить хоть какие-то значимые инсайты про наши данные — требуется потратить достаточное количество времени активно используя любимую библиотеку визуализации.

А теперь представим что мы довольно ленивы (но любопытны) и будем следовать этому постулату всю эту статью.
Читать дальше →
Total votes 7: ↑7 and ↓0+7
Comments4

Пилим данные с комфортом

Reading time10 min
Views2.8K
image

Доброго времени дня.

В реальной практике довольно часто сталкиваешься с задачами, далекими от сложных ML алгоритмов, но при этом являющихся не менее важными и насущными для бизнеса.
Поговорим об одной из них.

Задача сводится к тому что бы распределить (распилить, рассплитовать — жаргон бизнеса неиссякаем) данные какой-нибудь целевой таблицы с агрегатами (совокупные значения) на таблицу более детальной гранулярности.

Например коммерческому департаменту надо разбить годовой план, согласованный на уровне брендов — детально до продукции, маркетологам разбить годовой бюджет маркетинга по территориям страны, планово-экономическому департаменту разбить общехозяйственные издержки по центрам финансовой ответственности, и т.д. и т.п.

Если вы почувствовали что задачи подобные этой уже маячат перед вами на горизонте или уже относитесь к пострадавшим от таких задач, то прошу под кат.
Читать дальше →
Total votes 7: ↑7 and ↓0+7
Comments4

Power Pivot: Оконные функции под соусом DAX

Reading time6 min
Views38K
[в связи со спорным переносом 1 части поста на geektimes (при том что 2-я часть осталась на хабре) возвращаю 1-ю часть на место]

Работая в сфере аналитики и мониторя различные инструменты BI рано или поздно наталкиваешься на обзор или упоминание надстройки Power Pivot Excel. В моем случае знакомство с ним произошло на конференции Microsoft Data Day.

Особых впечатлений после презентации инструмент не оставил: Да, бесплатен (в рамках лицензии Office), да — есть некий ETL функционал в части получения данных с разрозненных источников (БД,csv,xls, и т.д.), Join-ов этих источников и скармливания в оперативку записей на порядки выше 1 млн.строк в Excel. Короче, посмотрел и забыл.

А вспомнить пришлось, когда появилась необходимость идентификации определённых явлений в данных
Читать дальше →
Total votes 5: ↑4 and ↓1+3
Comments0

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity

Specialization

Data Analyst, BI Developer
Lead