Articles / Profile of Ananiev

Генрих @Ananiev_Genrih

аналитика и визуализация данных

Profile Publications 7Comments 125Bookmarks 122

Ananiev_Genrih Apr 4 2022 at 09:50

Tidy stemming велосипед, который поехал

9 min

1.8K

Data Mining*R*Natural Language Processing*

Когда в NLP задачах речь доходит до стемминга, то никто особо не заморачивается - берет готовую реализацию, и она работает. Правда работает она только в тех случаях, когда текст является "классическим", то есть это человекочитаемый текст без огромного числа сокращений слов , и сами слова не являются транслитерацией с чужого языка.

Но что делать когда в качестве текста приходит например массив названий продуктов из внешних баз данных большого числа поставщиков и надо как-то автоматизировать классификацию (разные по написанию продукты свести к одному эталонному)?

Например возьмём винную продукцию где мало того-что много франко-итальянских написаний на русском, так и еще сокращения достигают до 20% от исходного полного слова (ограничения на длину строки в учетных системах поставщиков).

Это касается не только вина а любых продуктов, прочитайте в чеке названия продуктов которые вы купили в магазине, а теперь представьте что у вас есть второй чек из другого магазина с тем же продуктом и теперь надо провести стемминг чтобы максимально близко свести в многомерном пространстве одно наименование к другому.

Здесь классический стемминг остается не у дел, а вот о его замене в этой статье и поговорим.

Ananiev_Genrih Dec 26 2021 at 16:38

Утиные истории со стрелами на паркете

9 min

5.6K

Python*R*Data Engineering*

Review

Сказ про то как Apache Arrow к уткам по паркету ходил.

Ananiev_Genrih Dec 20 2019 at 15:18

EDA под другим углом

10 min

20K

R*Data visualization*

Поговорим не про еду, а про разведочный анализ данных (exploratory data analysis, EDA) который является обязательной прелюдией перед любым суровым ML.

Будем честны, процесс довольно занудный, и чтобы выцепить хоть какие-то значимые инсайты про наши данные — требуется потратить достаточное количество времени активно используя любимую библиотеку визуализации.

А теперь представим что мы довольно ленивы (но любопытны) и будем следовать этому постулату всю эту статью.

Читать дальше →

Ananiev_Genrih Feb 3 2019 at 00:15

Пилим данные с комфортом

10 min

2.8K

Доброго времени дня.

В реальной практике довольно часто сталкиваешься с задачами, далекими от сложных ML алгоритмов, но при этом являющихся не менее важными и насущными для бизнеса.
Поговорим об одной из них.

Задача сводится к тому что бы распределить (распилить, рассплитовать — жаргон бизнеса неиссякаем) данные какой-нибудь целевой таблицы с агрегатами (совокупные значения) на таблицу более детальной гранулярности.

Например коммерческому департаменту надо разбить годовой план, согласованный на уровне брендов — детально до продукции, маркетологам разбить годовой бюджет маркетинга по территориям страны, планово-экономическому департаменту разбить общехозяйственные издержки по центрам финансовой ответственности, и т.д. и т.п.

Если вы почувствовали что задачи подобные этой уже маячат перед вами на горизонте или уже относитесь к пострадавшим от таких задач, то прошу под кат.

Читать дальше →

Ananiev_Genrih Dec 11 2014 at 17:51

Power Pivot: Оконные функции под соусом DAX

6 min

38K

Microsoft SQL Server*

[в связи со спорным переносом 1 части поста на geektimes (при том что 2-я часть осталась на хабре) возвращаю 1-ю часть на место]

Работая в сфере аналитики и мониторя различные инструменты BI рано или поздно наталкиваешься на обзор или упоминание надстройки Power Pivot Excel. В моем случае знакомство с ним произошло на конференции Microsoft Data Day.

Особых впечатлений после презентации инструмент не оставил: Да, бесплатен (в рамках лицензии Office), да — есть некий ETL функционал в части получения данных с разрозненных источников (БД,csv,xls, и т.д.), Join-ов этих источников и скармливания в оперативку записей на порядки выше 1 млн.строк в Excel. Короче, посмотрел и забыл.

А вспомнить пришлось, когда появилась необходимость идентификации определённых явлений в данных

Читать дальше →

Ananiev_Genrih Sep 19 2014 at 16:46

Power Pivot: Оконные функции под соусом DAX (еще немного специй)

3 min

16K

Microsoft SQL Server*

Продолжение статьи о сравнении возможностей оконных функций SQL Server и формул DAX

Читать дальше →

Ananiev_Genrih Jul 13 2014 at 11:17

Power Pivot: Оконные функции под соусом DAX

1 min

9.4K

IT-companies

From sandbox

в связи со спорным переносом 1 части поста на geektimes (при том что 2-я часть осталась на хабре) возвращаю 1-ю часть на место.
Первая часть здесь:
habrahabr.ru/post/245631

+10

Tidy stemming велосипед, который поехал

Утиные истории со стрелами на паркете

EDA под другим углом

Пилим данные с комфортом

Power Pivot: Оконные функции под соусом DAX

Power Pivot: Оконные функции под соусом DAX (еще немного специй)

Power Pivot: Оконные функции под соусом DAX

Information

Specialization