Pull to refresh
2
-1
Pavel Denisenko @kolxo3nick

Data

Send message

17 мгновений миграции DWH X5 Group

Reading time13 min
Views2.8K

Каждый человек по мере взросления встречает множество вызовов на своём жизненном пути. Ответы на эти вызовы формируют его личность. То же самое происходит и с командой. 

Для нас, офиса CDO X5, пожалуй, определяющим был 2022 год. В том году мы выполнили проект такого масштаба и уровня сложности, какими мало кто может похвастаться. В него была вовлечена вся команда. А главное, что он не просто завершился успешным внедрением, но и дал нам вместе больше, чем каждому из нас по отдельности. За 9 месяцев мы выполнили миграцию аналитики и данных из SAP BW на ClickHouse и GreenPlum. 

В серии статей, которую мы открываем этой публикацией, мы расскажем о 17-ти эпизодах, имевших место по ходу этого проекта. Поделимся своим опытом в том, как реализуются масштабные проекты в крупных компаниях, какие технологические решения используются для аналитики, как принимаются ключевые управленческие решения, как на деле выглядит гибкая антикризисная стратегия. В этой статье представлены первые пять эпизодов.

Читать далее
Total votes 9: ↑7 and ↓2+5
Comments1

Лингвистический Epic fail, или Как запихнуть весь словарь русского языка в Power BI

Reading time7 min
Views9K
image

Как-то, решая проблему лингвистического анализа в Power BI и заодно подыскивая примеры для моей предыдущей статьи, я вспомнил о задаче, которую пытался решить в Excel ещё несколько лет назад: нужно было внедрить в аналитическую систему словарь русского языка для лингвистического анализа большого количества запросов на естественном языке. Причём желательно было использовать стандартные офисные инструменты. Подавляющее большинство людей сразу взялись бы решать эту задачу в Excel, и я когда-то пошёл по тому же пути. В качестве словаря использовал открытый корпус русского языка (http://opencorpora.org/).

Но меня ждало разочарование — словарь состоял из 300 тыс. словоформ, более 5 млн записей, а для Excel это в принципе невозможный объём. Даже если запихнуть в него «всего лишь» 1 млн строк, то выполнять с ними какие-то манипуляции или, упаси боже, вычисления, сможет только очень терпеливый человек, который вообще никогда и никуда не торопится. Но в этот раз я решил натравить на задачу более подходящий инструмент — Power BI.
Читать дальше →
Total votes 24: ↑23 and ↓1+22
Comments18

Совершеннолетняя журналистика: от России до Кремля

Reading time5 min
Views9.3K

Анализ публикаций Lenta.ru за 18 лет (с сентября 1999 по декабрь 2017 гг.) средствами python, sklearn, scipy, XGBoost, pymorphy2, nltk, gensim, MongoDB, Keras и TensorFlow.



В исследовании использованы данные из поста «Анализируй это — Lenta.ru» пользователя ildarchegg. Автор любезно предоставил 3 гигабайта статей в удобном формате, и я решил, что это прекрасная возможность протестировать некоторые методы текстовой обработки. Заодно, если повезёт, узнать что-то новое о российской журналистике, обществе и вообще.

Читать дальше →
Total votes 26: ↑25 and ↓1+24
Comments11

Был нужен отчет…

Reading time4 min
Views5.2K
Часто случается так, что конечной целью существования информационной системы предприятия является актуальность данных отчетности, используемой руководством предприятия или предоставляемой в государственные органы.

При этом утвержденные требования к отчетности уже имеются, как и отчеты, которые сегодня конечно же составляются не на бумаге, а скажем в программе MS EXCEL, но зачастую как и прежде содержат ничем не подкрепленные сводные цифры присланные «из отделов». Конечно, на качество данной информации положительно влияют высокая вероятность последующих проверок и строгость наступающей ответственности, но от ошибок это не спасает. О том как отвлекает эта «работа» специалистов от их профессиональной деятельности и об их отношении к отчетности можно не говорить.

Конечно теперь у многих организаций есть информационные системы инвентарного учета, но структура конкретного учета определяется конфигурацией данной информационной системы и заложенной информационной моделью учитываемых объектов организации.
В данной статье хочу описать подход к проектированию информационной модели учетной (inventory) системы на основе требований к необходимой отчетности предприятия…
Читать дальше →
Total votes 11: ↑11 and ↓0+11
Comments11

От Alibaba до «Пятерочки»: кто и как использует систему распознавания лиц в бизнесе

Reading time5 min
Views19K
Платить за бургер без карты, не ждать регистрации в отеле, не стоять в очереди на кассу —все это возможно с помощью технологий распознавания лиц. В последние годы подобные решения активно тестируют многие крупные российские и зарубежные ритейлеры. Мы отобрали пять самых интересных примеров.



Узнать больше о том, как использовать распознавание лиц, нейросети и машинное обучение в бизнесе, можно на интенсивном курсе AI School.
Читать дальше →
Total votes 27: ↑27 and ↓0+27
Comments18

Data Modeling Zone EU 2017

Reading time15 min
Views3.6K
В самом начале нового рабочего года — несколько слов об одном из событий года прошедшего.

Введение


Data Modeling Zone — франшиза, которая объединяет конференции по вопросам построения логической архитектуры баз данных. Последние несколько лет проводилась в США и Европе, а в этом году впервые пройдет в Австралии. В 2017 году под брендом DMZ было организовано два форума, оба прошли осенью: 16—18 октября — в Хартфорде, США, а 23—25 октября — в немецком Дюссельдорфе. Мне довелось принять участие в роли слушателя в последней из них. В этой статье представлен краткий обзор презентаций, которые я увидел на конференции, и мои впечатления о ней в целом.

Название конференции недвусмысленно намекает, что ключевой вопрос — разные аспекты построения модели данных. Большинство анонсированных тем связаны с хранилищами данных, но были и актуальные для любой информационной системы. Мои ожидания были противоречивыми: с одной стороны, в числе выступающих — признанные лидеры сообщества, с другой — обилие часовых презентаций, не предусматривающих глубокого рассмотрения вопросов.

Основная программа была представлена пятью треками:

  • Foundational Data Modeling
  • Agile and Requirements
  • Big Data and Architecture
  • Hands-On and Case Studies
  • Advanced Data Modeling
каждый из которых был поделен на 11 временных слотов в течение двух дней. Временная нарезка у всех пяти треков была общая, что позволило комбинировать презентации из разных блоков.

1-й день


Регистрация


Вместе с бейджем участникам выдавался набор наклеек. С их помощью владелец бейджа мог указать языки, на которых говорит, и выбрать одну или несколько профессиональных ролей. Идея оригинальная и занятная, но бесполезная.

image

Читать дальше →
Total votes 15: ↑9 and ↓6+3
Comments1

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity