Articles / Bookmarks / Profile of kolxo3nick / Habr

Pavel Denisenko @kolxo3nick

Data

Profile Publications 2Comments 3Bookmarks 6

kolxo3nick Jan 18 at 15:04

17 мгновений миграции DWH X5 Group

13 min

2.8K

IT Infrastructure*Big Data*Data storage*Project management*X5 Tech corporate blog

Case

Каждый человек по мере взросления встречает множество вызовов на своём жизненном пути. Ответы на эти вызовы формируют его личность. То же самое происходит и с командой.

Для нас, офиса CDO X5, пожалуй, определяющим был 2022 год. В том году мы выполнили проект такого масштаба и уровня сложности, какими мало кто может похвастаться. В него была вовлечена вся команда. А главное, что он не просто завершился успешным внедрением, но и дал нам вместе больше, чем каждому из нас по отдельности. За 9 месяцев мы выполнили миграцию аналитики и данных из SAP BW на ClickHouse и GreenPlum.

В серии статей, которую мы открываем этой публикацией, мы расскажем о 17-ти эпизодах, имевших место по ходу этого проекта. Поделимся своим опытом в том, как реализуются масштабные проекты в крупных компаниях, какие технологические решения используются для аналитики, как принимаются ключевые управленческие решения, как на деле выглядит гибкая антикризисная стратегия. В этой статье представлены первые пять эпизодов.

JetHabr Nov 8 2018 at 10:18

Лингвистический Epic fail, или Как запихнуть весь словарь русского языка в Power BI

7 min

Semantics*Programming*Big Data*Инфосистемы Джет corporate blogSoftware

Как-то, решая проблему лингвистического анализа в Power BI и заодно подыскивая примеры для моей предыдущей статьи, я вспомнил о задаче, которую пытался решить в Excel ещё несколько лет назад: нужно было внедрить в аналитическую систему словарь русского языка для лингвистического анализа большого количества запросов на естественном языке. Причём желательно было использовать стандартные офисные инструменты. Подавляющее большинство людей сразу взялись бы решать эту задачу в Excel, и я когда-то пошёл по тому же пути. В качестве словаря использовал открытый корпус русского языка (http://opencorpora.org/).

Но меня ждало разочарование — словарь состоял из 300 тыс. словоформ, более 5 млн записей, а для Excel это в принципе невозможный объём. Даже если запихнуть в него «всего лишь» 1 млн строк, то выполнять с ними какие-то манипуляции или, упаси боже, вычисления, сможет только очень терпеливый человек, который вообще никогда и никуда не торопится. Но в этот раз я решил натравить на задачу более подходящий инструмент — Power BI.

Читать дальше →

+22

Myonin Nov 10 2018 at 08:36

Совершеннолетняя журналистика: от России до Кремля

5 min

9.3K

Python*Data Mining*Open data*

Анализ публикаций Lenta.ru за 18 лет (с сентября 1999 по декабрь 2017 гг.) средствами python, sklearn, scipy, XGBoost, pymorphy2, nltk, gensim, MongoDB, Keras и TensorFlow.

В исследовании использованы данные из поста «Анализируй это — Lenta.ru» пользователя ildarchegg. Автор любезно предоставил 3 гигабайта статей в удобном формате, и я решил, что это прекрасная возможность протестировать некоторые методы текстовой обработки. Заодно, если повезёт, узнать что-то новое о российской журналистике, обществе и вообще.

Читать дальше →

+24

Basych Nov 10 2018 at 18:42

Был нужен отчет…

4 min

5.2K

System Analysis and Design*

Часто случается так, что конечной целью существования информационной системы предприятия является актуальность данных отчетности, используемой руководством предприятия или предоставляемой в государственные органы.

При этом утвержденные требования к отчетности уже имеются, как и отчеты, которые сегодня конечно же составляются не на бумаге, а скажем в программе MS EXCEL, но зачастую как и прежде содержат ничем не подкрепленные сводные цифры присланные «из отделов». Конечно, на качество данной информации положительно влияют высокая вероятность последующих проверок и строгость наступающей ответственности, но от ошибок это не спасает. О том как отвлекает эта «работа» специалистов от их профессиональной деятельности и об их отношении к отчетности можно не говорить.

Конечно теперь у многих организаций есть информационные системы инвентарного учета, но структура конкретного учета определяется конфигурацией данной информационной системы и заложенной информационной моделью учитываемых объектов организации.
В данной статье хочу описать подход к проектированию информационной модели учетной (inventory) системы на основе требований к необходимой отчетности предприятия…

Читать дальше →

+11

dzakhour Nov 10 2018 at 16:30

От Alibaba до «Пятерочки»: кто и как использует систему распознавания лиц в бизнесе

5 min

19K

Machine learning*Binary District corporate blogArtificial Intelligence

Платить за бургер без карты, не ждать регистрации в отеле, не стоять в очереди на кассу —все это возможно с помощью технологий распознавания лиц. В последние годы подобные решения активно тестируют многие крупные российские и зарубежные ритейлеры. Мы отобрали пять самых интересных примеров.

Узнать больше о том, как использовать распознавание лиц, нейросети и машинное обучение в бизнесе, можно на интенсивном курсе AI School.

Читать дальше →

+27

kolxo3nick Jan 11 2018 at 15:34

Data Modeling Zone EU 2017

15 min

3.6K

System Analysis and Design*TINKOFF corporate blogData storages*Conferences

Recovery Mode

В самом начале нового рабочего года — несколько слов об одном из событий года прошедшего.

Введение

Data Modeling Zone — франшиза, которая объединяет конференции по вопросам построения логической архитектуры баз данных. Последние несколько лет проводилась в США и Европе, а в этом году впервые пройдет в Австралии. В 2017 году под брендом DMZ было организовано два форума, оба прошли осенью: 16—18 октября — в Хартфорде, США, а 23—25 октября — в немецком Дюссельдорфе. Мне довелось принять участие в роли слушателя в последней из них. В этой статье представлен краткий обзор презентаций, которые я увидел на конференции, и мои впечатления о ней в целом.

Название конференции недвусмысленно намекает, что ключевой вопрос — разные аспекты построения модели данных. Большинство анонсированных тем связаны с хранилищами данных, но были и актуальные для любой информационной системы. Мои ожидания были противоречивыми: с одной стороны, в числе выступающих — признанные лидеры сообщества, с другой — обилие часовых презентаций, не предусматривающих глубокого рассмотрения вопросов.

Основная программа была представлена пятью треками:

Foundational Data Modeling
Agile and Requirements
Big Data and Architecture
Hands-On and Case Studies
Advanced Data Modeling

каждый из которых был поделен на 11 временных слотов в течение двух дней. Временная нарезка у всех пяти треков была общая, что позволило комбинировать презентации из разных блоков.

1-й день

Регистрация

Вместе с бейджем участникам выдавался набор наклеек. С их помощью владелец бейджа мог указать языки, на которых говорит, и выбрать одну или несколько профессиональных ролей. Идея оригинальная и занятная, но бесполезная.

Читать дальше →