Как стать автором
Обновить

Из оператора в Data-инженеры: выверка данных через шаблоны Excel

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров3.7K
Всего голосов 4: ↑4 и ↓0+4
Комментарии11

Комментарии 11

Вот ссылка для свободного скачивания и использования.

Вы правда уверены, что люди без всяких задних мыслей будут качать и запускать чужой екселевский файл с макросами? Я-бы так уверен не был-бы. Говорю за себя - мне в голову такое не придёт.

Спасибо за вопрос. Мы выложили этот файл, так как считаем, что он мог бы быть полезен тем, кто сталкивается с аналогичными задачами и хотел бы найти для их решения удобный инструмент. Безусловно, скачивать или нет - личный выбор каждого :).

А что там может быть "такого"? VBA - читается, как Lorem ipsum...

Против макрос я ничего не имею. Скажу больше - их использую повсеместно. Но есть вещи, которые я никогда сам не делаю, и другим не посоветовал-бы. Но вы прав- каждый вправе сам решать.

f_SuperMid(B58; "находится ;-та"; "false") — вырезает из первоначального текста часть между «находится» и « –та» и получает — «на балансе аб».

Советую не использовать параметр, несущий в себе два параметра. Сделайте лучше ещё один параметр- один от, другой до. Иначе например вы не сможете использовать знак 'точка с запятой' для поиска.

И ещё одна вещь. Но тут могу ошибиться, тк. уже 30 лет живу за рубежом и русским языком только здесь пользуюсь. Когда говорят - вырезает из текста что-то, то мне кажется, что результатом будет наоборот - текст, в котором отсутствует текст между "находится" и "-та". Потому что синонимом от вырезать вроде есть - удалять. Но я могу ошибиться. От слова - сильно.

А названия на русском языке улыбнули.

Спасибо за статью, она интересно написана и очень насыщенная. Хотя я согласен с теми, кто с опаской относится к загрузке шаблонов из интернета.
Я бы только порекомендовал внимательнее подходить к выбору хабов. Я понимаю, что разобраться в запутанной системе хабов на Хабре довольно сложно, но немного Data Mining-а при выборе хаба для размещения статьи про обработку информации не повредит :)


Хабы SQL и особеннно Big Data тут совсем не в тему.
"Мы тут используем один SQL запрос" — это не повод добавлять статью в хаб SQL. Этот хаб предназначен для статей, главной темой которых является SQL. А не просто упоминается вскользь.
Упоминание рядом Big Data и Microsoft Excel — это и вовсе, извините, смешно. Да, это правда, многие люди не понимают реальных объемов, с которыми на самом деле оперирует Big Data, и трактуют этот термин в силу своего воображения, "ну, десять тысяч строк, или даже сто!". Но в реальности ваша электронная табличка просто лопнет, если попытаться использовать её для анализа хотя бы тысячной части реальной бигдаты.


Насколько я понимаю, наиболее подходящим хабом для статей про Excel является "Разработка для Office 365".
Плюс статья прекрасно подойдет для хабов Data Mining и Data Engineering
Возможно, также подойдет хаб Геоинформационные сервисы, хотя он уже тогда не влезет в лимит.

Добрый день! Спасибо за рекомендации насчет хабов :). Лопнет ли табличка - вопрос философский, пока что мы используем этот шаблон и объем наших данных (немалый :)) он выдерживает.

Вы опять не поняли :)
Никаких претензий к вашей табличке я не высказывал.
Я всего лишь попытался объяснить, что вы неправильно понимаете определенную технологию. И пытаетесь применить к ней свои бытовые представления о "немалых" объемах.


Big data primarily refers to data sets that are too large or complex to be dealt with by traditional data-processing application software.

В бигдате цифры начинаются от миллиардов. При всем уважении к вашей табличке — это просто не Big data.

Здравствуйте.
Автор данной статьи, Ксения Голланд, работает в моем отделе.
Решение не использовать PowerQuery принято мной.
На мой взгляд PowerQuery для нашей команды это лишний уровень.

  • Уровень 1. Операторы. Работают с Excel. Привлекаются в случаях, когда надо быстро разобраться с очень плохими данными. Или, когда одновременно нужно выполнять выверки по многим направлениям. Главное достоинство: возможность быстрого расширения команды на период выполнения работ, а также возможность обучения и привлечения к работам сотрудников Заказчика.

  • Уровень 2. Аналитики. Работают непосредственно с СУБД Postgre или Oracle с помощью разработанного нами специализированного пакета. Подготавливают заготовки для модуля выверки данных. Согласовывают с заказчиками методики выверки.

  • Уровень 3. Программисты. Разрабатывают модуль выверки данных, который автоматически оценивает достоверность данных из разных источников. Модель выполняет обмен со смежными системами в стандартах CIM. Формирует достоверную схему нормального режима электрической сети 0.4-20 кВ. Заполняет формы для автоматического исправления данных в мастер системах.

Я вот буквально вчера (в пятничный рабдень) закончил вычищать ВПР, оставшиеся от моего уволившегося коллеги (7 файлов Excel, ни одного макроса, куча инфы в голове, пара запросов к выгрузке из БД на 100к строк ежемесячно, много мелких запросов и правил из законодательства). Чувствую облегчение. Не, ВПР хороша как... морфий. Поначалу. Но потом идет привыкание.

У нас было 2 пакета для аналитики, 75 макросов, SQL и целое множество запросов к БД всех сортов и расцветок, а также VBA, Python и вся мощь проприетарного легаси Excel. Не то что бы это был необходимый запас для анализа. Но если начал собирать дурь, становится трудно остановиться. Единственное что вызывало у меня опасение - это функция ВПР(). Нет ничего более беспомощного, безответственного и испорченного, чем ВПР. Я знал, что рано или поздно мы перейдем и на эту дрянь.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий