All streams
Search
Write a publication
Pull to refresh
2
0
Maksim Pachkovskiy @protmaks

Senior Data Engineer

Send message

Сравнение двух Excel онлайн в оперативной памяти. Добавлен Экспорт

Level of difficultyEasy
Reading time2 min
Views2.1K

После публикации первой части и практического опыта, сделал небольшие доработки в свой онлайн инструмент для сравнения двух Excel , также можно сравнить Excel и CSV файлы без преобразований.

Начну с небольшого вступления, почему я начал делать данный инструмент. Я работаю инженером данных и довольно многое автоматизировал в своей работе. В последнее время я занимаюсь миграцией различных скриптов из SAS в Databricks. Для сравнения таблиц есть несколько готовых инструментов типа datacompy, а также свои наработки. Там всё просто, можно преобразовать любые форматы и сравнить. Но вот появилась необходимость сравнить Excel, как результат работы скрипта и CSV выгруженный из Databricks. Есть несколько способов сделать это:

Читать далее

Сделал простое сравнение Excel и CSV Онлайн без загрузки — MaksPilot

Level of difficultyEasy
Reading time2 min
Views1.7K

Здравствуйте! Меня зовут Максим — я Senior Data Engineer, и мне нравится максимально автоматизировать все в своей работе. Последние несколько лет я активно перевожу проекты с устаревшей системы SAS на Databricks. Мне часто приходится сравнивать разные таблицы, и у меня уже есть многочисленные наработки для этого.

Однако недавно возникла необходимость сравнить данные в двух файлах Excel или файле Excel и CSV. Поскольку результатом работы скрипта в SAS был Excel, а по умолчанию таблица из Databricks может быть выгружена в CSV. Прототип был на Databricks, с помощью Python можно загружать Excel в таблицы и также сравнивать.

Из минусов — получаем таблицу, в которой невозможно выделить отличающиеся ячейки. Поэтому возникла идея: а что если создать простой сайт сравнения, который будет более удобен для этой задачи и может использоваться также бизнес пользователями.

Меня вдохновил продукт с открытым исходным кодом PondPilot, который может легко открывать различные файлы таблиц в браузере, но мне не хватало функциональности, и к тому же нужно было понимать синтаксис Duck SQL.

Так родился мой довольно простой, но удобный проект MaksPilot, который на данный момент решает следующие задачи:

Можно сравнивать Excel и Excel или Excel и CSV. Есть поддержка Excel с вкладками.

Читать далее

Azure Data Factory + Databricks. Миграция сценариев инициализации в Databricks из DBFS в Workspace 2023/2024

Level of difficultyEasy
Reading time4 min
Views1.1K

В этой статье поговорим о том, как сделать простой процесс загрузки данных с помощью Microsoft Azure Data Factory и Databricks в 2023/2024 году. Во второй части разберем миграцию init scripts из DBFS в Workspace в связи с новым обновлением от Databricks, если ее не сделать, то не удивляйтесь, что в конце 2023 года у вас начнут падать ADF pipelines и кластера в Databricks. 1 декабря 2023 г. Databricks отключит сценарии инициализации (init scripts) с именем кластера для всех рабочих областей. Этот тип сценария инициализации ранее считался устаревшим и не будет больше использоваться.

Читать далее

Information

Rating
Does not participate
Location
Cracow, Malopolskie, Польша
Date of birth
Registered
Activity

Specialization

Database Developer, Database Architect
Middle
Git
SQL
Python
MySQL
Database
Oracle
MSSQL
Microsoft SQL Server