ArtCapCorn1 фев в 09:08

Хватит парсить Excel вручную: я написал библиотеку, которая сделает это за вас

Простой

3 мин

20K

Python * Microsoft ExcelOpen source *

Обзор

+24

Комментарии 29

Fedorkov 1 фев в 09:13

Хватит парсить Excel

Хватит использовать Excel.

I Will Fucking Dropkick You If You Use That Spreadsheet

Ivan22 1 фев в 09:15

с чего вдруг хватит? эксель еще всех переживет

beswalod 2 фев в 09:56

Статья смешная, спасибо, но я не особо понял причин, по которой автор хочет отказаться от Excel. Скорость работы, долгое погружение разработчика в чужие скрипты, неоптимизированный бизнес-процесс? То есть понятно, что для данных существуют БД, но если нужно сделать что-то быстро и на коленке...

Fedorkov 2 фев в 10:24

Автор указал на основные проблемы.

почти никогда эти файлы не выглядят так, что их можно без боли скормить pandas и сразу получить аккуратный DataFrame.
Думаю, многим знакома ситуация, когда:
таблица начинается где-то с 7-й строки
заголовок размазан на несколько рядов
названия колонок незначительно отличаются от файла к файлу

Другие частые проблемы:

перенос строки внутри ячейки;
пользователь вместо того, чтобы удалить столбец, решил скрыть его;
формулы, макросы, объединение ячеек и прочие продвинутые фичи, затрудняющие машиночитаемость.

Я в качестве быстрого решения предпочитаю CSV, который так же открывается в в Excel и LibreOffice. Чтобы с без лишних телодвижений открывалось на любом компьютере независимо от софта и языка ОС, использую Unicode little endian + BOM. Разделитель - точка с запятой (чтобы не кавычить запятые).

Ещё есть TSV, который удобнее читать и править в блокноте, но открытие в Excel требует лишних телодвижений.

Для более важных или более объёмных данных - только БД.

gkaliostro8 2 фев в 11:28

Если бы читали внимательно, то поняли суть проблемы: автор не предлагает отказываться от excel, автор предлагает без танцев с бубном простой способ парсить их

beswalod 2 фев в 11:39

Ммм...

What Should I Do Instead?
Anything. I am begging you on my hands and knees, anything. Write a SQLite database on your local hard drive. Do some garbage in Python. Encode the data in binary using a series of pebbles on your front lawn. If necessary, I will personally call your manager and explain the problem. I will actually do this. It's easy, I swear. They're all definitely easier than being defenestrated, which is the only alternative I am offering.

Ivan22 2 фев в 11:45

автор коментария "Хватит использовать Excel." имеется ввиду.

Vindicar 1 фев в 09:27

Ссылка на репозиторий битая
Что насчёт объединённых ячеек? С ними есть какая-то логика работы? Например, если объединено несколько строк, повторять значение на каждой строке.
Не пробовали использовать совместно с парсингом таблиц в PDF? Там тоже крайне весело.

ArtCapCorn 1 фев в 09:34

Ссылку поправил, спасибо!

про объединенные ячейки пока не думал, запишу себе, спасибо за мысль)

С pdf тоже не работал, но подозреваю что можно реализовать provider :)

Vindicar 1 фев в 12:32

Я примерно в этом направлении и думал. Провайдер как раз потребуется, но не возникнет ли заморочек.

А то мне тут довелось парсить замороченную таблицу... было весело.

ArtCapCorn 1 фев в 17:49

Хм, будет сложно, но вполне реально) либо по верху заголовок забрать, либо всю иерархию и накинуть валидаторы.

В теории сработает)

neuro_monarch 1 фев в 09:58

Актуально, как никогда. Сейчас собираю через базу аналитику рекламы и ботов, важно все эти тонны данных грузить в таблицу для дальнейшей визуализации и приходится использовать сложные app scripts. Пока строк десятки тысяч не вылажу за лимиты в 6 минут, но они уже приближаются в сотне.

Изучу вашу библиотеку, может найду какое-то решение для себя.

Спасибо!

Grapple228 1 фев в 14:51

Тут уже нужно какой нибудь питон использовать с пандас и нумпаем, и подобными библиотеками, а данные хранить в БД вроде Sqlite

Эксель при большом количестве данных начинает сильно тупить. Да и само взаимодействие с ним крайне неудобное

MilPavel 1 фев в 15:22

Лучше Excel никто не парсит Excel. Обратите внимание на скрытые строки, высоту строк, объединенные ячейки. Запишите свои действия в макрос Excel VBA. Спросите DeepSeek, как лучше решать поставленную задачу, максимально расписав требования.

zerin2 1 фев в 15:49

Классная библиотека! Спасибо!

miletoda 1 фев в 15:49

Много приходится парсить абсолютно разных Excel, тоже уже давно написали свою библиотеку, по функционалу следующее сделано (писали на .NET + Epplus и результаты льются в postgre):

Шаблоны загрузки пишет аналитик в конфиге JSON. Вынесли, чтобы не тратить время программистов на внесение данных в код;
Конфиг каждый содержит инфу - режим парсинга (у нас их несколько, так данные могут иметь сложную структуру); с какого листа читать, с какой строки/колонки, какое количество колонок, также содержит весь маппинг колонок excel на конечные поля БД;
Парсер выполняет два блока проверок: механические и логические. Набор проверок для каждой колонки также прописывается в конфиге флагами;
Механические проверки - контроль уникальности значений по колонке, проверка соответствия типов данных целевым, проверка на кириллицу/латиницу там где нужно, удаление непечатетаемых символов, удаление лишних пробелов там где нужно;
В механические проверки также входит нормализация данных - замены по справочнику (справочник ведётся в postgre) - меняются "штук" на "шт" и и.д., и замены на id, там где нужна совсем чистая нормализация;
Логические проверки - много всяких дополнительных правил нетиповых, которые сложно засунуть в конфиг;
Также пришлось решать много специфических вопросов касательно самого excel - сбросы фильтров, обработки ошибок в формулах, пересчет формул для книг где задан ручной расчет формул, работа с формулами, использующими промежуточные значения в таблицах, парсинг xlsb (пришлось использовать отдельную библиотеку Sylvan)
Библиотека сэкономила кучу времени, так как внести изменения или добавить новый источник теперь занимает минут 20, при этом сам парсер трогать не надо, только поработать с конифгами и при необходимости с конечными таблицами в SQL.

Ivan22 2 фев в 11:48

Рекомендую сперва заливать в бд данные из Экселя as is так сказать. А все проверки, нормализации, удаления непечатетаемых символов и т.п. делать уже следующим шагом.

А то будет сложно понять почему в базе сейчас что-то не то что ожидается, в случае когда исходный эксель уже исчез/изменился/удалился/не доступен

miletoda 2 фев в 11:58

соглашусь, мы уже почти пришли к этому - raw слой для записи первичных данных. единственное что пока сдерживает - большая волатильность части источников, когда колонки могут меняться местами, добавляться/удаляться - в таком случае при наличии "сырого" слоя, приходится помимо просто правки конфигов, еще пересоздавать "сырые" таблицы, и учитывать это в пайплайне - в каких периодах времени, какие виды таблиц использовать. а так для стабильных исходников - первичный слой вполне удобно.

saigor33 1 фев в 20:10

Я делал похожую задачу для геймдизайнеров, для выгрузки json-конфигов игры из Excel/GoogleSheet.Только делал полностью универсальное решение.

Дизайнеры настраивают семантику синтаксиса прямо в документе Excel (чаще сразу в GoogleSheet), поддерживается неограниченный уровень вложенности (описывается семантикой).

Заполнение конфигов(20-30к строк) при ребалансе игры делается не неделю, а 15 минут).
Программистов к парсингу больше не привлекают, даже после изменения структуры конфигов/таблиц, дизы всё сами делают.

Если интересно вот ссылка на гитхаб (внутри есть инструкция как с этим работать)
https://github.com/saigor33/TableToJsonUniversalParser

babysas 1 фев в 23:49

Слышал у аналитиков "какую бы крутую талзу вы не испольовали" все равно на каком-то шаге есть эксель ;)

Спасибо за инструмент, поиграюсь.

sashamsuper 2 фев в 08:36

Для .NET написал обертку над NPOI. Для python pandas, на мой взгляд, хватает. Тут если действительно поток кривых файлов надо обрабатывать, но в любом случае под каждый тип свой обработчик писать, хоть и с библиотекой.

Winand 2 фев в 08:48

Когда-то решал обратную задачу: красиво вывести DataFrame в Excel с учётом объединения ячеек и разбивки по страницам для печати. Сильно ускорило подготовку отчётов

Ravenkey 2 фев в 14:30

У каждого своя головная боль. Я например как менеджер проекта по разделам энергетика, слаботочка вынужден иметь дело с десятками спецификаций и их сканов. Данные приходят в виде чего угодно. Как знаете проектировщики предпочитают свои спецификации не создавать в чем-то удобном, а напрямую рисовать в виде линий и фрагментов многострочного текста прямо в Автокад. Плюс еще логисты, бухгалтера и сметчики извращаются кто во что горазд. Поставщики тоже стараются.

Достал меня весь этот зоопарк и за вечер с помощью ии написал для себя библиотеку макросов для пользовательских команд. То что раньше занимало часы, теперь занимает минуты 4.

От эксель избавляться не нужно. Нужно просто правильно им пользоваться.

Ahizhnyak 2 фев в 17:31

Гм... Админить эту фигню будет интересно...

А когда коту нечего делать, он яйца лижет...

MilPavel 3 фев в 19:13

Ничего, нейросети разберутся. Но где еще такое можно? из MS Excel или MS Access открыть pdf-файл с картинкой через MS Word, который распознает картинку OCR и делает из неё текст, по этому тексту пробегается макрос VBA и парсит, заливает данные в СУБД. И для этого не нужно ставить никакие библиотеки!

KapasMordorov 5 фев в 05:19

Библиотека: это когда в неё передаются параметры (словарь, списки), как грузить, а возвращаются структурированные данные (словарь, списки), которые получилось обработать в файле. И в ней оттестированный код.

А создание объектов каждый раз - постоянный источник ошибок.

DSTsvetkov 9 фев в 08:13

Всё это круто, но на практике, если к экселевским файлам приложил руку человек, то любая автоматизация рано или поздно сломается. А придумывать новую автоматизацию для вновь открывшихся нюансов может быть очень затратным по времени.

Единственный выход - здоровый баланс между ручной обработкой и автоматизацией.

Если нужно искусство парсинга очень разных и каждый раз разных экселей превратить в ремесло, обратите внимание на программку ExcelComber.

Приложение может и сыраватое, но последовательность повторяющихся действий чтобы привести к единому виду кривые файлики автоматизирует оптимально вроде.

Мне нравится ;-)

Ulanbek60 11 фев в 12:17

А openpyxl не очень?

ArtCapCorn 11 фев в 12:18

Openpyxl тут как один из провайдеров используется

Зарегистрируйтесь на Хабре, чтобы оставить комментарий