Pull to refresh

Comments 13

Самый быстрый способ читать Excel в Python

Копируем выбранный блок ячеек Эксела в буфер обмена и вставляем его в текстовый файл. Разделителем данных в строках, при этом, является табулятор, что вполне устраивает. Этот текстовый файл идеально подходит для обработки в Питоне. Чем, лично я, постоянно пользуюсь. Метод – супер, даже, для огромных файлов!

Только шапку надо корректную

А так да:

Ctrl a, Ctrl c, alt tab, ctrl v, ctrl s

Зачем в файл? Сразу из буфера парсить.

Зачем из буфера, сразу из исходного... 😅

Хотел бы увидеть в списке polars. В свое время использовал ее вместо pandas. С lazy loading пережевывал гигатонны логов в приделах минуты.

Для чистоты эксперимента можно было бы добавить ещё ручной разбор xlsx прямо в python анализатором xml.

на сколько помню DuckDB тоже на Rust, по крайней мере как минимум одно из расширений для уткобазы на нем написано

Нет. Duckdb на плюсах написана. https://github.com/duckdb. Она еще в sql запросы напрямую к pandas dataframe умеет. Пока у меня рекорд - в 98 раз быстрее чем родные методы панды.

да, действительно, прошу прощения. некоторые расширения на rust, например, chsql_native, но утка и excel на плюсах

Меня смущает тут панда - там же под капотом либа для чтения. По идее нужно её проверять.

Будет ли он так же быстр в случае xlsb?

Sign up to leave a comment.

Articles