Matshishkapeu18 фев 2020 в 07:24

Пандас и другие для толстых данных

5 мин

15K

Big Data * Python *

Туториал

Комментарии 11

StasTukalo 18 фев 2020 в 08:22

А зачем тогда паркет, если даск умеет большие сам? Для чистоты эксперимента паркет лишний) Ну и как-то не очень понятна страсть к героическому решению всех этих проблем чтения csv-файлов — ну загрузи ты все это хозяйство в бд и тащи оттуда хоть все сразу, хоть по одному. Кому-нибудь в продакшене хоть раз встречался csv? Практически всегда же источником служит бд. Даже в данном примере- этот голландский файл- это выгрузка из базки… хотя… а что если они там в экселе все хранят?! ))
По существу- спасибо, не знал что даск умеет многоядерно.

Matshishkapeu 18 фев 2020 в 08:32

Паркет скорее для компактного хранения, на 7 Гб немного жаба душит. Некоторые вещи типа машинных логов с редко меняющимися состояниями он ужимает совсем люто.
Про продакшн, и бд. Дисклеймкр про SQL в начале собственно о том и говорит. Если задача делать серьезно, то пандас на костылях тут совсем не к месту. Если надо быстро разворошить палочкой, окинуть взором и бежать к следующей не аналогичной задаче — то вполне сгодится.

v_m_smith 20 фев 2020 в 09:16

Куда более примечательно, что даск парой строк можно превратить в распределенный кластер с клевым админским дашбордом. Это уже куда веселее

StasTukalo 20 фев 2020 в 16:10

А можете в меня ссылкой пульнуть на эту тему? Если не сложно…

v_m_smith 20 фев 2020 в 17:32

Вот небольшое демо от автора dask.distributed https://www.youtube.com/watch?v=N_GqzcuGLCY

v_m_smith 24 фев 2020 в 12:20

Или вот даже такое может Dask — распределенные вычисления GPU medium.com/rapids-ai/a-new-official-dask-api-for-xgboost-e8b10f3d1eb7

StasTukalo 24 фев 2020 в 17:41

Супер. Спасибо! Изучу.

asmm 18 фев 2020 в 12:06

есть такой недокументированый способ работы с CSV-файлами в MySQL
1. создаём таблицу соответствующую формату нашего файла

CREATE TABLE test_csv (id INT NOT NULL, name VARCHAR(200) NOT NULL) ENGINE = CSV;

2. заменяем пустой файл в БД mysql
/var/lib/mysql/testdb/test_csv.csv
на наш
3. файл должен быть формата CSV, разделитель запятая, без заголовков. Т.е. что-то типа:

1,"Конфеты \"Мечта\""

2,"Товар 2"

.....

100000000,"Товар 100000000 \\ 123"

FLUSH TABLE test_csv;

5. Используя всю мощь SQL пишем любые запросы

SELECT * FROM test_csv WHERE name LIKE '%name%'

6. При необходимости конвертим CSV таблицу в нормальную (но это уже конечно не быстро)

ALTER TABLE test_csv ENGINE = Innodb;

создаём необходимые индексы, радуемся жизни

Это пожалуй самый быстрый способ загрузки данных в MySQL, быстрее чем через LOAD DATA

v_m_smith 20 фев 2020 в 11:23

Так то из паркета (не говоря уж о CSV) умеет читать Clickhouse, который в разы эффективнее справится с аналитическими запросами

StasTukalo 24 фев 2020 в 17:44

А вы с кликхаузом работаете? сильно сложно сним жить? ну если сравнивать с mysql? Смотрел видео яндексоидов с их презентацией кликхауза- ну просто песня- какаято немыслимая производительность на тайм-сериес-дате. все хочу поставить попробовать но пока руки не доходят какойнибудь старый комп под это дело подшаманить…

mgearr 11 мар 2020 в 23:13

Под попробовать вполне подшаманить какой-нибудь старый VirtualBox. И в виндах десятках, хоть и не во всех, есть linux subsystem

Зарегистрируйтесь на Хабре, чтобы оставить комментарий