Комментарии 4
Мой вывод: надо знать матчасть, даже если она выглядит просто.
Это я насчет pandas и огромного расхода памяти. Дело в том, что насколько я это разбирался, pandas в основном для численных данных и под капотом он использует массивы numpy.
А для строк обычные списки и словари работают гораздо эффективнее. Если нужна еще какая-то хитрая работа со строками, то лучше писать свое расширение, как это например сделали авторы SpaCy.
Ну pandas это стандарт для «типичного датасаентиста», поэтому в бэйзлайн брали его а не Dask, PyTables и т.д. Да даже сам arrow можно было использовать на прямую. В целом по памяти колоночный формат пандаса неплох и хорошо интегрирован со скайкитом. Проблемы создаются в первую очередь когда вместо передачи колонки целиком в нативный код приходится делать итерацию по элементам в питоне.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Как программист датасаентистам кернелы писал