(no subject)

Apr 25, 2019 09:14


А я теперь EY работаю.

По этому поводу решил померить - в какой формат Pandas быстрее пишет\читает датафреймы.
На 100000 записей cо строками, числами и датами, сжатие отключено

```
format | time write | time read | size
csv | 4.112719535827637 | 1.0176215171813965 | 51.43MB
json | 0.7032690048217773 | 3.6434662342071533 | 68.03MB
avro | 14.251639604568481 | 8.565718412399292 | 25.78MB
parquet | 0.27165746688842773 | 0.2584848403930664 | 30.29MB
pickle | 0.27146458625793457 | 0.10584211349487305 | 28.61MB
```

Связано с тем, что AVRO строковый формат с возможностью хранения сложных иерархий, что влечёт за собой большие накладные расходы на переупаковку колоночных датафреймов.

Когда будет свободное время добавлю в него транспонирование что бы не отставать в бессмысленных соревнованиях.
Previous post Next post
Up