最近在捣鼓大数据处理这块,发现数据清洗真的要命啊 一堆乱七八糟的原始数据,格式都不统一,有些字段还是空的,搞的人头大。不过用了pandas处理起来还算顺手,groupby和merge操作确实方便。之前做个小项目,几千万条记录跑下来,服务器差点没撑住,后来加了索引优化才好些。现在每天都在跟各种数据格式打交道,json、csv、parquet轮着来,感觉头发都快掉光了 机器学习模型训练前的数据预处理太关键了,花的时间比建模还多。
登录/注册