搞了好久的ETL流程,终于把MySQL和Kafka的数据抽到数仓里了,中间还踩了一堆坑,比如时间戳时区问题直接给我整自闭了 现在正琢磨怎么优化中间层的转换逻辑,感觉用Pandas处理大文件还是太慢,要不要试试Spark呢?你们一般咋搞的?
登录/注册