最近调LLM模型调得头大……prompt改来改去还是不对劲,感觉像是在跟机器谈恋爱,你猜不透它到底想干嘛。试了几个开源框架,huggingface的transformers确实好上手一些,但跑起来慢得像拖拉机。GPU显存又不够,只能把batch size砍一半,训练速度直接拉胯。有没有大佬给点实用的优化思路啊,我这数据集再跑下去电脑都要冒烟了……
登录/注册