今天调LLM接口调得我头大,明明本地跑得好好的,一上服务器就开始各种timeout...查了半天发现是显存不够用,啧啧,这玩意儿吃资源真的狠啊😅不过话说回来,现在的模型推理框架真的比以前好用多了,至少不用自己手写cuda代码了...只是部署的时候还是得小心翼翼,不然一个不小心就把服务器搞崩了喂,有人遇到过类似的问题吗?求指点啊呜呜呜...
登录/注册