模型分片升级时,模型错误
来源:8-10 模型分片下发_模型升级(下)

阿冯宝贝
2023-04-06
问答中有相同的问题,但是老师好像是运程解决的,并没有看到有答案
- 在本地测试过模型的接受和升级都没有问题
- 在实际的环境中,分片能够下发成功,在容器中也没有分片缺失的问题。但是在通过curl执行模型升级的时候会提醒模型错误,这时发现模型的md5发生了改变。
md5_true c7d5158eae58bc94b65c4a46dd6a7cfb
md5_after ffcb4706ab2fb641c248dfbd4428053e
尝试过把容器干掉重新下发,发生相同的问题,而且MD5没有发生改变。是不是合并模型的时候,顺序出现了问题?我该如何去排查解决他 谢谢老师
写回答
1回答
-
我远程给同学解决的时候是这样解决的:
先本地调用接口,调用本地模型分片下发接口(确保无误进行下一步)
在虚拟机docker run 容器,调用容器的模型分片接口(确保无误进行下一步)
通过kubeedge下发(这里就是调用的curl接口)
042023-04-09
相似问题