模型分片升级时,模型错误

来源:8-10 模型分片下发_模型升级(下)

阿冯宝贝

2023-04-06

问答中有相同的问题,但是老师好像是运程解决的,并没有看到有答案

  • 在本地测试过模型的接受和升级都没有问题
  • 在实际的环境中,分片能够下发成功,在容器中也没有分片缺失的问题。但是在通过curl执行模型升级的时候会提醒模型错误,这时发现模型的md5发生了改变。
md5_true c7d5158eae58bc94b65c4a46dd6a7cfb
md5_after ffcb4706ab2fb641c248dfbd4428053e

尝试过把容器干掉重新下发,发生相同的问题,而且MD5没有发生改变。是不是合并模型的时候,顺序出现了问题?我该如何去排查解决他 谢谢老师

写回答

1回答

暮闲

2023-04-07

我远程给同学解决的时候是这样解决的:

  1. 先本地调用接口,调用本地模型分片下发接口(确保无误进行下一步)

  2. 在虚拟机docker run 容器,调用容器的模型分片接口(确保无误进行下一步)

  3. 通过kubeedge下发(这里就是调用的curl接口)

0
4
阿冯宝贝
这是云端模型合并的时候,顺序不一致导致的,在老师的代码仓库里,已经更新过了merge def merge(model_path, model_part_dir): with open(model_path, 'wb')as f: model_part_list = list(model_part_dir.glob("*/")) for i in sorted(model_part_list): with open(i, 'rb')as fs: f.write(fs.read())
2023-04-09
共4条回复

云原生+边缘计算项目实战-KubeEdge打造边缘管理平台

抢位前沿技术,获得先发优势

258 学习 · 265 问题

查看课程