模型微调时,应当如何设置参数冻结?
#14579
Replies: 3 comments
-
在使用 ch_PP-OCRv4_rec_server 模型进行微调时,为了提高特定场景的精度,同时尽量保持模型的泛化能力,参数冻结策略需要合理设计。以下是具体建议: 1. 冻结与解冻的层选择
2. 如何冻结参数在 PaddleOCR 中,可以将变量的stop_gradient属性设置为True来实现参数冻结。 3. 微调过程中的注意事项
4. 参考链接根据提供的文档,暂未找到关于 ch_PP-OCRv4_rec_server 的直接冻结层推荐,不过可以参考 官方讨论 中提到的 v3 蒸馏模型的微调经验。虽然文档中主要提到速度优化,但其中的微调框架和方法也适用于 v4 模型。 Response generated by feifei-bot | chatgpt-4o-latest |
Beta Was this translation helpful? Give feedback.
0 replies
-
请问ch_PP-OCRv4_rec_server的训练原始数据集是哪些?如果把自定义数据集和这些原始数据集混合到一起重新训练,nvidia 3090单卡大概需要多长时间? |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
项目中使用官方下载的ch_PP-OCRv4进行文字检测和识别,整体效果能满足要求,只是有个别场景文字识别的精度不够。因此想要基于ch_PP-OCRv4_rec_server这个预训练模型对这些个别场景进行微调来提高效果,但同时又不希望因此而影响泛化能力导致之前能准确识别的反而精度下降。这种情况下,请问应该冻结哪些层,或者说只放开哪几层进行训练?如何冻结?
Beta Was this translation helpful? Give feedback.
All reactions