Skip to content

Latest commit

 

History

History
125 lines (63 loc) · 7.94 KB

15-essential-mlops-best-practices-81bc95e264c9.md

File metadata and controls

125 lines (63 loc) · 7.94 KB

15 个重要的 MLOps 最佳实践

原文:https://pub.towardsai.net/15-essential-mlops-best-practices-81bc95e264c9?source=collection_archive---------1-----------------------

以及需要考虑的 3 种方法和挑战

来自 Pexels 的 Erik Mclean

M LOps 是一个生命周期实施框架,将高级分析部署的执行与基于方法的变更管理联系起来。

【MLOps 需要考虑的 3 种高级方法

1.持续集成和持续交付(CI/CD)

使用 CI/CD 管道来自动构建、测试和部署您的机器学习模型,以允许快速迭代您的模型(并使它们与您的数据保持同步)。

2.模型治理

必须有一个模型治理政策,以确保您的机器学习模型符合法规和公司标准。一个好的模型治理策略还将帮助您随着时间的推移跟踪您的模型及其性能。

3.再现性

确保机器学习实验的可重复性对于保持模型的质量至关重要。再现性使您能够精确地复制您的实验——再现性对于调试和故障排除至关重要。

作者 Pixabay

m lops 中 15 个最重要的最佳实践

1.持续集成和持续交付(CI/CD):自动化代码集成和交付过程可以帮助您的 ML 管道保持最新,并最小化人工干预的需要。例如,一种方法需要自动化构建、测试和部署代码变更,以便更快、更可靠地发布软件。

2.版本控制:使用版本控制系统(VCS ),如 Git,来跟踪代码和数据的变更,以便在需要时有机会恢复到以前的版本(并且可以选择查看清晰的审计跟踪)。

3.配置管理:使用工具自动提供和配置您的 ML 基础设施;这种方法将减少错误并提高一致性。在基础设施的情况下,代码(IaC)可以使用代码帮助管理和供应基础设施,而不是自动化和版本控制的手动流程。从根本上说,我们需要一个跟踪和管理系统中软件和硬件组件配置的过程,配置管理工具可以帮助保持一致性,防止部署中的错误。

4.编排:像 Kubernetes [1]这样的编排工具用于管理您的 ML 模型的部署和扩展。流程编排可以让您快速部署新版本的模型,并在需要时轻松回滚更改。

5.监控:设置对您的 ML 管道和模型的监控,以尽早发现问题并识别性能瓶颈。这种方法将帮助您随着时间的推移保持模型的质量,因为您收集的数据可以告知未知问题并揭示趋势。

作者 Pixabay

6.日志记录:从您的 ML 管道收集日志数据;这是捕获和存储关于在机器学习模型运行期间发生的事件的信息的过程。这些信息可以用来调试模型,了解它们是如何被使用的,并监控它们的性能。

7.测试:在部署到产品之前,使用单元、功能和性能测试来验证您的 ML 代码和模型。跨测试集成的各种过程有助于确保您的模型是准确的,并且在现实场景中表现良好。

8.A/B 测试:当部署新的 ML 模型或算法更改时,使用 A/B 测试来比较新版本与当前生产版本的性能。A/B 测试可以帮助您评估变更的影响,避免对用户体验或业务指标的负面影响。我已经写了一个关于如何进行 A/B 测试的单独的帖子(它将在这个帖子的末尾链接)。)

9.DevOps 文化:鼓励开发和运营团队之间的合作文化,以帮助确保 ML 项目成功地创造一个开放沟通和对目标和目的的共同理解的氛围。

10.安全性:在整个 ML 管道中实施安全控制,以保护敏感数据并防止未经授权的访问。从数据中心到应用层,在整个环境中实施安全措施有助于防范未经授权的访问和恶意攻击。此外,安全性对于保护客户隐私和保持用户对您系统的信任至关重要。

作者 Pixabay

11.合规性:确保您的 ML 系统符合所有与数据隐私或金融法规相关的合规性要求。合规不仅是避免处罚或法律诉讼的必要条件,也是适当管理实践的一部分,通过合规可以探索各种方法来实现合规(如 Six 或 Lean Six 适马,我将在本文底部分享我发表的一篇文章的链接。)

12.可伸缩性:将您的 ML 系统设计为可伸缩的,以处理随时间增加的容量或复杂性,从而降低将来出现性能问题或停机的可能性。此外,预测未来对计算、存储和其他资源的需求,以便提前调配足够的容量。

13.高可用性:配置您的系统,使其能够承受单个组件的故障,而不影响服务可用性,以帮助减少出现问题时的停机时间,并提高客户满意度。

14.灾难恢复:计划如何从 ML 系统的重大故障或中断中恢复。这包括数据备份和训练模型,以及在需要时重新训练模型的方法。总的来说,目标是以最小的中断快速恢复。

15.财务管理:管理与您的 ML 系统相关的成本,如计算资源、存储或算法许可费用。在这里,一个流程对于管理与开发和部署机器学习模型相关的成本至关重要。

作者 Pixabay

MLOps 中的 3 个挑战:

1.将机器学习纳入软件开发周期:机器学习是一个复杂的过程,需要大量的资源和专业知识。因此,将机器学习集成到传统的软件开发周期中可能具有挑战性。

2.管理机器学习生命周期:由于数据或再培训的变化,机器学习模型的生命周期通常很短,这可能会给需要管理和部署这些模型的团队带来重大挑战。

3.确保机器学习模型的质量和可信度:由于机器学习模型是基于数据的,因此它们可能会出现偏差和错误。因此,在部署到生产中之前,确保这些模型是高质量和值得信赖的是非常重要的。

如果您有任何编辑/修改建议或关于进一步扩展此主题的建议,请考虑与我分享您的想法。

另外,请考虑订阅我的每周简讯:

[## 周日报告#1

设计思维与 AI 的共生关系设计思维能向 AI 揭示什么,AI 又能如何拥抱…

pventures.substack.com](https://pventures.substack.com/)

我写了以下与这篇文章相关的内容;他们可能与你有相似的兴趣:

我写过 A/B 测试;您可以通过以下链接找到它:

[## 用户体验的 A/B 测试:10 个过程、10 个最佳实践和 10 个挑战

如果正确的流程、最佳实践和对挑战的认识…

bootcamp.uxdesign.cc](https://bootcamp.uxdesign.cc/a-b-testing-for-user-experience-10-processes-10-best-practices-and-10-challenges-4c7e7304dbc6)

我在以下链接中写了精益六与六适马的对比:

[## 22 精益六适马和六适马在 2022 年的更新和实施

这两家公司在 2022 年不断发展的市场中大放异彩。

medium.com](https://medium.com/mlearning-ai/22-lean-six-sigma-and-six-sigma-updates-and-implementations-in-2022-171fc762ce9b)

这是我对 MLOps 的直观介绍:

[## MLOps 的可视化介绍:第 1 部分

深入了解 MLOps,第 1 部分

pub.towardsai.net](/comprehensive-introduction-to-mlops-part-1-6919cbeb1d0f)

就是这样,伙计们;我轻轻地划了一下这个区域的表面。我不喜欢撰写占用不必要空间的冗长介绍或结论。如果您有任何问题、编辑/修改建议或关于进一步扩展该主题的一般建议,请与我分享您的想法。

参考资料:

  1. https://kubernetes.io

2.UX:策略也很重要——融合。https://convergetechmedia.com/ux-strategy-matters-too/