网站首页
手机版

开源机器学习模型管理工具DVC介绍(开源模型训练平台)

更新时间:2024-03-15 18:17作者:小乐

算法工程师在使用算法的过程中往往要不断调整参数以找到最佳效果,俗称“调参民工”。在不断调整参数的过程中,会产生各种模型。如何记录这些参数与模型效果的对应关系,常常让算法工程师头疼。所以,大家都在呼唤一个实用的模型管理工具,因为有了版本管理机制,可以更好的比较效果,甚至可以多人协同开发。

今天给大家介绍一款开源的模型管理工具——DVC:https://dvc.org/doc/tutorials/get-started/experiments

1 模型版本控制的误区在设计模型版本管理功能时存在一个误区,认为只管理模型文件。模型版本管理应该从整个机器学习流水线的角度来考虑,考虑到每次训练的数据可能不同,算法参数可能不同,评估指标metrics可能不同。

因此,模型管理是对一个全链路机器学习项目的管理。在这方面,DVC和MLflow的设计理念比较好。

2 DVC 的设计理念DVC 是一个由创业团队维护的开源模型管理SDK。与客户的交互基本上是通过命令行。只需“pip install dvc”即可快速安装。

DVC可以看作是对git的二次封装。如下图所示,dvc checkout的底层调用是git checkout。

DVC将数据+算法脚本+Metrics当作代码签出,这样就可以自然地利用git的能力进行版本管理。

3 DVC的具体使用(1)创建环境

(2)上传数据

(3)配置数据并设置训练集和验证集

(4)设定指标并生成结果

(5)输出结果

(6)不同版本模型效果对比

基线实验和二元实验是模型的不同版本。您可以通过查看不同版本来控制不同的训练数据和模型参数版本。

为您推荐

承认吧,PE挣钱就是越来越难了!怎么应对?

作者 | 狮刀编辑 | 信陵题图 | 摄图 按照美国投资界的说法,PE(私募股权基金)起源的标志是KKR的诞生。1976年,华尔街著名投资银行贝尔斯登的三位高管合伙成立了KKR,专注于并购企业的价值提升并获利退出。 以这个标准,美国PE行业

2024-03-15 18:10

非接触式测量中的DIC和DVC的区别?(非接触式测量优缺点)

数字图像相关数字图像相关数字图像相关(Digital Image Correlation,DIC)是一种非接触式现代光学测量实验技术。它通过比较两幅或多幅图像之间的像素位移来分析物体的变形情况。DIC技术广泛应用于材料力学、结构工程、生物力

2024-03-15 17:58

「机器学习」DVC:面向机器学习项目的开源版本控制系统

DVC跟踪ML模型和数据集DVC的建立是为了使ML模型具有可共享性和可复制性。它设计用于处理大型文件、数据集、机器学习模型、度量以及代码。ML项目版本控制版本控制机器学习模型,数据集和中间文件。DVC通过代码将它们连接起来,并使用Amazo

2024-03-15 17:50

高瓴DVC和丹纳赫DBS

引言:最近,和一个老朋友喝茶闲聊互捧,所聊甚广,包含共事点滴、生活动态、投资状况甚至美女标准,但占比最多的还是各自事业企业的动态。高瓴资本最近一段时间可谓多事之秋,但个人来说对其的认同一直持续到现在,思考总结许久,这里面有三个重要的原因:出

2024-03-15 17:38

超百人的团队,打造“投后管理3.0版”,“高瓴资本DVC模式”如何值得业内借鉴?

经历了一场疫情,不少企业犹如穿越了一道“死亡谷”,在逐渐恢复元气的同时,也对企业的未来有了更多的思考。作为企业背后的投资人,PE/VC机构也更加意识到“投后管理”的重要性。据记者了解,从去年以来,国内不少VC机构都将一部分的工作重点转向投后

2024-03-15 17:26

OKCoin:以用户为本才能成功(okcoins)

随着区块链技术的发展,许多个财富神话因为稳定币而轮番上演,稳定币也渐渐进入人们的视野,越来越多的人开始关注稳定币,那么稳定币是什么 它存在的意义是什么 稳定币就像是加密世界的法币,几乎所有的市场交易流通行为都要依赖稳定币。对于到处是监管限制

2024-03-15 17:15

加载中...