automl(架构、数据和超参数自动化找到理想模型配置的过程)
核心能力: 模型结构搜索 超参数搜索
| katlib | advisor | nni | google vizier | |
| 并行Trial | 支持 | 支持 | 支持 | 支持 |
| 集群资源利用 | kubernetes | 不支持 | 支持 | 支持google datacenters |
| 分布式训练支持 | 支持 | 不支持 | 支持 | 支持 |
| 超参数搜索算法支持 | 目前较少 | 较多 | 较多 | 未知 |
| 早期停止策略支持 | 目前较差,依赖框架层面 | 目前较差,依赖框架层面 | 较好 | |
| 模型结构搜索支持 | 目前较查 | 无 | 较高 | 无 |
| 训练指标收集方式 | 支持pull-based;后续支持push-based | pull-based | push-based | |
| 对用户训练代码侵入性 | 较低 | 较低 | 目前较高 | |
| 云原生 | kubernetes native(深度依赖CRD) | 较低,支持kubernetes部署 | 较低,支持在kuberntes上运行训练 |
MLOps(任务编排工具和工作流程)
重点能力: pipeline、Jupyter Notebooks
| Kubeflow | MLFlow | |
| AutoML | katib | |
| Pipeline | argo workflow | |
| Notebook | jupyterlab | |
| 模型管理 | MIflow Models | |
| 模型部署和服务 | kfserving | MLflow-torchserve |
| 实验跟踪 | MIflow Tracking | |
| 数据处理和可视化 | ||
Kubeflow 解决了基础架构编排和实验跟踪,但设置和维护要求相当高,而 MLflow 仅解决了实验跟踪(和模型版本控制)
开源平台:
| 架构形式 | 开发语言 | 部署方式 | 核心功能 | 架构 | |
| Cube Studio | frontend+backend | python | kubernetes | 一站式机器学习平台 | |
| Dubhe | frontend+backend | java+python | kubernetes | 一站式机器学习平台 | |
| Ymir | frontend+backend | python | docker | 流程管理 | |
商用AI平台:
| ManuVision | BML | hikvision | |
| 公司 | 创新奇智 | 百度 | 海康 |
| 描述 | 工业制造领域的深度学习机器视觉检测软件系统 | 全功能AI开发平台 | 一站式训练平台是面向行业个性化场景的零门槛模型定制开发平台 |
| 阶段 | 内部使用 | 免费+收费 | 体验版+商业版 |
| 领域 | 半导体、3c | 农业、工业、城市、体育等 | 数字能源、卫生医疗 |
| 架构 | 训练器、设计器及运行器 | PaddlePaddle+Paddle套件 | sdk+算子库+简易版本+云 |
| 主要功能 | 提供涵盖图像标注、深度学习模型训练、模型测试、算法模型流水线及线上检测的全方位解决方案 | 智能数据服务、模型训练(通用模型和行业模型)(自定义训练、可视化建模)模型管理和部署 | 提供全面的数据采集咨询和支持服务;智能标注;数据筛选;内置模型架构搜索服务;可视化模型管理工具;业务对接;设备对接;算法调用 |
思考:
自动搜索网络和超参搜索技术是否成熟可用?
在线code能力和任务pipline是否实用?
算法封装调用的灵活性以及参数暴露和使用是否友好?
流程优化的重点?
数据 or 模型 or 训练?
数据挖掘、小样本学习、大模型和预训练等技术可行?
基于图像视觉训练平台架构设想:
