• mlops产品调研方案


    automl(架构、数据和超参数自动化找到理想模型配置的过程)

    核心能力: 模型结构搜索 超参数搜索

    katlib

    advisor

    nni

    google vizier

    并行Trial

    支持

    支持

    支持

    支持

    集群资源利用

    kubernetes

    不支持

    支持

    支持google datacenters

    分布式训练支持

    支持

    不支持

    支持

    支持

    超参数搜索算法支持

    目前较少

    较多

    较多

    未知

    早期停止策略支持

    目前较差,依赖框架层面

    目前较差,依赖框架层面

    较好

    模型结构搜索支持

    目前较查

    较高

    训练指标收集方式

    支持pull-based;后续支持push-based

    pull-based

    push-based

    对用户训练代码侵入性

    较低

    较低

    目前较高

    云原生

    kubernetes native(深度依赖CRD)

    较低,支持kubernetes部署

    较低,支持在kuberntes上运行训练

    MLOps(任务编排工具和工作流程)

    重点能力: pipeline、Jupyter Notebooks

    Kubeflow

    MLFlow

    AutoML

    katib

    Pipeline

    argo workflow

    Notebook

    jupyterlab

    模型管理

    MIflow Models

    模型部署和服务

    kfserving

    MLflow-torchserve

    实验跟踪

    MIflow Tracking

    数据处理和可视化

    Kubeflow 解决了基础架构编排和实验跟踪,但设置和维护要求相当高,而 MLflow 仅解决了实验跟踪(和模型版本控制)

    开源平台:

    架构形式

    开发语言

    部署方式

    核心功能

    架构

    Cube Studio

    frontend+backend

    python

    kubernetes

    一站式机器学习平台

    Dubhe

    frontend+backend

    java+python

    kubernetes

    一站式机器学习平台

    Ymir

    frontend+backend

    python

    docker

    流程管理

    商用AI平台:

    ManuVision

    BML

    hikvision

    公司

    创新奇智

    百度

    海康

    描述

    工业制造领域的深度学习机器视觉检测软件系统

    全功能AI开发平台

    一站式训练平台是面向行业个性化场景的零门槛模型定制开发平台

    阶段

    内部使用

    免费+收费

    体验版+商业版

    领域

    半导体、3c

    农业、工业、城市、体育等

    数字能源、卫生医疗

    架构

    训练器、设计器及运行器

    PaddlePaddle+Paddle套件

    sdk+算子库+简易版本+云

    主要功能

    提供涵盖图像标注、深度学习模型训练、模型测试、算法模型流水线及线上检测的全方位解决方案

    智能数据服务、模型训练(通用模型和行业模型)(自定义训练、可视化建模)模型管理和部署

    提供全面的数据采集咨询和支持服务;智能标注;数据筛选;内置模型架构搜索服务;可视化模型管理工具;业务对接;设备对接;算法调用

    思考:

    自动搜索网络和超参搜索技术是否成熟可用?

    在线code能力和任务pipline是否实用?

    算法封装调用的灵活性以及参数暴露和使用是否友好?

    流程优化的重点?

    数据 or 模型 or 训练?

    数据挖掘、小样本学习、大模型和预训练等技术可行?

    基于图像视觉训练平台架构设想:

     

  • 相关阅读:
    数据分析大作战,SQL V.S. Python,来看看这些考题你都会吗 ⛵
    云表:只需3步,让你搞懂低代码和传统开发有什么区别
    【Java】恺撒密码,stream流,方法引用
    java基于quasar实现协程池【后篇】
    【Apollo】感知工程安装测试
    【Autopsy数字取证篇】Autopsy案例分析报告导出
    阿里云解决方案架构师张平:云原生数字化安全生产的体系建设
    程序思想中的冒泡法在python和1200PLC中scl高级编程中的应用
    苹果爆出台积电及三星3纳米制程良率远低于60% | 百能云芯
    sudo相关漏洞CVE-2019-18634、CVE-2019-14287
  • 原文地址:https://blog.csdn.net/hongyucai/article/details/127769057