…继续
3)百花齐放的机器学习平台技术 业界中有很多组织和机构都在贡献自己的方法论来搭建机器学习平台,也有很多工具和框架可用来服务于平台,下图给出了一个概要: 下面我们对这些工具进行一个摘要总结: A. Data Labeling Labelbox:标注工具,完整的训练数据平台。 Alegion: 提供全服务平台,为多个行业的企业级AI平台发布结构化和场景化数据。 Clickworker:微任务市场平台 Figure Eight:帮助把文本、图片、语音和视频转换为完全定制化的高质量训练数据。 Gengo AI:基于语言的机器学习任务 Mighty Ai:计算机视觉训练数据 Scale: 计算机视觉训练数据API CloudSight:提供数字媒体的图片识别API Hive:计算机视觉深度学习工具箱 Microwork:提供图像和视频标准服务 RectLabel:图像标注解决方案 B. 人造合成数据 AI.Reverie Neuromation C. 特征工程 Feature Labs:提供开源python工具包Featuretools D. 训练 ClusterOne:分布式GPU/CPU深度学习训练平台 Databricks:分析平台,spark+AI DAWNBench:深度学习训练的Benchmark。 Hyperopt:超参数优化的python包 Lambda Labs:提供针对深度学习的硬件和云基础设施公司。 PaddlePaddle:百度推出的开源深度学习框架 Paperspace:GPU云平台 Trifasta:面对企业级用户的数据准备和清洗平台 Yellowfin:集成数据分析平台 E. 模型部署和管理 5 Analytics:提供企业级AI平台,管道化模型部署、集成和监控,支持R和Python代码。后推出LISA可通过线上和线下渠道自动化销售。 Algorithmia:对于伸缩管理和部署机器学习模型非常灵活和健壮的平台,包含对ML的DevOps的自动化工具,支持协作和硬件使用优化。 Numericcal:支持ML赋能的移动应用开发和IoT。 Seldon:提供开源框架帮助企业部署ML模型,支持弹性扩展。 Datatron:提供模型部署、管理和监控的生产环境。 Datmo:聚焦于经验、部署和弹性扩展。 Iterative AI:开源平台DVC(Data Version Control),类似于机器学习项目的版本控制系统,着眼于ML项目的协作。 MLPerf:用来评价机器学习软件框架、云平台的基准套件。 Neptune:提供用户友好、直观的API,提升模型工作的安全性。 ParallelM:主要产品为Mcenter,是一个领先的MLOps平台,帮助在生产环境中自动化部署、持续优化和治理机器学习模型。 SAS Platform
4)端到端机器学习平台 Allegro Allegro是一个计算机视觉的深度学习平台,它包含一系列工具覆盖深度学习的从开发到生产部署的各个方面,诸如图像标注,数据合成,参数调优,模型部署等等。 Cnvrg.io 全栈数据科学平台,提供建立、管理和自动化机器学习工作流的全套工具。 Determined AI 致力于加速深度学习模型开发周期,聚焦于自动机器学习、基础设施、兼容性、再生产和协同、部署,One-Click Jupyter Notebooks. FloydHub 数据科学团队云平台,强调易用性和速度。 BigML BigML是一个综合性的机器学习平台,它试图减少机器学习流程的复杂性,使数据科学团队可以专注在业务决策。该产品主要针对企业用户,可以让用户通过交互式可视化来解释模型;导出模型到不同的环境;跟踪和重用模型组件。另外其开发的独有的ML领域专用语言WhizzML是一大特色。 Dataiku Dataiku的机器学习平台全力致力于企业级用户,主要特点是其在跨组织协作方面的支持。 Valohai 最大程度自动化DevOps。 Dataspine Dataspine的目标是建立一个灵活的平台,在任何基础设施上管理整个ML工作流。 PipelineAI 强调当机器学习工作流遇到意外时,可以连续快速地尝试;支持定制化部署,且可与多个主流机器学习框架整合。 Deep Cognition 主流产品Deep Learning Studio,采用了AutoML和拖拉拽的系统接口。它支持自动化数据编码,模型部署允许模型下载为二进制模式或Python库。 Polyaxon Polyaxon是一个健壮的端到端平台,意图在企业级别加速机器学习流程,强调敏捷和再生产能力。 Clarifai Clarifai主要专注于为企业提供计算机视觉能力,它会预置多个模型涉及零售、时尚、烹饪等多个业务。在模型部署方面,Clarifai为云、本地预置和边缘计算同时提供解决方案。 Comet.ML Comet.ML致力于协作和统一的工程工作流,可与主流机器学习框架相整合,提供了强健的超参数调优服务。 DeepSense.AI DeepSense.AI有很多客户成功案例,涉及银行和加密货币到公共部门,提供预测模型、自然语言处理和数据分析的能力。 H2O AI H2O,领先的开源机器学习平台。它提供原生算法,可使用任何编程语言,且支持AutoML和分布式或内存计算模式。H2O同时也提供非开源的企业级平台。 DataRobot 两个主要产品:AutoML平台和自动化时间序列平台。DataRobot帮助客户以AI驱动的方式解决复杂问题,注重投资回报率。
5)小结 前面我们分别介绍了五个著名的机器学习平台项目、聚焦某方面的机器学习工具和端到端的机器学习平台,真可以说得上是琳琅满目,这个领域呈现出了百家争鸣的现象。 看上去似乎端到端的机器学习平台产品最多,然后是模型部署和管理方面、数据标注方面,训练方面。 笔者对这些产品提供的一些核心功能和重要组件进行归纳: 四个关键词:数据、弹性、接口、兼容
未完,待续…