华为全栈AI技术干货深度解析,解锁企业AI开发“秘籍” (3)

智能标注:1)支持基于半监督/主动学习的混合智能标注,可以混合无标注和已标注数据进行训练,减少主动学习所需的迭代次数,获得5倍标注效率并提升标注精度。平台还会自动生成优化建议,判断难例样本,建议采集更优化数据增强难例。2)支持交互式智能标注,以目标检测为例,仅需确认即可而无需画包围框,以图像分割为例,不需要手工通过多边形的方式标注轮廓,而仅需标注少数几个点就可以实现轮廓的自动识别。这种智能的交互式能力使得标注量将大大降低。

数据智能分析,根据图像亮度、饱和度、分辨率、复杂度、色彩等信息给出分析建议。这将为后续训练集和验证集的对比分析、超参选择提供量化依据。

2)算法开发和选择子流程

算法选择:为了解决一个AI应用问题,大多数算法工程师或者数据科学家大多不会从头开发一个全新的算法,而是选择已有的算法,进行快速实验,然后不断改进迭代。为了实现真正的普惠AI开发,使得AI算法的选择更加方便,ModelArts提供了几十种高性能、高精度的预置算法库,可以直接使用而无需任何手工修改。大多数算法的精度比开源版本高0.5%~6%,性能高30%~100%。部分预置算法底层基于自研的EI-Backbone预训练模型,在多项数据集上都可以使得精度有所提升。通过AI资产分享交易中心——AI Gallery,用户可以购买或订阅优秀的这些预置算法资产,也可以上传和贡献新的预置算法。

算法开发:如果已有预置算法不能满足要求,开发者可以使用ModelArts提供的Serveless化Notebook开发环境,相比于业界已有的开发环境,开发调试成本可降低数倍,并且在Notebook中,ModelArts平台预置了大量算法开发样例,开发者可以基于这些样例进行二次开发。

3)模型训练子流程

训练加速:ModelArts内置了训练加速框架MoXing,底层对接了常用计算引擎(如MindSpore、TensorFlow、PyTorch等)通过一系列优化措施(数据、计算、训练策略、优化器、分布式通信等)来提升模型的训练性能,最大可支持4096卡分布式训练,训练性能业界第一。平台还实现了同一套算法代码同时兼容单机单卡和多机多卡,也支持在不同的AI设备之间切换,用户改一个配置项就可以从训练模式变成验证模式或预测模式。

弹性训练:当多个用户共享训练资源时,可以允许用户的训练作业在模型精度不变的前提下实现资源动态伸缩。这样当整个集群存在空闲时,就可以将已有训练作业进行扩容,使训练速度获得成倍提升。用户在ModelArts上训练的时候有高性能、标准和经济三种模式可供选择。经济模式会尽可能复用底层,成本可大幅下降。

联邦训练:为了在训练过程中保证数据安全,ModelArts还支持联邦训练方案,并提出自研的联邦聚合算法FedAMP,并通过自适应方式,使得有相似数据的用户之间联邦作用更强。

4)模型评估与调优子流程

多元搜索:开发者只需修改3行代码即可提升精度或性能,ModelArts还可以针对训练时间较长的作业,实现快速调参策略,大幅缩减超参搜索时间。并提供可视化能力将多个搜索结果按照各种指标排序便于开发者快速选择。

模型评估与智能诊断:ModelArts可以自动针对模型的精度或性能给出调优建议。此外,针对模型的鲁棒性,平台内置了一些鲁棒性对抗工具,能够自动识别算法存在的安全问题并给出改进和调优建议。

5)应用生成、评估与发布子流程

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wspgwf.html