原标题:走向机器学习的喷气时代

图片 1

编者注:文中超链接如果不能访问可以点击“阅读原文”访问本文原页面;读者可以查看将在2018年9月4-7日举办的人工智能旧金山大会上的议题:“深度学习时代的软件开发”。

深度学习管理平台Determined
AI已经筹集了1100万美元A轮融资,本轮融资由GV(前身为谷歌Ventures)领投。

今天的机器学习领域就像航空业的早期。1903年莱特兄弟的惊天一飞迎来了航空业的先锋时代。之后的十年之内,人们普遍认为动力飞行将革命性地改变交通行业和整个社会。今天,机器学习(ML)也在迅速发展。它在重要问题(包括图像识别、语言翻译和自然语言处理等)上实现了显著的突破。而主要的技术公司正投入数十亿美元,期待将自己转变为以机器学习为中心的组织。人们越来越相信,机器学习是解决一些社会最紧迫问题的关键。

这笔资金将用于扩大市场规模,聘用更多了解分布式系统设计和如何在功能上构建人工智能应用程序的工程师。

图片 2

资金还将用于为数据科学家和机器学习工程师带来一系列新的深度学习模型开发工具,帮助开发人员识别和预处理数据集的方法、帮助团队实现协作。

图1 莱特兄弟的首架动力飞机。在1903年12月7日的Kitty
Hawk市,它在12秒的首飞中飞翔了120英尺。图片来自Stacy Pancake

Determined AI 首席执行官埃文·斯帕克斯(Evan
Sparks)在接受外媒采访时表示:“用户非常关心自己的数据、因此需要比传统的软件开发人员更精细,更细粒度地理解与模型相关的指标。因此,制作这种GitHub用于模型开发,对产品体验至关重要,这也是我们投资的一个领域。我们的整个产品系列旨在帮助这些人在整个模型开发过程中提高工作效率。”

但是这种热情与兴奋也需要谨慎对待。尽管莱特兄弟带来了巨大的热情,但最终广泛的商业航空成为现实却花了将近半个世纪。在先锋时代,飞行还主要是用于个人爱好、体育运动和军事用途。进入喷气机时代要经历航空工程的一系列基础性的创新:单翼机翼、铝制设计、涡轮发动机、压力测试、大型喷气式飞机等。

Determined
AI工具可以用于管理模型开发工作流,促进模型训练的自动分布式或并行执行,调整模型并优化超参数。

图片 3

Determined
AI的理想客户类型是那些定期使用TensorFlow、Keras或PyTorch等流行框架的公司,他们选择购买自己的gpu进行神经网络的内部分布式培训,而不是使用谷歌云平台或亚马逊AWS进行培训。

图2
几十年来航空工程的进步才带来了20世纪50年代的喷气时代。它从根本上改变了我们社会的形态,使我们能够应对新的挑战,例如太空探索。图片来自Stacy
Pancake

使用gpu集群而不是公共云来训练人工智能模型的Determined
AI客户所看到的成本比那些使用公共云产品的客户低5-10倍。

简而言之,我们是发明了航空工程才改变了航空业。同理,我们需要发明一种新的工程来构建机器学习应用。数据驱动的软件开发与传统的软件开发完全不同,因为它针对的是更复杂的应用领域(例如,视觉、语音、语言),并侧重于学习行为(例如在大规模数据集上训练深度神经网络)而不是基于规则的操作(例如手工编码的if-then-else语句)。目前,只有很少的组织机构拥有进行此类工程的专业知识,而我们还只是刚刚接触到机器学习技术潜力的表面。我们在下文中描述了这种新发展模式的三个关键挑战。

该公司由埃文·斯帕克斯(Evan Sparks)、尼尔·康韦(Neil
Conway)和阿米特·塔尔沃克(Ameet
Talwalkar)于2017年6月成立。他们三人在加州大学伯克利分校的计算机科学学院相遇,并为Apache
Spark和MLlib开源项目做出了贡献。此外,阿米特·塔尔沃克现在是卡内基梅隆大学机器学习系的助理教授。

图片 4

由于工程师需要管理更多GPU并培训更多系统,机器学习从业者的DevOps与流行的机器学习方法已经越来越受欢迎。

图3
经历了几十年才研发出来的涡轮发动机。它让飞机速度更快、效率更高,从而能在一天之内环游世界。图片来自Stacy
Pancake 挑战1:效率

上个月,Apache
Spark创始人Databricks为其数据处理和人工智能平台筹集了2.5亿美元。

现代机器学习应用通常涉及复杂的模型和海量的数据,需要大量的计算力和存储资源。例如,Google
Brain的工程师使用超过250000
GPU小时才能完成对一组语言(例如英语和德语)的神经翻译模型的训练。这在Google云上相应的费用大约是20万美元[1]。相应的,目前出现了各种专用硬件解决方案(例如,GPU、TPU、大规模并行CPU和FPGA)来提高机器学习应用的速度和能效,并降低成本。

1月,英特尔推出了用于分布式学习的Nauta深度学习平台。同样在1月份,ClusterOne为其DevOps平台筹集了200万美元,用于在多台机器上培训AI模型的工程师。与Determined
AI一样,ClusterOne也希望其现在主要用于DevOps的平台也成为协作的中心枢纽。

但是,想要有效地利用异构硬件需要我们从根本上重新设计机器学习软件本身。特别是系统感知算法和软件(i)要能在大规模并行、异构的硬件上有效地训练模型;(ii)要能满足在生产系统的延迟、功耗和内存占用限制相关的服务水平协议(SLA)。硬件的进步必须与算法和软件创新紧密结合,以便能及时和经济地开发和部署基于机器学习的应用。

去年12月,Uber用于分布式神经网络训练的Horovod,一个由亚马逊,IBM,英特尔和Nvidia共同构建的框架,被带到LF深度学习基金会。

图片 5

本轮融资由GV领投,参投方包括Amplify Partners、CRV、Haystack、SV
Angel、Specialized Types和The House。

图4
自动化在现代商业航空中被广泛使用,包括飞机制造/测试、空中交通管制甚至操作飞机。图片来自Stacy
Pancake 挑战2:自动化

到目前为止,Determined
AI已经筹集了1360万美元。该公司总部位于旧金山,目前有16名员工。

除了计算密集之外,对机器学习工程师而言,机器学习驱动的应用的模型训练、调试和部署也是非常人力密集的。首先,考虑到快速变化的硬件环境和各种可用的基于云的产品,仅仅选择合适的计算平台就有挑战性。其次,机器学习模型的质量对超参数非常敏感。调优这些超参数对于模型的准确性至关重要。但调优工作通常是劳动密集型的且计算成本昂贵。第三,在训练时使用并行硬件非常重要。
只是提高计算能力通常不会带来真正的加速。并且在用户之间公平有效地共享群集资源可能也有挑战性。

更糟糕的是,开发机器学习应用不是一次性的过程:数据随时间而变化,因此模型和系统必须适应。诊断和更新陈旧的模型具有挑战性,并且由于再现机器学习应用的行为是惊人得困难(有时是不可能的[2])。这些问题是由许多因素造成的,包括(i)这些应用自身的统计或“模糊”性质;(ii)机器学习应用的复杂性(例如管道丛林[3]);(iii)动态的开发过程,即代码和数据随着时间的推移而变化且缺乏控制(有时甚至不存在)。鉴于机器学习人才的短缺和成本高,以及对机器学习技术的需求增加,迫切需要自动化和简化这些开发和部署流程。

图片 6

发表评论

电子邮件地址不会被公开。 必填项已用*标注

相关文章