在深度学习框架领域,飞桨已经取得斐然成绩,打破谷歌、Meta垄断,
作者 | 代聪飞
编辑 | 胡喆
近日,斯坦福大学发布《2022年AI指数报告》,这份长达190多页报告涵盖研发、经济、教育等各個方面AI发展成果,
根据这份报告,2021年,中国AI专利申请量占全球总数52%,专利申请数量居世界最先席,但在授权专利数量上,依旧落后于美国,
这個结果并非意外,作为计算机科学发源地,美国在AI领域始终独树一帜,其它国家难以望其项背,但中国发足追赶也是不争事实,
在整体落后背景下,中国AI如何实行赶超?是单点突破还是多点开花?是在商业落地领域突进还是在工程技术角度比拼,这些难题都有待探讨,
但是,在深度学习框架/平台这個根据底层独创,又服务于产业落地交界领域,似乎给咱们供应一条中国AI如何赶超良好视角,
1
是AI大国,但还不是AI强国
1956年,美国汉诺斯小镇宁静一所大学内,涵盖诺贝尔经济学家奖得主赫伯特·西蒙在内一众著名科学家聚集一堂,召开一场漫长会议,讨论一個在当时人们看来天方夜谭话题:用机器模仿人类学习以及其他方面智能,
这就是后来广为熟知达特茅斯会议,这次会议时间足足长达两個月,学者们却依旧没有达成共识,但为讨论内容起一個名字:人工智能〔AI〕,
时间过去66载,过去讨论话题有很多大概已然变成现实,AI已经从逻辑推理、专家系统来到机器学习、深度学习第三次发展浪潮,迎来发展爆发期,
客观说,最新提出AI理论美国在整個AI发展全球化潮流中,在基石技术独创、商业化落地等领域,依然独据鳌头,在学术研究、实践应用等方面也均有着他国无可比拟水平,
但是,中国也有前无古人后无来者优点,
很多人都晓得,AI研发三要素是算法、算力、数据,但这只是技术意义上要素,更要紧要素,其实来自于需求、场景,在这方面,中国有14亿人口浩大国内市场、有很多世界级超大规模互联网平台、有大量来自传统产业转型升级新基建需求,它们定夺除美国之外,再没有任何一個经济体持有与中国博弈变成AI独创世界级策源地底蕴,涵盖科技发达欧盟,
确,关于AI,咱们有很多很非常好政策,也有没错数据、成绩,
比方说,早在2016年,“人工智能”一词就已经被写入我国“十三五”规划纲要,这之后,相关利好政策频出,AI企业发展随之进入快车道,融资数量、金额都在高速增长,
比方说,2016年以来,中国AI投资领域每年融资大事平均约1000 起,在过去2021年,中国发生1132起相关行业投融资大事,累计金额3996.4亿元,较2020年增长51.44%,再独创高,
又比方说,在AI最为重心算力水平,中国发展速度同样不容忽视,有报告显示,过去一年,各国算力评分均有提升,但中国增幅最大,以总分70分进入全球领跑者行列,
还有,中国大概是发表AI会议出版物数量最多国家,已经变成AI专利“账面上”全球最先個,
但这不是咱们盲目乐观理由,
AI到底是要经由应用才干发挥实际效能,
而根据斯坦福大学发布《2022年AI指数报告》,美国在授权专利数量上占全球总数40%,名次世界最先個,
这個数据意义是,获得专利授权才干“证明你专利实际上是可信同时有用”,这有点类似于出版物数量、被援引次数情况,也就是说,中国研究成果很多,但在真实落地上感召力、美国仍存在一定差距,
某种层次上,这显然是因美国在AI以及整個计算机科学领域,有着不是一星半点先发优点,
但某种层次上,就使在美国,AI也是极少一部分有前瞻精神学者,在公众普遍看不到AI潜力情况下,坚持奋勉、筚路蓝缕开创结果,这种精神才是值得咱们学习,
回顾历史,深度学习发展实际上经历从边缘化课题走向主流技术路径,“教父”级人物杰弗里·辛顿对神经网络探索最新可以追溯到上世纪80年代初期,当时AI不光是边缘,还是低谷,但正是寥寥无几人奋勉,比方说像辛顿这样,将神经网络带入到研究与应用热潮,将“深度学习”从边缘课题转变谷歌等互联网巨头仰赖重心技术,使人工智能发展到今天这般炙手可热,
更值得一提是,辛顿早在2013年就意识到企业大概比学校能供应更非常好AI研究场景、数据、算力,于是他在2013年进入谷歌,由此推动一系列AI技术产品化,
但对于矢志变成人工智能全球腹地中国来说,追赶也同时开始,
2
为什么是深度学习框架?
从表面上看,2015年-2016年是AI技术走进公众认知一個分水岭,
2015年年尾,谷歌对外发布迄今为止依旧占据深度学习主流框架位置TensorFlow,其支撑AlphaGo在2016年3月人机大战中以4:1战胜世界围棋冠军李世石,深度学习概念由此开始被越来越多“外行人”知晓,更新迭代也日新月异,
杰弗里·辛顿曾在一次演讲中讲道:“深度学习以前之所以不行功是因缺乏三個必需前提:足够多数据、足够无敌计算本事、设定好初始化权重”,而现在,这些困难正在被逐渐抹平,
业界有一句名言是,搜索引擎是现有最大人工智能项目,这一点,在中美两国都得到确证,
早在2011年,谷歌已经经由Google Brain〔谷歌大脑〕内部孵化一個叫做DistBelief项目,随后,涵盖杰弗里·辛顿在内大批科学家、工程师对其实行改造,才有后来声名鹊起TensorFlow,
无绝无仅有偶,在中国产业界,最新孕育出人工智能极具是深度学习框架,也是搜索引擎公司,
在现有记录中,百度自发应用人工智能技术最新可以追溯到2006年,深度学习这一波强势雄起后,百度也是国内最新能够“看到”深度学习技术及应用潜力,某种层次上,百度同样属于早期深度学习开拓者之一,比方说,2013年,百度率先奠定全球最先個专注深度学习研究深度学习研究院,
这里要重点讲一下是,为什么百度在AI研发中,逐步选择深度学习框架/平台作为重心突破口,
事实上,百度最新应用人工智能,并非百分之百是自上而下,相反有某种自下而上势头,人工智能犹如火种,在百度不同样体系、架构、产品中,逐渐发生不同样层次应用,
可以说,深度学习框架是绝大多数人运用人工智能起点,再往前则是经由手工搭建模型,这是属于一部分科学家、高级工程技术人员专利,它们太难也无法推广,
当时百度内部,不光在运用不同样来源早期深度学习框架,甚至是不同样部门都开始自行研究深度学习框架,
“研发伴随业务走”也是一种常态,但深度学习星火燎原,引发百度高层Follow,
在超大型互联网平台中,不同样业务、不同样部门运用各异技术底座是很常见事情,部门墙也是很难穿透,但百度这次做一個定夺,要把深度学习技术底座统一到一個框架中来,实行集中资源重点突破,
为此,百度梳理各個部门需求,从某种层次上来说,这些部门需求其实就代表着当时中国产业界对AI应用需求最高水平,而汇集并设计一個可以包容这些需求框架,则可以搞定许很多多個企业、行业降低AI应用门槛难题,
相较于很多出自高校、历史久远、演变曲折框架,飞桨一开始就奠定“产业级”深度学习框架基石,
根据已有技术积累,百度在2016年正式对外开源PaddlePaddle框架;而三年后2019年4月,PaddlePaddle正式发布中文名——飞桨,
而在美国,2018年时,在GitHub活跃度、Google上搜索量、著名科技媒体Medium上文章数量以及arXiv上论文数量,TensorFlow所占比重都是最多,
同年,也是2018年,Caffe2代码并入PyTorch ,Facebook主力持助两大深度学习框架合二为一,PyTorch发展驶入快车道,如今,PyTorch已经在学术论文圈形成绝对优点,据统计,在Hugging Face上有85%模型是PyTorch独家,
百度在观察到这两大世界级框架各自长短板后,毅然做出一個要紧定夺,
3
为什么是PPT?
飞桨能够变成Pytorch、TensorFlow之外世界深度学习框架第三极,真正弯道超车来自一個重大定夺,
美国两大框架一個在学术圈受欢迎,一個在产业界受欢迎,而飞桨要形成差异化致胜,并尽大概把学术界、产业界精锐集中到一個生态中来,唯有走一条各异路——从单纯产业级框架,转变一個打通产业界、学术界藩篱通用型框架,它既是产业级,也同样要是学术界深度欢迎、拥抱,
为一切从实际出发,飞桨研发人员经常深入到QQ群接受开发者反馈难题,火速予以搞定,这种把开发者需求放在最先席低姿态,既协助飞桨获得很多开发者员拥趸,也促进飞桨高速发展,截至2021年底,飞桨PaddlePaddle已经汇聚406万开发者,创建47.6万個模型,服务15.7万家企业,
从市场份额看,IDC发布报告显示,在中国深度学习平台市场,2021年上半年,百度综合份额持续增长,已经超过Google、Meta〔Facebook〕,跃居最先個,
《2021中国开源年度报告》也提到,2021年GitHub中国项目活跃度Top30中,飞桨占据5個项目,其中飞桨框架位列榜最先,
这使得我国AI技术开发者、运用者不再依赖于国外平台,同时也为进一步培育自主可控AI开发应用生态奠定扎实基石,更是中国在计算机科学基石领域非常突出世界级成就,
至此,飞桨PaddlePaddle、PyTorch、TensorFlow形成三强鼎立局面,深度学习框架步入“PPT”阶段,
但这并非轶事终点,
伴随深度学习理论研究日趋成熟、深度学习框架高速迭代,AI技术应用、普及进入加速期,但在具体实践应用过程中仍存在很多痛点,
比方说,人工智能模型生产本钱依旧很高,而在企业实际应用中也存在适配等各类疑难杂症,就此,飞桨在模型库中为开发者供应一套全流程指导,从前期适配到后期运行,飞桨都供应相应方案,
具体而言,在前期数据搞定、模型选择时,飞桨能够经由自己方法协助企业选择一個合适场景,在此之后,飞桨还会对部署芯片效能实行跟踪,在发生准确率不高等难题时高速供应反馈指导,
换句话说,这套指导不光是一個学术界算法,而是真正根据行业需求所梳理设计环节,
另外,由于某些行业特殊要求,如零件质检对速度要求非常高,有限算力很难同时在速度、精度上达到致极,为此,针对这些痛点,飞桨经由对算法模型改良设计PP系列模型, 实行精度、性能两者间平衡,
截至2021年,飞桨已经发布13個PP系列模型,官方供应算法模型库更是已经超过500個,在训练这些模型过程中,飞桨总结自己一套方法论,在一定层次上,加快训练速度,
百度AI技术生态总经理马艳军告诉雷峰网,深度学习框架要搞定一個永久研发难题就是提升训练疗效,为此,飞桨做很多就业去提升训练性能,
据马艳军介绍,训练性能最先选涵盖两個层面,一是跟训练芯片间联合改良,百分之百发挥硬件自身算力;二是针对深度框架自身执行调度改良,同时也结合模型设计实行全链路改良,最后实行提高训练速度目,
可以说,从始至终,飞桨在每一個步骤设计、改良上都为保障后期训练速度供应助力,
经过奋勉,飞桨大约70%模型训练速度已经快于业界最快水准,这些模型最先选涵盖两类:一是通用模型,比方说芯片适配是在所有地方都会应用到,二是根据飞桨视角,所发现需求量大应用场景,比方说,图像分类在物流、电商等场景应用非常普遍,
飞桨在发挥硬件算力性能上也接近发挥到致极,得到涵盖英特尔、英伟达、ARM等诸多芯片厂商持助,同22家国内外硬件厂商完成31种芯片适配、联合改良就业,值得一提是,很多硬件厂商还主动在开源社区为飞桨贡献代码,
像英伟达这样深度适配芯片,飞桨更可以将其所能用算力百分之百发挥出现,
在深度学习框架领域,飞桨已经取得斐然成绩,打破谷歌、Meta垄断,变成中国深度学习平台名副其实行业最先個,
显然,无法否认,到目前为止,深度学习框架适配仍较为复杂,有些行业低频长尾难题尚无法经由AI得以搞定,但这正是飞桨一直在奋勉搞定难题,况且也确已经小有成绩,
马艳军坦言,“纵然深度学习框架属于高投入、长周期、抢生态博弈,但已经得到国家、企业战略性持助,是开启下一個AI阶段钥匙,”
人工智能下一個十年,飞桨以及中国AI将书写怎样传奇,咱们可以拭目以待。
END
《原神》蔡浩宇 :中国最先個個「游戏疯子」
小米2021:欲捕华为,荣耀在后