环球创业频道导航栏_fororder_WechatIMG203

    滚动   |   环球快讯   |   环球专访   |   政策解读   |   创业图解   |   活动直击   |   会员页面   

王海峰:开源开放促进科技创新与产业发展

2021-04-07 11:42:44  来源:中央广电总台国际在线  责编:韩东林

  国际在线消息:4月7日,由中国软件行业协会主办的2021中国软件产业年会在北京举行,大会以"数字经济新时代——软件产业赋能高质量发展"为主题,瞄准产业变革和时代发展趋势,涤荡思想与共识,汇聚知识与力量,展示中国软件产业新成果。

  大会现场,百度集团CTO王海峰作题为“开源开放促进科技创新与产业发展”的精彩演讲。

  以下为现场实录全文:

  王海峰:尊敬的廖湘科院士,尊敬的各位来宾大家上午好!非常高兴有机会参加中国软件行业协会的年会。开幕式上王怀民院士对开源有了一个非常深刻、非常全面的讲解。不谋而合我今天选择的主题也是开源开放,我的角度是从开源开放促进科技创新和产业发展和大家做一个交流。   

  我们知道科技创新受到全国上下高度重视,国家强调新一代人工智能前沿领域的重要性,同时也专门在加强关键数字技术创新应用这个环节专门强调了开源社区、开源知识产权以及方方面面和开源相关的事情。   

  其实我的题目里有两个词:开源和开放。开源和软件高度相关,软件原代码的开源以及技术文档等等,开源有利于做群智协同创新、技术快速的创新突破等模式。开源和开放密切相关,但又不完全一样。开放不仅仅像开源一样的原代码,其实可以开放数据、技术、平台等等,比如说现在做人工智能越来越知道,除了代码以外数据平台等等都非常重要,一起支撑人工智能技术的高速发展以及产业应用,开放不仅仅是说做这种群智的协同创新,同时会深刻改变生产的协作方式,赋能产业创新发展。   

  全球开源发展历程,从早期著名的Unix,我们这代学计算机的人几乎每个人都看过Unix的源代码,后来现在还广泛应用的Linux等等,包括最近这些年跟人工智能相关很多开源的项目。比如说之前环节王院士提到现代的人工智能深度学习的框架等等,无论是百度的飞桨、华为、旷视等等。开源应该说推动整个技术更快速的进步和发展。   

  而开源开放也成为技术创新和产业发展的重要方式。可以看到两个数据,左边是Github上注册的企业数,大家看到持续在增加,已经有几百万还在高速的发展。右边这张图可以看到各行各业不只是互联网。互联网精神很重要一部分就是开放精神,互联网大量用开源软件,各行各业开源软件在其中占比都超过50%。中国在开源开放的角度积极参与全球的开源开放,同时积极构建中国自己开源开放的生态,可以看到底层的操作系统、编译器,到中间边缘计算、容器、中间件方方面面都有大量的优秀的开源软件。而新一代的人工智能也可以看到有很多基础的框架,有类似于阿波罗这样专业的领域都有大量优秀的开源软件。看一组数据,不少人知道开源中国是中国自己的开源社区。国际上有Github,中国有gitee,在这上面其实开源中国上面已经收入了12000多款国产的开源软件,gitee上有600多万用户,有1500万的代码仓库,在高速增长。2020年开源项目数量增长达到192%。   

  百度作为一家互联网企业,我们也在积极参与开源,不管是国际上的APACHE企业还是中国自己的开放原子开源基金会,百度包括在座的华为等等我们都是创始白金会员单位。   

  百度开源,可能很多人知道百度的飞桨这样的一个深度学习框架和平台还有Apollo自动驾驶的平台,还是其它方面。比如说前端框架,地理信息的可视化开源库等等都有很多开源项目。刚才已经反复提到深度学习框架,在人工智能时代是非常重要的,向下对接芯片,向上承接应用,可以说处在智能时代的操作系统的位置上。而百度开源了国内第一个完全自主可控的产业级的深度学习的开源开放平台——飞桨。用了两个词:框架和平台。平台里面最核心的是核心框架,包括开发、训练以及多端的部署能力,以这个框架为基础,上面会有非常丰富的模型库,比如说现在大量的自然语言处理的模型库、语音、视觉等等,再往上有各种开发套件、工具组件支持应用者、开发者方方面面的应用。   

  如果说这样庞大的平台总结核心技术包含那些,有四个方面:首先开发。是开发便捷的深度学习框架,同时支持动态图、静态图等等。模型现在越来越大,大模型是很重要的趋势。飞桨也支持这种万亿级参数的超大规模的图形训练,同时多端多平台部署的科技运行以及丰富的产业模型库。   

  首先看开发便捷方面,有这种编程一致的计算表示,同时支持动态图、静态图的动静统一的开发体验。同时支持API,训练是深度学习框架一个非常重要的核心,只有有高效的训练才能源源不断产生有效的模型,我们支持这种通用异构参数服务器的超大规模训练,可以支持到万亿级参数、技术参数的这样的训练。同时可以支持各种平台,比如说不只是飞桨自己的框架,也兼容其它的框架,同时支持从云到端,到边缘各种部署能力以及各种操作系统。   

  模型库是很重要的方面,一些资深的开发者可以从底层框架开发,更多应用角度开发更方便的方式是直接调用已经训练好的模型库,这里面不只是包含源码所包含的其它开发者的智慧,同时也包含着对于大量数据训练好的直接可用的模型,我们看到这个模型库是非常丰富,有200多个模型,有自然语言、视觉、语音各个方面都有很多,从底层的框架与工具库到算法库到任务库等等。    刚才说起深度学习框架是向下对接芯片,跟芯片联合优化,尤其是深度学习框架实践这一层很大程度上定义了深度学习要做哪些计算,这些是直接会影响芯片的指令集,所以我们把框架和芯片联合进行优化产生了百度昆仑,百度昆仑第一代新品在线上大规模部署在应用了,二代的芯片也即将要量产。   

  当然,飞浆作为一个开放的生态,不仅是支持昆仑芯片,事实上我们已经跟29种型号的芯片进行了适配,大家可以看到从CPU到AI芯片,不管是训练芯片到推理芯片以及FPGA等等都做了充分的适配,很多厂商的名字大家非常熟悉,包括国内的也包括国外的。    同时,飞桨加速AI技术突破,刚才看模型库前面讲到很多方面的语言、语音视觉等等,大家知道自然语言处理是人工智能非常重要的方向,飞桨大平台里面包含了自然语言处理相关的一些,像知识增强的语意理解平台,就是百度的ERIIE(文心)。一方是把知识,大规模知识引入到和深度学习相结合产生了更好的知识增强的语意理解的技术。同时,通过监督学习任务的构建以及多任务学习,最后形成了持续学习的能力,使得能力不断进步。   

  比如说我们也在多领域不断在用,我们在多语种方面,通过少量的双语量捕捉对齐信息就可以,同时通过回忆机制从单语中学习语意的对齐,这是多语种。再比如说跨模态,我们以大规模知识图谱和自然语言的语意表示为基础拉通语言、语音和视觉这种跨模态的统一的语意表示,进而做跨模态的语意理解。其他方面比如说飞浆大平台里还有专门跟生物相关的,生物计算的开源工具和平台,我们把它叫“螺旋桨”地层的支持到开源工具到服务平台到应用场景都有。   

  飞桨的开源生态,比如说Star总数有7万多,多个项目的登顶(英文)榜。人工智能除了这些算法、算力数据等等,人才非常重要,早晨那个环节王院士也提起教育,飞桨AI教育体系在不断壮大,从师资的培训等等,这些跟咱们软件行业协会也有很多的合作一起在推动人才的培养,从官方的课程、配套的教材、资格认证等等这些,包括比赛、基金。   

  飞桨目前已经凝聚了260万开发者一起进行协同创新,我们可以看到很多不同的领域其实都在用飞桨,包括各个年龄段,比如说左下角图看到六年级的小学生不但用飞桨做开发,开发水平很高,百度追星的决赛里博士生、硕士生都在参加,小学生在这里面取得了很好的名次,并且获得了奖。   

  服务产业角度,目前已经服务了10万企业,创造了34万个模型,包含工业、农业、城市管理、民生等各个行业。比如说在工业质检,我们实现检出率有大幅度提升,周期明显缩短,比如说智能合同的解析就是自然语言处理的技术以及银行单证中心问答式的智能客服。   

  整体来说,开源开放在推动越来越多行业加入产业智能化升级的浪潮。而且我们看到,行业的分布,互联网占比在变低,这个不是互联网应用变少,而是其它越来越多,最右侧更多的行业加入到产业智能化升级的浪潮中来。今天汇报到这里,谢谢大家!

  (声明:所有会议实录均为现场速记整理,未经演讲者审阅,国际在线登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。)

分享到:

国际在线版权与信息产品内容销售的声明:

1、“国际在线”由中国国际广播电台主办。经中国国际广播电台授权,国广国际在线网络(北京)有限公司独家负责“国际在线”网站的市场经营。

2、凡本网注明“来源:国际在线”的所有信息内容,未经书面授权,任何单位及个人不得转载、摘编、复制或利用其他方式使用。

3、“国际在线”自有版权信息(包括但不限于“国际在线专稿”、“国际在线消息”、“国际在线XX消息”“国际在线报道”“国际在线XX报道”等信息内容,但明确标注为第三方版权的内容除外)均由国广国际在线网络(北京)有限公司统一管理和销售。

已取得国广国际在线网络(北京)有限公司使用授权的被授权人,应严格在授权范围内使用,不得超范围使用,使用时应注明“来源:国际在线”。违反上述声明者,本网将追究其相关法律责任。

任何未与国广国际在线网络(北京)有限公司签订相关协议或未取得授权书的公司、媒体、网站和个人均无权销售、使用“国际在线”网站的自有版权信息产品。否则,国广国际在线网络(北京)有限公司将采取法律手段维护合法权益,因此产生的损失及为此所花费的全部费用(包括但不限于律师费、诉讼费、差旅费、公证费等)全部由侵权方承担。

4、凡本网注明“来源:XXX(非国际在线)”的作品,均转载自其它媒体,转载目的在于传递更多信息,丰富网络文化,此类稿件并不代表本网赞同其观点和对其真实性负责。

5、如因作品内容、版权和其他问题需要与本网联系的,请在该事由发生之日起30日内进行。