首页 > 资讯 > 阿里云贾扬清:希望通过技术交流和沟通将开源技术整体提升一个体量

阿里云贾扬清:希望通过技术交流和沟通将开源技术整体提升一个体量

导语:2019年7月24日,阿里云峰会开发者大会在上海开启。在开源大数据专场上,阿里巴巴集团副总裁、阿里巴巴计算平台事业部总裁贾扬清向开发者们就开源技术和社区以及服务商业的模式等方面做了精彩介绍。 贾扬清指出,阿里希望通过开源会议包括开源开发者的活动...

贾.jpg

2019年7月24日,阿里云峰会开发者大会在上海开启。在开源大数据专场上,阿里巴巴集团副总裁、阿里巴巴计算平台事业部总裁贾扬清向开发者们就开源技术和社区以及服务商业的模式等方面做了精彩介绍。

贾扬清指出,阿里希望通过开源会议包括开源开发者的活动进一步帮助国家和人工智能与开源开发者社区更有效地进行沟通,把整个开源的技术再往上提升一个量级。

以下为贾扬清现场分享全文实录:

一直以来自己都是在做AI这方面的工作,我从毕业之后最开始在谷歌做相关的研究,后来又在facebook做人工智能架构这方面的工作,我应该是一个人工智能开发者加上大数据的使用者这样一个身份。

今年3月份的时候,我发现咱们国内的技术分类最近几年发展的非常非常好。同时这样的环境又是给大家提一个非常好的开发、利用、跟商业部署的一体化的环境,所以我特别荣幸并有机会在阿里云能够跟大家一块来建设开源的生态和开源的社区和开源的商业。

从AI的角度来说,大家都会觉得已经到今天为止整个开源是非常深入人心的事情,从2013年的时候做可配单,非常多的非常优秀的人工智能的框架到今天大家已经非常耳熟能详了。

2015年的时候Google推出来Tensorflow应该说是现在最流行的大规模的可以商业应用的人工智能的框架。前年的时候,我们在facebook推出了PyTorch1.0这样的框架,来实现更加灵活的从科研到部署的环境。应该来说前面几年人工智能整个的发展适合开源的社区跟大家接触开源共享的精神是分不开的。

从整个开源社区的角度来看,我们会看到全球整个社区是非常非常蓬勃发展的,这是我们所总结出来的数据。今天我们总共有3100万的用户在get  up上活跃的进行各种软件的开发,210万个组织建立了全球大概9600万个仓库那么多的开源的项目。我们还可以看到很多内容都是2018年的时候新增的,2018年的增长速度超过很多年的总和。

    从全球的趋势来看,开源是一个大势所趋的软件发展一个方向,之前咱们经常在说和咱们在国内在开源的心态上面是一个什么样的发展,我们可以看到星空院有这样的报告,之前我们觉得开源是国际上大家玩的比较好咱们国内刚刚起步的东西。我非常开心特别惊讶的发现在国内咱们其实今天开源的整个心态也是非常深入人心的,从企业角度来说超过一半的企业都已经选择开源的商业,而且有很多企业通过社区来了解开源的软件,把开源纳入自己的技术体系当中去。总共接近90%的企业认为开源是非常自然选择的解决方案。这一点是非常振奋人心的事情,跟咱们在全球看到的需求是一致的。

    从阿里云的角度来说,我们对于开源的定位是什么样的?阿里有两个说法,一个是自主可控。我们在前面十年之内非常骄傲的一点是建立了从底层大规模的管理和资源的优化到上层的解决方案和大数据平台。我们通过自己的业务反哺技术的需求做了一套非常好的解决方案,同时我们又是兼容开源的,运用不同开源不同的户外项目,打起一整个自主可控的大厦,同时我们在开源领域做了非常多的共享,所以今天有机会给大家分享一下我们做的事情。

    首先我们是拥抱开源的态度,这基本上奠定了我们阿里云或者现在所有云厂商的基石。再往上,我们在这样的环境下面不断地贡献我们的技术力量到这些项目当中来,无论是从支持开源,还是我们一线的同学都非常热情的投入到开源的项目当中。

    另外一个开源一定程度上离不开经济规律的控制,也就是说我们今后开源还是需要提供价值。今天我们看到非常多的基础架构已经挪到云上的时候,云其实是开源软件可以实现商业价值对接企业商业活动的非常好的解释。这是我们阿里云在开源这个方面一直在考虑的,即从最开始拥抱开源到最后的跟开源共赢商业价值。

    从拥抱开源来说,从阿里巴巴整个淘宝这些业务开始,到今天在阿里云上面向企业提供INS和Caffe的服务,我们的底层都是借鉴了非常多或者使用了非常多的开源的项目,从服务器到大数据方面以及最新的人工智能的应用。如果没有这些开源项目的话,对于我们来说要构建一个完整的业务系统是非常困难的事情,我们非常感激,我们也非常热切的在和开源的整个系统做拥抱。

    在这样的基础上,我们发现我们对于开源的应用和自己业务整个的流程一起跑起来之后,我们会发现非常多的具体的开源的项目当中可能当时没有考虑到的事情,我们知道开源其实很多时候从一颗种子开始都是我们开发者内心有一个想设计一套系统或者设计一套项目的方法。

我们有非常巧妙的设计和非常深思熟虑的架构思考等等,对于开源很多设计会起到一个反馈的效果。我们发现在阿里这样大规模业务上面经常会长出一些对于开源怎么样来走或者怎么样来改进的想法。所以我们整个对于开源社区的贡献一个非常活跃的态度,从阿里自己的统计来说,我们有非常大的自己所建立的开源项目,或者我们对于现有开源项目的贡献。

基本上总结来说,今年在国内TOP10的项目当中,阿里占其中6个,像Flink就是我们非常自豪的拥抱和被开源的项目。在这样的基础上面,我们如果只是关注大数据和人工智能这一块,我基本上到现在为止向社区贡献了超过大概一百万行的代码。

同时,在这个过程当中我们阿里非常优秀的工程师逐渐的开始被开源的社区所接受,开源社区也邀请阿里的同学们作为确定这些项目下一步方向的参与者,我们有大概超过50个从业者从最底层的存储的ORC项目到Spark、Flink等等这样项目当中。

我想讲一个例子,为什么我们能够对于开源做一些比较深入的思考和贡献,这跟我们实际业务当中的压力是有关系的。

我们提到Flink,Flink是双11的时候在底层做流式计算当中中流砥柱的框架,双11是怎么样的概念?十年之前我们刚开始双11的时候,我们的体量非常少,几千个商家几万个用户在上面就可以了,那个时候对于系统的压力不是太大,随便部署一个流计算的产品就可以了。

但是双11从去年到现在我们发现已经有几亿的用户在上面,非常大规模的在做购买、浏览这些事情。基本上咱们后台的同学特别紧张的,在前一天23点59分的时候就在那儿看着,这对于每一个在双11的时候看着这个系统的同学都是一个非常大的心理挑战。

    这个导致的结果是什么,开源很多的设计我们逐渐发现说有很多设计并没有太关注那么大体量下的压力等等,所以我们在上面开发了非常多的优化,这些优化一方面可能在一个小的场景下面,也许之前大家并没有太关注。但是如果我们要来考虑商业化的话,每个公司到大了之后都会免不了会发现问题,现在人工智能方面我们也发现类似的情况。

当年我们最开始做Caffe,做Tensorflow,做Pytorch这三个上一代人工智能框架的时候,很多设计是带着学术界的影子的。后来我们经过那么多年的工业界和学术界的一起锤炼之后,我们发现新的框架,比如说像Tensorflow、pytorch开始逐渐的来考虑到工业界的大规模、弹性、高性能特征。部署的时候在多种环境下,在端上,在云上,在手机端等等的部署环境成本。

这样的巨大业务体量和业务的锤炼给我们开源的社区提供了很好的反馈和贡献。从大数据和人工智能这几方面,第一个刚才提到的流计算,支撑了我们阿里在双11这样的实时计算和分析的场景当中非常大的任务,另外在人工智能这边,我们有集团内和云上都有的产品叫做PAI,PAI是基于开源框架做深度优化和整合的平台。我们在上面完全兼容了Tesorflow跟caffe的语法。同时,如果需要做模型的分布式悬链和部署的时候,我们可以通过底层的优化,比如说通讯库的优化,底层跟CPU、GPU跟体系结构相关的优化等等,来实现更快的快速训练和更容易的部署。

    从大数据来说,今天不光是Flink流计算,还有传统的像hadoop,Spark等等这样的产品。我们在云上面有一个平台,可以非常完美的对接大家在大数据场景当中所遇到的需要承接开源的计算模式,可能还需要把自己的技术架构搬到云上来,但是不改变上层的软件应用系统。

    我们还感觉阿里云是赋能商家实现商业价值的平台。一个非常好的例子是ElasticSearch,ElasticSearch有商业化的公司去做落地,我们跟ElasticSearch有非常好的合作,我们在阿里云来提供这样的产品,来提供企业级的服务,让我们解决像平台、管控、部署等一系列的问题,这样的模式使得开源的软件更加的软件,也使得整个生态更加的完整。

    怎么样把它部署到我们实际应用系统当中去?今天我们看到很多企业的应用都逐渐把整合的流程搬到云上,甚至开发者也遇到这样的情况。当年我们刚开始做AI的时候,大家买一个机器,买一个GPU放在自己的寝室里面。北方同学很开心,因为北方机器很热,南方同学就很不爽了因为很热。这就是我们提供的价值,我们今天在云上做开发非常方便,从企业角度来说我们在云上实现这样的开发之后,需要做多个国际的部署,今年阿里云在国际上面大家可能所需要到的地域都有非常多的资源来帮助大家部署自己的应用,部署自己的产品,这样的云计算能力加上开源的能力是非常有意思的方向。

    从大数据跟人工智能角度来说,我们做什么事情呢?第一我们继续拥抱开源的系统,阿里云、阿里集团有这样非常有意思的设置,基础团队同时支持集团内部的应用和云上的应用,这样有什么好处呢?我们集团相当于阿里云就是最大的用户,我们自己做的东西自己在用,在有这么大用户的情况下,我们可以保证自己技术和产品是很不错的。

    另外,像Flink这样一个项目,进一步把我们所有的东西回归到开源上面来。Flink最开始是由一个德国团队开发的,我们跟他们合并之后做一个非常大的项目,我们内部把blink的项目和blink的社区来做一个非常好的整合,把自己做的改编的成本推到社区当中去。在这样的过程当中我们发现了自己的开发跟开源社区的开发当中有一些非常有意思,无论是好的经验还是坏的教训,譬如在Flink上面,我们发现自主开发的时候很多时候是以非常迅速的迭代方式来做的。

从开源共赢的角度来说,我个人的观点不一定对,我发现今天咱们国内的开发者对于开源有非常大的热情,但是如果我们来看底层对于大家开发者的支持来说怎么样来做CI,怎么样做更好的测试,怎么样做更好的代码托管以及开发者的社区交流等等,这一系列的都是像阿里云这样的公司能够给大家逐渐的来提供的一些服务。

我们也希望通过开源这样的会议包括开源开发者的活动等等,进一步帮助咱们国家和人工智能和开源开发者社区更有效的跟大家沟通,把我们整个开源的技术再往上提升一个量级,这也是我们从技术角度非常愿意做的事情。

    今天非常感谢有这样的机会能够给大家齐聚一堂讨论开源的事情,今天有很多合作伙伴来向大家介绍大数据的项目、人工智能项目,非常感谢大家今天能够来参加这个活动,谢谢大家。

来源:创头条 查看原文
点赞0
收藏0
水草
水草
用户评论
游客
发布
©2021 版权所有 ICP许可证号 京ICP备15013664号-1
登录 注册
登录
完成注册

快捷登录

请激活账号

为了能正常使用网站的评论、编辑功能及以后陆续为用户提供的其他产品,请激活账号。

您的注册邮箱: 修改

重新发送激活邮件 进入我的邮箱

如果您没有收到激活邮件,请注意检查垃圾箱。