首页 > 资讯 > 2023世界人工智能大会开幕纪要

2023世界人工智能大会开幕纪要

导语:【工信部副部长 徐晓兰】 我国人工智能产业蓬勃发展。一是产业体系逐步完善,核心产业规模达到5000亿元,企业数量超过4300家,智能芯片开发框架、通用大模型等创新成果不断涌现。二是基础设施加快布局,云算、智算、超算等协同发展,算力规模位居全球...

【工信部副部长 徐晓兰】

640.png

我国人工智能产业蓬勃发展。一是产业体系逐步完善,核心产业规模达到5000亿元,企业数量超过4300家,智能芯片开发框架、通用大模型等创新成果不断涌现。二是基础设施加快布局,云算、智算、超算等协同发展,算力规模位居全球第二,东数西算等重大工程加快推进,5G基站超过280万个,开展了工业数据标注登记试点工作。三是融合应用深度拓展,人工智能与制造业深度融合,有力地推动了实体经济数字化、智能化、绿色化转型。已建成2500多个数字化车间和智能工厂,经过智能化改造,研发周期缩短了约20.7%,生产效率提升了约34.8%,不良品率降低了约27.4%,碳排放减少了约21.2%。

上海是我国人工智能产业创新发展的高地,在技术创新、产业集聚、行业赋能、先导区建设等方面都取得了明显的成效。世界人工智能大会已成为全球人工智能领域重要的合作平台,希望各方以大会为平台,加强交流,凝聚共识,深化合作,共同推动人工智能健康发展,携手开启智能产业发展的新篇章。

【埃隆·马斯克】

2.png

大家好,上海的各位朋友们,尤其是陈书记您好!我觉得,人工智能将会在未来人类的演进中,包括对文明,产生深刻的作用和影响,我们也看到了,数字计算能力爆炸式的增长。最关键要考虑的一个指标,就是数字计算、机器计算和生物算力的比率。

什么意思呢?就是人类能做多强的计算,计算机和机器能做多强的计算,计算机和人类算力的比率是多少?每年的这个比率都在越来越高,这就意味着机器和生物算力之间的差距在进一步地扩大,经过一段时间之后,相比于机器智能而言,人类的智能所占的比例会越来越低,这将是一个根本性的、深度的变化。而其所带来的影响,目前也很难预知。

但是可能这是人类历史上最深刻的一个时期。特斯拉的Optimus人形机器人还在比较早期的开发阶段,但是在未来,我们将会有非常多的机器人。那么,马上需要考虑的又是一个比率的问题,也就是机器人和人类的比例。

现在看来,下一阶段将会超过1 : 1,也就是说,地球上机器人的数量将会超过人类的数量。它们的计算能力要强很多,这似乎是一个发展的趋势。这会有积极的影响,也会带来一些消极的影响。

积极的影响就是,我们将会进入到一个“后稀缺”时代,不会再有短缺了,那么这个时代将会是一个富足的时代,只要你想要的,立刻就能够获得。因为未来世界里面,在有非常多机器人的情况下,生产效率将会比人类为主导的生产效率高很多,所以这是非常大的变化。所以我们要很小心,以确保它最终的结果是有助于人类的。

但现有的发展趋势是,比如说在特斯拉的人形机器人领域里,我们也看到如今机器人越来越多。Optimus人形机器人就能够帮助人做一些工作,它也不是非常强的智能,但是有足够的能力来做一些无聊的、重复的而且危险的、人类不愿意做的工作,这是我们的目的。Optimus人形机器人的一个目标就是做这些人类不想做的事,这可能会是比较有用的。我也不想现在过度地自信或者乐观地认为特斯拉Optimus的角色一定会很重要。

在自动驾驶这块,特斯拉也非常有兴趣将自己自动驾驶的技术与其他的汽车制造商进行分享和技术许可。我们觉得这是一个非常有用的技术,让大家和无聊的驾驶过程就彻底再见了,这是超越时代的。

同时,汽车的使用率也会大大增加。一般情况下,一辆家用车一周大概是10-20小时的使用时间,多数的时间都是在停车场里停着的,但是对于全自动驾驶的汽车来说,它可使用时间可能会是一周50-60小时(一周总共就168个小时)。所以就使用率而言,全自动驾驶汽车将近是非全自动驾驶汽车的5倍。

在特斯拉,我们也想提供这样的技术,这也是为什么我们愿意把全自动驾驶技术许可给其他的汽车制造商来加以使用。那么当前我们自动驾驶的状态如何?特斯拉已经非常接近没有人类干预的全自动驾驶状态了。我们已经在美国的道路上测试了,现在很少会需要人工干预。所以我在开一辆特斯拉,使用最新FSD完全自动驾驶Beta版的技术系统时,基本上不需要摸什么方向盘了。

所以我预测,要实现全自动驾驶,或者说L4-L5级的全自动驾驶,大概今年晚一点的时候就能实现了。

我以前也做过预测,虽然都错了,但是我觉得此刻做的这个预测,比以往任何时候都更接近于现实。

还有一个点是,对这种深度的、全面的人工智能要保持担心,尤其是全自动驾驶汽车。比如说在这个例子里,对我们来说,有局限的AI去做全自动驾驶汽车是有难度的,但是我们觉得很快能够加以解决。我已经预测了,大概今年晚一点的时候就能够实现全自动驾驶,虽然不能100%保证,但是趋势是这样的。

这种有局限的人工智能,和一个全面的人工智能的情况完全不一样。全面人工智能很难去定义,全面人工智能比人类在任何一个领域都要聪明得多。特斯拉没有做这方面的研究,其他公司在做全面人工智能的研究,但是我觉得这是我们需要去考虑的,现在需要对他们进行一些监管,从而确保这种非常深度的人工智能。

我说的这种人工智能接近于几万台、几十万台甚至几百万台的高性能计算机,在一个数据中心里面进行协作,产生一个组合的超级智能。它有强大的能力,比人类要强大。这是一种风险,一种担忧。它可能会有很积极的未来,但也有可能会出现一些负面的未来,我们要尽自己的可能确保这些负面的消极的未来不会发生。

中国有非常多智慧的人,我一直非常钦佩中国人民的智慧和干劲,中国一旦下定决心要做一件事的话,一定都能把这个产业做得很好,在各个经济领域、各个产业都是这样的,当然也包括人工智能产业。所以我相信中国会有很强的AI能力,这是我的预测。

非常感谢大家邀请我来出席今天的活动,在线上表达一些观点,希望大家觉得这些观点有意思。再次感谢上海的各位朋友,感谢陈书记,我期待下一届能够线下参加。

【香港中文大学教授 汤晓鸥】


【共赢人工智能新时代】

华为轮值董事长 胡厚崑

两个关键的举措或抓手是:一方面是生根算力,打造强有力的算力底座来支撑中国的人工智能事业的发展;另一方面是结合大模型,从通用大模型到行业大模型的研究创新,真正让人工智能服务各行各业和科学研究。因此,我们提出了“AI for industry”和“AI for science”。

下面我将向大家详细汇报。

9.png

首先,关于算力,人工智能的发展离不开算力。在当前中国的情况下,我们面临着算力可获得性和成本等方面的挑战。多年来,华为一直专注于算力的发展。我们聚焦于鲲鹏和昇腾的根基,取得了突破。目前,我们正在通过架构创新、生态发展和灵活的共建方式来打造中国的算力底座。我们希望通过与大家的共同努力,消除算力对人工智能发展的制约。

10.png

首先,我们通过架构创新提升计算效率。例如,在计算节点层面,我们推出了革命性的对等评购架构,突破了传统以CPU为中心的异构计算带来的性能瓶颈,提高了整个计算的带宽,降低了时延,使节点性能提升了30%。

另一方面,在数据中心层面,我们在2019年推出了昇腾AI计算集群。通过集群方式,我们将计算、存储、网络和能源等优势集中在一起,将AI数据中心设计和管理成一台超级计算机,大幅提升了性能。

目前,我们在国内建设的规模最大的AI计算集群是位于深圳的鹏城云脑二期,目前算力规模为1000P。根据我们的规划,到2024年鹏城云脑三期的规模将达到16000P。此外,我们还在乌兰察布的计算中心部署了数千卡的规模,并实测发现通过集群方式,在相同算力下可以提升10%以上的效率。

11.png

下面我将向大家报告生态发展,因为生态是算力产业发展的关键手段,同时也是一个难以攻克的瓶颈。

四年前,华为提出了硬件开放、软件开源和人才培养的战略,围绕计算产业的发展展开。通过与各方合作,我们取得了一定的成绩。在硬件方面,我们坚持进一步开放,今年推出了更多样化的模组和板卡,与30多家硬件伙伴合作,基于昇腾推出了上百款人工智能硬件,满足不同行业的需求。

在软件方面,我们通过开源加强基础软件,特别是针对当前大模型的创新。我们提供全流程的使能平台,更好地支持科研机构和企业客户。目前,我们的生态已经孵化了20多个基础大模型,并适配了十多个业界主流的大模型。

统计数据显示,中国目前一半的大模型都得到了AI昇腾算力的支持。因此,我特别感谢那些使用了AI昇腾算力的公司和机构,感谢他们对我们的信任,这让我们对未来发展算力生态更加有信心。当然,我们也清楚,生态的发展没有捷径,必须脚踏实地地前进。我们希望未来有更多的公司加入我们的行列,共同打造好这个生态。

在发展算力方面,我们还考虑到身段的灵活性和多样化的手段和模式,这是基于中国的实际情况得出的结论。因此,我们采用多种模式进行算力建设。例如,在城市的算力基础设施建设方面,我们已经支持各地政府打造了25个城市级的人工智能计算中心,其中包括上海。

12.png

另一方面,我们注意到许多大型企业都有自建人工智能算力中心的需求,因此我们积极配合并帮助这些企业建立自己的人工智能算力中心。例如,中国移动、科大讯飞、南方电网等大企业都在进行建设,我们也积极参与其中。

同时,我们意识到中小企业对人工智能的需求非常旺盛。为了满足这些需求,我们通过云服务的方式在华为云上提供算力服务,将多种手段结合起来。我们希望通过这种方式真正实现算力不再成为人工智能发展的瓶颈。华为在深耕算力的同时,还致力于让人工智能服务千行百业和科学研究。

13.png

在这方面,我们认为一方面要不断提升通用大模型的能力,同时要探索通用大模型与行业大模型的结合。举个例子,如果我住在福田区,家里有一位78岁的老人,我想知道政府是否能提供补贴。如果我们使用通用大模型,它会给出什么样的答案?同时,我们再看看如果使用行业大模型,它又会给出什么样的答案。

14.png

这个行业大模型是我们与深圳市福田区合作开发的政务大模型。很显然,行业大模型在通用大模型的基础上能够给出更精准、更有价值的答案。这是我们努力的方向。

15.png

为此,华为推出了三层大模型结构,最底层是基础大模型,我们将其比喻为"读万卷书",它的目标是学习海量的基础知识。在这一层之上,我们打造了行业模型和场景模型,我们将其比喻为"行万里路"。从"读万卷书"到"行万里路"还有许多挑战需要克服,关键之一是将各行各业的知识与大模型充分匹配和融合。在这方面,华为正在与各行业伙伴共同努力。

目前,华为的盘古大模型已经支持金融、制造、政务、电力、煤矿、医疗、铁路等十多个行业的400多个业务场景的AI应用落地。未来,我们希望与更多行业合作伙伴携手扩大这个面,深化合作,真正做到走得更深、做得更实。

16.png

除了让人工智能服务于千行百业,我们认为当前还有一个重要任务,那就是让人工智能服务于科学研究。我们提出了"AI for science"的口号。我们发现,通过学习海量的历史数据和科学知识,并将数学方程编码到我们的大模型中,AI可以促进与基础学科(如分子动力学、流体力学、传热学、生物学等)的结合,帮助我们发现更多科学规律。

目前,华为已经发布了盘古科学计算大模型,其中包括药物分子模型、盘古气象模型和海浪模型等。我们与科学家合作取得了不错的成果。例如,在气象研究领域,我们的盘古大模型可以在几秒钟内完成对未来全球一个小时到七天的气象预报,速度快且准确。这需要充分学习40多年的气象数据,并结合行业知识进行训练和校正。我们正在多个科学研究领域展开不断的训练和校正工作。通过我们的努力,我们希望为科学家和科研工作者带来更多新的思路、方法和工具,为人类社会的发展注入新的动力。

17.png

最后,我想打个小广告,因为明天我们华为将举办全球开发者大会,届时我们将详细介绍华为盘古大模型3.0,以及我们如何为千行百业和科学研究提供服务。希望大家关注。各位朋友们,我们非常幸运地共同见证了科技革命的几次浪潮,从互联网到移动化到云计算再到人工智能,每一轮变革都给社会带来了深远的影响。毫无疑问,通用人工智能给我们带来了无限的想象空间,也引领我们进入下一个黄金十年。我们希望与大家携手创新,让人工智能更好地服务千行百业,更好地服务科学研究。AI for industry,AI for science,让我们共同赢得人工智能的新时代。

【卓越人工智能引领者奖 SAIL Award】


【重大创新成果首秀】


【AI时代的科技合作】

沈向洋       微软原执行副总裁;美国国家工程院外籍院士

赛义夫·拉曼        IEEE主席兼首席执行官

Q:简单介绍一下IEEE

拉曼教授:IEEE在全球有 43 万多个会员,中国会员数是第三大的,所以说我们不仅仅有我们的会员,同时我们也开发相关的标准,我们还会出版论文、组织一些会议,这些都是非常重要的。IEEE 每年都会举办 2000 多场的会议,在这 2000 多场会议当中有 200 场是在中国举行的。

Q:您能不能简单的来讲一下 IEEE在AI方面做了什么?

拉曼教授:就像前面的这个伊隆马斯克讲到的AGI,我们很多AI工作也是开源的,希望保证人工智能整体的发展是开放的。我们提供了一个平台,提供了一个基础,让科学家、工程师和开发者能够共同的来看来讨论他们所做的工作,希望这样能够确保我们能够加以控制。

Q:我们还是要对AI有一定的监管,我们也认识到了社会的力量,比如说微软和谷歌,包括其他的公司也成为了我们的partner,成立 Bing AI 组织,它的影响力也非常的大。除此之外,我觉得像 IEEE这个组织也有很大的力量,因为你们是一个中立的位置,你们可以去影响相关的公司和国家。

拉曼教授:作为 IEEE 的主席,我关注开放性和全球化,也多次强调好的科学,无论发生在哪里,对于各地的科学都是有好处的。我们大家都要共同的来进行探讨,我也是鼓励开放的科学,同时也鼓励大家在我们的会议和期刊当中发表,可以提高可见度。我们今天的会议就是一个很好的例子,我也希望能够看到这所有的这些成果,不仅仅是在上海,在全球都有可见度,我们的这些知识可以变得更加的实际。

Q:我知道您非常关注专业人士的职的发展,特别是扩充中国 IEEE 的会员的数量,能跟我们来分享一下您的组织目前在这方面所做的一些工作吗?

拉曼教授:IEEE每年出版的论文来自于中国的大概有 30 多万个作者,有很多的中国的作者都在我们的期刊上发表论文。我们在几年之前在中国设立了一个社区,鼓励更多工程师成为我们的会员和高级会员。

Q:在 AI 的时代,你们又会做些什么呢?比如说期刊、会议会不会有所改变?因为能够有新的形式来帮助人们更多的去理解相关AI知识,这一点我觉得非常的好。

拉曼教授:其实从疫情当中我们也学习了很多,疫情当中我们不能够有很多的旅行,现在会议是混合形态的,有很多是网上的会议,我们也会有全息影像的会议,感觉非常的有现实感。

【拓展“生成”机遇,“智联”产业创新】

侯阳  微软全球资深副总裁;微软大中华区董事长兼首席执行官

今年世界人工智能大会的主题是智联世界,生成未来,我也想借此机会在这里与大家分享微软在拓展生成式人工智能的生态创新,以及加速推进产业智联的过程中收获的一些经验和思考。人工智能作为科研项目最早出现在 1956 年,至今已经发展了将近 70 年。随着去年底 ChatGPT 的一夜爆红,大模型和AIGC,生成式人工智能仿佛在瞬间爆发,甚至很多科技行业的从业者都对 AIGC 的突然涌现感到惊诧不已。其实在微软看来,所谓的涌现也绝非偶然,无数优秀的科研人员数十年如一日的研究基础以及海量计算资源的投入,才造就了这样的创新的成果。

也许大家知道, OpenAI ChatGPT 的突破靠的正是微软智能云提供的基础架构和算力支持。从 2019 年开始,微软就和 OpenAI 展开深度合作,以海量的云计算资源支持 OpenAI 大语言模型的研究。而双方战略合作的基础就在于,我们两家公司都真诚的希望创造出造福每一家企业和每一位消费者的人工智能技术。

在今年1月的达沃斯世界经济论坛上,微软的 CEO 纳德莱先生提到,人工智能的黄金时代已经到来,微软智能云也由此开启了加速上新的模式。我们将最新的 AI 智能技术与企业级的云服务全面的融合,从而赋能广大企业在产业数字化转型进程中实现真正的数智融合。我们的 Azure Open AI 企业版服务推出了包括 GPT 4 和企业级 ChatGPT 在内的五大模型,支持客户创造不同产业需要的定制化的智能服务。同时围绕 Microsoft 365 办公 Dynamics 365 商业应用、 GitHub 开源社区开发、数字信息安全保护、员工体验提升以及我们每个人所熟悉的 Windows 操作系统,微软也推出了一系列由 AI 驱动的 Copilot 智能副驾服务,用户可以用自然语言提出需求, Copilot 就能帮用户高效的完成一系列的任务,比如快速的写代码,开发出一个应用,或者根据演讲的提纲要点设计出一整套图文并茂的 PPT 演示稿。

刚才我举例的这些场景在今天已并非凭空的虚构,这是微软在内的很多企业已经实践的现实的工作场景,比如备受关注的OpenAI 企业级服务上线几个月以来,已经得到了超过全球 4500 家企业的首肯,在制造、零售、金融、服务等多行业的生产环境中,已经在实践智能化的创新。再比如用于辅助编程的 GitHub Copilot 自推出一年半以来,已经有全球 100 多万的开发者在使用,他们有将近一半的代码都已经有 Copilot 帮助完成,并且编程的速度提升了 50% 以上。在全球客户对微软人工智能服务的这些积极的尝试当中,我们不仅看到了企业加速数字化转型的创新热情,更是感受到了市场对新一代生成式人工智能的迫切的需求。因此,微软也在不断的持续加大投入,全力推进生成式人工智能的发展和普及。在今年5月举办的微软全球开发者大会上,微软就连续发布了超过 50 项与生成式人工智能开发相关的新技术和新服务。

28.png

其中最重要的一项是我们向全球开发者开放了 Copilot 智能副驾与 plugins 插件拓展体系,让全球各地的开发者、合作伙伴和企业用户都能够抓住生成式人工智能带来的创新机遇,创造出前所未有的新一代的智能应用。其中, 智能 plugins 插件拓展体系采用与 OpenAI 相同的技术标准,它可以在第三方应用、客户、业务场景和生成式人工智能之间构建起安全可靠的连接,通过 plugins 接入实时更新的信息流以及多种多样的应用和服务,就可以为 AI 系统添加更具专业性的计算能力,创造出种类更丰富、使用更便捷、信息更准确的智能副驾式的对话服务。

预计到微软 Microsoft 365 Copilot 正式发布的时候,我们将提供超过 1000 种 plugins 插件供开发者选择。而更加岂值得期待的是,全球的开发者和合作伙伴将有能力自主运用这些插件接口和智能服务,开发出更多更丰富的、独树一帜的智能副驾驶的创新应用。

29.png

毫无疑问,这些是基于自能自然语言对话的新一代的智能交互应用,将为我们开启一个更加精彩纷呈的数字世界。微软坚信,今后任何一家公司都需要具备驾驭数字技术的能力。我们也看到随着生成式人工智能不断展现出的巨大潜力,今后每一家公司的每一个应用程序都将由人工智能来驱动。人工智能的技术突破也正在为各行各业带来千载难逢的创新机遇和挑战,这也促使我们思考如何用它来提升企业自身的创造力和竞争力。

30.png

在实现技术突破的同时,微软就在思考如何将研究成果转化为生产力。我们希望在第一时间将生成式人工智能与产业的需求相结合,加速产业的升级和创新。我在这里展示的是根据近期全球客户的产业智能化解决方案,总结出的六个重点的行业应用人工智能的创新化场景,比如我们可以革新零售电商的智能客服,实现互动式的搜索,引导消费的趋势。我们还可以在游戏中构建栩栩如生的 NPC 角色,生成无限的剧情和拟真的对白。在金融行业,我们可以随时获取金融市场实施行情的分析报告,更早的发现、更快的管控潜在的金融交易风险。同时在生命科学研究领域,我们也可以提升临床实验数据的分析能力,加速药品和疫苗的研究,实现更精准的医疗影像识别和诊断。同时在教育领域,我们可以也为学生带来更具启发性、交互性、定制化并且不受地域限制的探索式的学习方式,我们可以帮助培养更适合未来市场需求的有创造力和终身学习能力的人才。

31.png

随着生成式人工智能不断加速产业融合,相信在今后的几个月,将会有更多丰富多彩、充满想象力的应用场景不停的涌现出来。在人工智能加速发展的过程中,不可避免会出现人们对潜在的安全风险的担忧。微软一直倡导并严格的恪守打造负责任的人工智能的六大原则,我们也始终严格遵守与数据隐私安全合规相关的各项的要求。同时,我们也积极地倡导全球科技企业通过交流合作形成产业共识,确保我们所开发的人工智能技术能够负责任地造福全人类。

面对新一轮的技术变革带来的巨大的创新机遇,微软在中国愿意从我们自身的技术和优势资源出发,深耕中国的本土生态系统,与全国各地各行各业的企业组织和合作伙伴持续的拓展技术交流和业务合作,与全国不断的发掘数字化智能在各个产业中的应用潜力,真正的推进各行业的智能化创新与数字化转型,贡献我们最积极的力量。

32.png

【圆桌论坛】

徐立(主持人)    商汤科技董事长兼CEO

姚期智     图灵奖得主、上海期智研究院院长

袁洋        清华大学交叉信息研究院助理教授

杨植麟     清华大学交叉信息研究院助理教授、Moonshot Al创始人

潘新钢     DragGAN第一作者、南洋理工大学计算机科学与工程学院助理教授

Q:大模型发展有哪些基础理论的突破?未来的发展方向?

姚院士:ChatGPT之后一个重要的目标,是要让机器人拥有多种模态的感知能力,能够自主学习新技能。一般的强化学习方法太慢了,高阳老师的一个在算法上的突破是把现在主流的强化学习加快数百倍,几个小时之内就可以做到。它不仅是一个实用的问题,也是理论的贡献,在过去的六七年里面,人工智能在最高层上有一个路线之争,现在依赖强化学习这条路线是不是正确?高阳教授的突破加重天平方向的另外一边,就是我们应该坚持现在这条路。

Q:交叉学科对大模型的发展有什么帮助?

袁洋:多模态肯定是很重要的,但是我觉得大家对多模态的理解可能比较粗糙,大家往往想到的多模态是能够看图片、看文字,有触觉、有温度的感觉。但是我觉得要真正解决行业里的问题,多模态需要做的更细致一些。比如说我们如果只是考虑文本到图片的一个生成,模型生成一个狗的图片,可能你会发现狗的图片不是你想要的姿态或者模式,然后你可以用鼠标来拖动一下,修改一下。鼠标拖动的这种方式在我看来这是就是一种新的模态,用户用一种比较好的方式把自己想要表达的内容告诉大模型,让他能够理解。这种多模态的输入我觉得在具体应用中非常重要。到更具体的一些行业,比如说医疗、法律、教育,我们可能不应该只是把文本或者图像等专业的数据给模型,就希望他能够解决专业的问题。我们应该去深耕这个行业,去找到它里面最核心的问题是什么,然后再去找在这个问题里面我们到底需要什么模态的数据、什么样的信息能够精准表达我们想要解决的问题,我称为是一种模态的补全。然后我们也需要收集足够的数据,做好模态的对齐。模态补全、模态对齐做好之后,我相信它能够赋予大模型更强大的能力,来解决更核心的交叉领域的问题。

Q:大模型实际应用中的挑战?

杨植麟:现在确实有很多大模型方面的问题还没有解决,比如说怎么让它做到非常可控、避免产生幻觉等。很重要的一个点是我们去思考这些问题的时候,不是要单点思考某个问题,而是寻找底层本质的通用问题,更系统的去抽象出来这些问题之间底层都是什么样共通的问题,回到更本质的一个层面去解决。

Q:GAN和Diffusion模型的路线之争?

潘新钢:两个模型三个主要差异:1)性能和效率的trade off:显然扩散模型需要的算力更大,迭代式的计算所需要的 inference 时间和训练的时间都显著高于GAN,更大的计算开销也带来了更高的图像生成的性能,它所生成的图像不会受限于 Gan 的模型塌缩问题,真实性和多样性都显著优于GAN,所以扩散模型的上限一定是要高于GAN的。在性能允许的情况下,Diffusion质量和多样性方面的优势是非常明显,并且应用价值应用前景更广。但是在一些特定的场合,例如 Mobile device 这些对于性能或者计算开销有限制的情况下,GAN仍然是一种妥协的选择。2)Latent space 的差异:GAN是将一个 Compact latent Vector 映射到图像,但是扩散模型是将一个和图像分辨率一样的 noise map 映射逐渐去噪,映射成为图像。实践中,扩散模型的这种 noise map对于图像内容的影响常常表现出来为比较随机,不具有结构化的特性。但是GAN的 Compact latent code可以非常有效地去编辑图像中的 high level 的属性。3)生成图像的空间的连续性:扩散模型的图像空间较为不连续,GAN的图像空间非常连续自然,所以我们用扩散模型进行latent space 编辑或者视频的编辑时候,常常出会观察到跳变的情况。GAN表现比较流畅,看起来像动画。将来如何把这两个模型各自的优势互补,会是非常有趣的研究问题。

Q:大语言模型未来最看好的垂直领域?

A:文书工作替代,生产力提升(姚院士);智能医疗(袁洋);AI记忆增强(杨植麟);视频和三维内容生成(潘新钢)

(完)


来源:赛道掘金备用号 查看原文
点赞0
收藏16
zsh
zsh
用户评论
游客
发布
©2021 版权所有 ICP许可证号 京ICP备15013664号-1
登录 注册
登录
完成注册

快捷登录

请激活账号

为了能正常使用网站的评论、编辑功能及以后陆续为用户提供的其他产品,请激活账号。

您的注册邮箱: 修改

重新发送激活邮件 进入我的邮箱

如果您没有收到激活邮件,请注意检查垃圾箱。