黄仁勋最新对话 DataBricks CEO:数据或每 5 年增长 100 倍!每个人都会是智能制造商

【阿里云】云服务器经济型e实例/2核2G/3M/40g,新人专享渠道特惠价只要99元!特惠热卖中。

英伟达 CEO 黄仁勋本周参加了由 Databricks 举办的“Data + AI Summit 2024”活动,并在会上与 DataBricks CEO Ali Ghodsi 进行了一场对谈分享。

黄仁勋谈到了他对 AI 和数据处理未来的见解。黄仁勋指出,AI 不需要在能源紧张的地区进行训练,可以利用全球各地的多余能源,这将使得 AI 模型的训练更加高效。

他还提到,AI 的长期效益在于推理和生成能力,这将大大减少能量消耗。例如,通过 AI 进行天气预测,相比传统的超级计算机模拟,能够节省数千倍的能量。

此外,他还讨论了生成式 AI 的革命性影响,未来的计算体验将更加生成化和情境化,减少互联网流量并显著节省能源。他鼓励企业尽早开始使用 AI 技术,参与到这个快速发展的领域中,以免在未来落后于竞争对手。

以下为这次对话完整内容,enjoy~

Ali Ghodsi

我想先聊聊英伟达惊人的表现,三万亿美元。五年前你有没有想过世界会变成这样?

Jensen Huang

当然,从一开始。

Ali Ghodsi

有没有什么建议给其他 CEO 呢?我们该怎么做才能达到这样的成就?

Jensen Huang

无论你做什么,不要制造 GPU 。

Ali Ghodsi

好的,我会告诉团队的。我们今天早上花了很多时间讨论数据智能,我们指的是企业拥有的大量专有数据,训练 AI 模型并根据这些数据进行定制。你认为这有多重要?这是我们需要更多投资的领域吗?你听到了什么?

Jensen Huang

每家公司的业务数据都是他们的金矿。每家公司都坐拥金矿。如果你有一个服务或产品的飞轮,客户使用这些服务和产品并提供反馈,你已经收集数据很长时间了,可能是客户相关的,市场相关的,或供应链相关的。我们都积累了大量数据。

但事实上,直到现在,我们还没有真正能够从中提取出有价值的见解,更重要的是,提炼出有用的智能。现在,我们对此非常兴奋。我们在芯片设计、漏洞数据库、新产品和服务的创建以及供应链中都在使用这些数据。

首次,我们有了一个从数据处理和精炼、模型学习到模型部署并连接飞轮、收集更多数据的工程流程。我们公司正在这样做,这让我们成为世界上最大的“小”公司之一。

当然,这归功于我们公司中有许多AI在帮助我们完成各种惊人的事情。我认为每家公司都是如此。我认为这是一个非凡的时代,一切都始于数据,这一切都始于  DataBricks 。

Ali Ghodsi

非常感谢。好奇现在关于闭源模型与开源模型的辩论。开源会赶上来吗?两者会共存吗?最终会被一个巨大的闭源模型所主导吗?你怎么看待整个开源生态系统?它对大模型的开发有多重要?未来会有多重要?

Jensen Huang

我们需要前沿模型。像 OpenAI 和 Google 所做的工作非常重要,推动了前沿的发展,帮助我们发现新的可能性。

如果你看看今年,最重要的事件之一就是开源的进展。像Llama 2,Mistral, DataBricks  的工作,真的很棒。

开源的意义在于它激活了每家企业公司,使每家公司都能成为 AI 公司。对吗?你自己也看到了,我们在各地都看到了这一点。

我们最近将 Llama2 转变为一个完全容器化的推理微服务,现已可以下载。你可以在 HuggingFace 和 DataBricks 上找到它。它已经被全球数百家公司集成。这说明开源激活了每家公司成为 AI 公司。

我们在公司内部广泛使用开源模型,同时也开发了一些专有模型,对开源模型进行微调以适应我们的数据和技能。没有开源,就不会有这个全球性的AI运动。我认为这是件大事。

Ali Ghodsi

开源和闭源都会存在,我们需要两者。你提到的这个框架叫什么?NIMS?

Jensen Huang

我们称之为 NIMS。

Ali Ghodsi

我们非常兴奋地宣布,我们将把 DBRX 集成到 NIMS 中。我们将在 DataBricks 上提供服务,并将未来开发的任何新模型都包含在内。所以我们对 NIMS 非常兴奋。

Jensen Huang

这真的是一件了不起的事情。要创建这些端点、API、LLM API,整个堆栈非常复杂。这些模型虽然现在看起来很小,但实际上计算量还是非常大的。计算堆栈非常复杂,需要成百上千的依赖项来创建这些端点。

所以我们创建了一个叫做 英伟达推理微服务的东西,我们打包了所有的依赖项,优化了所有内容。我们公司有一个工厂,有许多工程师在工作,他们是这方面的专家。

我们将其打包成一个微服务,你可以在 DataBricks 上享受它。你可以下载并随身携带。你可以使用我们称之为 NIMO 的微服务进行微调,并在任何地方使用它。它可以在每个云上运行,也可以在本地运行。你可以随处享受它。

Ali Ghodsi

你甚至可以在本地运行它,不必在云上。当我们与客户交谈时,他们表示需要在内部发展这种专业知识,以定制模型并获得优势,你对此有什么看法?

Jensen Huang

我认为未来的世界,我们已经找到了一种方法,可以对几乎任何信息进行标记,对几乎任何数据进行标记。我们可以提取结构,理解、学习其表示,理解这些信息的含义,无论是哪种类型的。

可以是声音、语音、文字、语言、图像、视频。可以是化学物质和蛋白质。甚至可以是机器人、关节动作、操控。可以是方向盘的转动、驾驶。我们可以对几乎任何东西进行标记。

由于这些云数据中心实际上在生成标记,我们第一次制造出一些独特的东西。我们有一种叫做AI超级计算机的仪器,它生成标记,并基本上是一个专门为此设计的工厂。我们大规模制造智能的能力是相当新的。

这就是为什么我几乎可以肯定,我们在为各个行业建立这些AI工厂时,处于新的工业革命的开始。我们不再产生电力,而是产生智能。每家公司当然都有关于特定领域的智能。

世界上很少有公司比 DataBricks 更了解数据、数据处理、AI以及执行所有这些工作的基础设施。我们在所做的工作中非常专业,我们的基础都是关于特定领域的智能。

每家公司,无论是金融服务还是医疗保健,最终每个人都会成为智能制造商。如果你今天要成为智能制造商,将来你会有 AI 的 HR。我们称之为 AI 工厂。每家公司都必须这样做。我们正在这样做,你们也在这样做。我们看到大大小小的公司都在这样做。

未来,100% 的公司都会这样做。你当然会从你特定领域的数据开始。这些数据存储在 DataBricks 中。你会处理这些数据,提取并提炼出智能。你会将其转变为一个飞轮,你会有一个 AI 工厂。我们所有人都会这样做。

Ali Ghodsi

我完全相信这一点。我们非常兴奋的一件事是,我们做了大量的数据处理。数据处理量非常大。我想我们每天在 DataBricks 中处理大约四艾字节的数据。

Jensen Huang

这是当今世界上最大的计算需求,处理数据。每家公司都在做。

Ali Ghodsi

没错。这实际上高度并行化。我们一遍又一遍地进行相同的操作。我非常兴奋能与您合作,将 GPU 加速带入数据处理领域。我们可以在核心数据处理上实现与 AI 模型相同的革命。

我们非常兴奋能与您合作,使用 GPU 加速我们的 Photon 引擎,真正进入这一新时代,将 GPU 应用于核心数据处理。这些今天必须在 CPU 上运行的大规模工作负载,也可以在英伟达 GPU 上运行。对此我非常兴奋。

Jensen Huang

顺便说一句,这是一个重大宣布。当今计算领域最重要的两个趋势是加速计算和生成AI。Nvidia和 DataBricks 将合作,结合我们在这些领域的技能,为大家带来新的可能性。

在加速数据处理方面,这高度并行化。但是它非常复杂,因为有许多数据格式,有许多不同的分组和连接方式。处理数据是一个非常复杂的库套件。Spark是一个超级复杂的库套件。我们花了五年时间日以继夜地工作,终于有了一套可以加速Photon的库。这是一件大事。我们为此已经工作了很长时间。

从任何角度来看。现在我们将加速Photon,使大家能够更快、更高效地处理数据,极大地节约能源。

Ali Ghodsi

这非常有意义,对吧?因为即使它非常复杂,有很多极端情况,但它高度并行化,仍然是专门化的。你不需要通用计算。我们要做的只是一次又一次地对X字节的数据进行相同的操作。这并不是完全独特的数据处理。

我对此非常兴奋。我认为这真的有能力带来革命性的变化,提供更快的性能和更低的成本,这将是非常惊人的。

Jensen Huang

看看当我们能够如此快速地处理大量数据时会发生什么。它使得研究人员有一天可以醒来说,我们把互联网上的所有数据都拿来训练一个巨型模型吧,因为这不需要太长时间。没有加速计算,没有加速计算技术,没人会想到这样做。这会太昂贵或太耗时,但现在,这已经变成了一件平常的事情。

所以我们能够更具成本效益地、更高效地处理X字节的数据,从时间角度来看,这将会激发你们的各种想法。你知道吗,这会变成“让我们拿出我们公司的所有数据,训练我们的超级AI”。

Ali Ghodsi

你会做到的。那一天会到来。我的意思是,把整个互联网的数据拿来训练曾经是一个科幻的想法。没有人认为你可以做到。我们需要硬件和基础设施来实现这一目标,以便我们可以专门化,现在每个人都在做。

这次生成AI的爆发非常惊人,但在早期,大多数企业都是从聊天机器人开始的。根据我们的数据进行定制等等。但现在我们看到人们分支到越来越复杂的用例。是的。你对未来AI的新应用最感兴趣的是哪些?

Jensen Huang

最有影响力的可能是对所有企业的客户服务。客户服务代表着几万亿美元的开支。每家公司都有客户服务。每个行业都有,每家公司都有。关于聊天机器人的重要之处在于你可以自动化。但主要是关于数据飞轮。你想要捕捉对话,捕捉互动到你的数据飞轮中。这将产生更多的数据。

我们现在看到数据每五年增长约 10倍。我不会惊讶地看到由于客户服务,数据每五年增长 100倍。所以我们将把一切都连接到飞轮中。它会收集更多数据,捕捉更多见解。我们会从中提取出更好的智能,提供更好的服务。

也许它甚至更具预测性,在问题出现之前,你就可以联系客户,比如说,“这个东西快过期了”或者“我们注意到你仍在使用这个版本”之类的,然后你主动联系客户,解决问题。就像预防性维护一样,我们将有主动的客户支持。这将创造更多数据。我们将推动这个飞轮。

因此,我认为客户服务可能会成为大多数公司最重要的超级充电能力。因为它会收集的数据。但我们已经对所有东西进行了标记。我对我们生成化学品、生成蛋白质、生成碳捕获材料、碳捕获酶和令人难以置信的电池设计感到兴奋。所以我们在生成物理AI。最近我们实现了对区域天气的预测,精确到几公里。

以前需要超级计算机的能力大约是现在的1万倍才能预测到一公里的天气。现在我们使用生成AI来做到这一点。因此,物流将得到改善,保险将得到改善。当然,保护人们免受伤害也将得到改善。

所以物理的东西,生物的东西,当然,3D图形的生成AI,数字孪生体,为视频游戏创建虚拟世界。生成AI无处不在。如果你的行业没有涉及生成AI,那只是因为你没有注意到它。它无处不在。

Ali Ghodsi

完全相信。我们会看到没有一个领域不会有这些应用。这非常有意义。这些新领域非常令人兴奋,对数据和AI有巨大的需求。你对我们如何帮助企业实现更可持续的AI有什么看法?

Jensen Huang

好吧,可持续性有很多不同的观点。一个关于可持续性的问题是能源。记住,AI不在乎它在哪里上学。我们不需要将AI训练数据中心放在能源网络已经紧张的地方。我们可以将其放在能源过剩的地方。

因此,世界上有很多能源只是分布不合理。我认为我们可以第一次捕捉这些多余的能源,将其压缩成 AI 模型,然后将这些 AI 模型带回社会供我们使用。这是一个主要的想法。

另一个是,记住,AI 不仅仅是关于训练,它是关于推理和 AI 的生成能力。你训练模型是为了使用它。当你考虑到 AI 的长期效益时,我给你举个例子,用 AI 预测天气而不是使用超级计算机。我们基本上理解了涉及天气预测的物理规律。

我们不需要每次都从基本原理进行模拟。我们可以使用AI生成它。通过使用AI生成,不仅减少了所需时间,提高了生成的分辨率,而且减少了数千倍的能量消耗。不是百分比,而是数千倍的因素。

通过这样做,我们在设计你在手机中使用的芯片时也是一样的。你训练一次模型,用这些模型设计更好的芯片,从而为所有相关方节省能源。只要考虑到AI的长期效益,我相当确定它会显现出节省的能量量。

关于生成AI的最后一个想法,今天的计算体验是基于检索的。我们触摸手机,尽管我们认为手机使用的能量很少,但每次你触摸它,它都会发送请求,激活世界各地的API,检索信息。互联网被点亮,为你从所有这些数据中心带回一点点信息,基于推荐系统进行组装并展示给你。

将来,这会更加情境化,更加生成化,直接在设备上运行一个小型语言模型。互联网流量将大大减少,它将更多地生成一些内容,并通过检索进行补充。

因此,计算的平衡将大大转向即时生成。这将节省大量能源,非常合理。想象一下,阿里问我的每一个问题,我都要跑回办公室拿一些文件,带回来展示给他,让他决定要提取哪些信息。相反,我现在用大约 25 瓦的能量生成所有内容。

因此,我们节省的能量将是惊人的,计算模型将完全转变。这种计算方式将节省大量能源。当然,我们会更高效地得到答案,而不是自己梳理信息。

Ali Ghodsi

但是我们会有更多的问题,对吗?

Jensen Huang

我们会有更多的问题,事实上,这是大构想。未来与 AI 合作的一个大构想是提示。我们会有更多有趣的问题,因为我们会很快得到很多答案。所以这是一个非常重要的事情。

Ali Ghodsi

非常激动人心的未来。我最后一个问题。我们如何帮助客户和这里的组织今天就开始行动?最佳方式是什么?

Jensen Huang

我之前说过,我认为 DataBricks 从数据处理扩展到数据治理和存储,然后再扩展到从数据中提取智能,这完全是天才之举。我觉得这个平台非常棒。你让人们能够轻松管理数据、提取信息、处理数据。

整理数据仍然是训练模型的一个很重要的部分。人们谈论训练模型,但在训练模型之前,你必须搞清楚数据的质量、格式和准备。因此,我认为开始的方式是使用 DataBricks 的数据智能平台。

DataBricks 的数据智能平台听起来很好。我喜欢它,几乎和 NIMS 一样好。你可以同时使用它们,不必支付额外费用。去试试吧。为什么不呢?绝对可以开始。不管你做什么,只要开始。你必须参与到这个快速发展的过程中。

记住,AI 正在指数级增长。你不想等待和观察一个指数趋势,因为几年后你会发现自己落后得不可思议。赶上这列火车,享受它不断加速的过程,在过程中学习。所以,这不是你能通过观看或阅读来学习的东西,你需要通过实践来学习。我们也是这样做的。所以,赶紧参与进来吧。

Ali Ghodsi

这是很好的建议,Jensen Huang。这是一个了不起的十年。感谢你的一切。我们一直是很好的合作伙伴,期待未来的十年。

© 版权声明

相关文章

暂无评论

暂无评论...