DeepAI CEO Kevin Baragona:大模型竞争的本质,已经从算力竞争变成了效率竞争 丨2024 T-EDGE
发布时间:2024-12-12 17:07 浏览量:2
DeepAI CEO Kevin Baragona
过去一年,大模型行业几乎每个月都在发生变化。
按照李开复的说法,从GPT-4、Turbo、4o到o1,大模型的推理成本一年下降了10倍左右。整个行业在以1年10倍的速度,实现推理速度变快和推理成本下降。但另一方面,由于世界上数据总量有限,基础大模型Scaling Law法则也开始面临挑战——随着算力不断叠加,大模型向前推进的速度反而变得越来越缓慢。
12月6日,2024T-EDGE创新大会暨钛媒体财经年会在北京市大兴区举办,大会现场,DeepAI CEO Kevin Baragona针对于这一行业困境,给出了他的最新看法。
公开资料显示,DeepAI是一家美国领先的生成式AI供应商之一。该公司旗下主要的AI工具,包括文生图、文生视频、音乐创作和开发人员 API等。该公司的使命是让个人创作者和企业都能使用先进的AI功能,使他们能够将人工智能用于各种创意和实用应用。
“过去,AI是一个让人很羞愧的词,因为在长达数十年的时间里,AI都没有任何特别的进展,AI开发者就像小丑一样。但在2024年,我们已经处于AI的黄金时代,每个月都会看到巨大的进展。”
Kevin Baragona表示,推动这一切发生的最大动力,是计算成本的大幅下降。对于整个AI来说,已经没有秘密可言。“你只需要不断地购买算力和数据,然后进行大规模的实验,AI的性能就能实现不断优化。”
但是,随着算力和数据的不断增加,AI行业开始发现一个问题——大语言模型进展开始变得越来越缓慢。
“大语言模型的进展,是已经到达顶峰了或者已经停止了吗?我认为可能还没有停止,但确实是有所放缓。”
Kevin Baragona称,“放缓“的最本质原因就是,现实世界的数据总归是有限的,现在可以用于大模型训练的数据,确实已经快用完了。所以,人类需要寻找新的架构来替代之前的架构。
按照Kevin Baragona的说法,DeepAI找到的可行性路径,就是回到模型架构本身的优化上,去优化模型的推理架构。在这一路径下,大模型一开始的推理时间、数据训练和测试时间的都会更长,但是模型对于数据量的要求会大幅降低。随着推理模型各个步骤的优化,推理速度将会加快,AI性能也会变得更强。
“在全新的架构下,算力将会变得越来越廉价,但AI性能可能达到难以想象的结果。”Kevin Baragona总结道,大模型竞争的本质,已经从算力竞争变成了效率竞争。
以下是Kevin Baragona演讲的部分摘录,略经编辑:大家好,我是 Kevin,我创立了一家名为 DeepAI 的生成式人工智能公司,公司坐落于美国加利福尼亚州。在人工智能领域,我们是美国领先的生成式 AI 供应商之一,我们提供了诸如聊天机器人、图像生成器、视频生成器等一系列非常出色的工具。目前,我们在美国已经取得了相当不错的市场份额,并且我们满怀热情,期望能够持续拓展业务,为广大用户带来更多令人惊喜的产品。
可以毫不夸张地说,如今的 2024 年,我们正处于人工智能的黄金时期。在这个时代,每年甚至每个月,我们都能目睹人工智能领域以惊人的速度取得令人难以置信的进步,这无疑是一个令人振奋且充满无限可能的时代。然而,回首过往,人工智能的发展之路并非一帆风顺,我们经历了漫长的探索与积累,才得以抵达今天的高度。
就拿图像生成技术来说,当我们公司刚刚起步时,那时候的图像生成效果与现在相比简直是天壤之别。当时,我们或许是世界上率先推出图像生成器的公司之一,用户在输入一段文字提示后,得到的图像往往是模糊不清、缺乏连贯性的。尽管如此,我依然对这项技术满怀热忱,甚至可以说,我长期以来一直对图像生成器抱有浓厚的兴趣与痴迷。
而到了今天,当我们再次输入相同的文字提示时,所生成的图像质量已经有了质的飞跃,几乎能够达到摄影作品般的清晰度与真实性。不仅如此,我们还能够借助人工智能生成许多现实中并不存在的奇幻图像。就像我所展示的这个例子,输入特定的提示后,人工智能能够根据训练数据中关于城堡、卡通人物以及茶杯等元素的理解,创造出从未有人要求过的“城堡泡茶”的独特图像。
这一过程充分体现了人工智能的泛化能力,它能够深入理解训练数据背后的真实含义,并以创新的方式将这些元素组合起来,从而生成全新的、富有创意的图像。从技术层面来看,这无疑是人工智能强大实力的有力证明,也可以说是人工智能领域一直追求的目标之一,宛如探索过程中的“圣杯”。
从最初的静态图像开始,我们利用图像转视频模型,成功地让图像动了起来。虽然这个视频看起来可能有些许不连贯、略显怪异,但它却生动地展示了在 2024 年,人工智能在图像与视频处理领域所取得的巨大突破与可能性,即使到了现在,我每次看到这样的成果,依然会感到无比兴奋。这一切都是我们借助公司自主研发的视频生成器产品实现的。
然而,回顾人工智能的发展历程,它并非一直如此风光无限。曾经,人工智能领域经历了一段漫长而艰难的“寒冬期”,在那长达数十年的时间里,整个行业几乎陷入了停滞状态,几乎没有取得任何实质性的进展,这无疑是一段令人倍感沮丧的历史时期。
在那个时候,神经网络以及深度学习技术并未得到广泛认可,甚至还饱受诟病,被人们视为一种不太可靠、难以实现预期效果的技术。当时,从事深度学习研究的人员常常被外界调侃为一群只会盲目叠加层数、不切实际的“小丑”,这也从侧面反映出当时整个行业所面临的困境与外界对其的不信任。
记忆中,上一次出现具有重大影响力的通用问答机器还要追溯到 2009 年推出的 Wolfram Alpha。据我所知,这款产品主要采用的是基于规则的传统方法,并未涉及机器学习技术,它的运行机制依赖于预先设定的规则与算法,无法像现代人工智能那样自主地从数据中学习与进化。因此,尽管经过了多年的发展,它在功能与性能上并未取得显著的提升与突破,这也凸显出传统规则驱动方法相较于现代数据驱动的人工智能方法所存在的局限性。
大约在 2020 年左右,我明显感觉到行业的风向开始发生转变,深度学习技术逐渐得到了大多数人的认可与接受,人们不再像过去那样对其持怀疑与嘲讽的态度。这一转变在很大程度上可能与 GPT - 3 的发布密切相关,它的出现让人们真正意识到深度学习技术所蕴含的巨大潜力与应用前景。
那么,究竟是什么因素推动了人工智能在近年来的迅猛发展呢?其实,其中最为关键的因素并非某一项重大的数学突破,而是计算成本的大幅降低。
随着时间的推移,计算成本下降了多个数量级,这使得我们能够在人工智能研究与开发过程中投入更多的计算资源,从而推动模型的训练与优化。
以英伟达(Nvidia)为例,它之所以在人工智能领域取得巨大成功,并非仅仅因为其制造出了性能最为强大的计算机芯片,更为重要的是,它能够以相对较低的成本提供高效的矩阵乘法运算能力,这使得它在计算资源市场中占据了重要地位,成为众多人工智能研究与开发人员的首选供应商。
如今,计算资源已经如同石油等大宗商品一样,可以在专门的市场和交易所中进行买卖交易,人们能够像交易期货合约一样灵活地购买和出售计算资源,这为人工智能的发展提供了更加便捷、高效的资源配置方式。
然而,在过去的两年里,人工智能领域又出现了一些新的变化与趋势。随着人工智能技术的日益强大与普及,它也引发了广泛的社会关注与讨论,其中不乏一些关于人工智能潜在危险性的担忧与争议。如今,人工智能已经成为一个极具敏感性的话题,许多人在谈论人工智能时,往往会强调其可能带来的各种风险与挑战,呼吁对其进行严格的监管与限制。
但与此同时,各个国家和企业又都在竞相投入大量资源,力争在人工智能领域占据领先地位,这种矛盾的心态在行业内普遍存在。在这种背景下,人工智能领域的研究与开发也变得更加保密,许多公司和研究机构都对其核心技术与研究成果采取了严格的保密措施。
但实际上,我想告诉大家的是,人工智能背后的核心数学原理与技术框架并非神秘莫测,许多关键技术已经广为人知。在当前的人工智能发展中,真正的“秘密武器”在于能够将海量的计算资源(这往往需要耗费巨额资金)与庞大的数据集进行有效整合,从而训练出功能强大的人工智能模型。这就像是一场资源与数据的“炼金术”,通过巧妙地调配与运用,最终实现人工智能模型性能的飞跃。
在大规模模型训练过程中,每一次训练运行都可以看作是一次充满挑战与不确定性的实验。为了降低这种风险,研究人员在加利福尼亚州的旧金山等地开展了一系列深入研究,并逐渐总结出了一些所谓的“缩放定律”。这些定律试图通过对计算资源、数据量等因素与模型性能之间关系的分析,来预测模型在不同训练条件下的表现。
然而,需要指出的是,这些“缩放定律”目前还不能被视为严谨的科学理论,它们更多地是基于大量实验数据拟合出来的经验性规律。尽管如此,它们仍然为我们在模型训练过程中的资源配置与优化提供了有价值的参考依据。
另外,在过去五年中,还有一些非常有趣且实用的技术创新值得一提,比如超参数迁移技术和张量程序技术。超参数迁移技术允许研究人员先在小规模模型上进行各种实验与参数调整,然后将这些经过验证的配置直接应用于大规模模型的训练中,从而大大提高了训练效率与成功率。
张量程序技术则为模型的高效计算与优化提供了新的思路与方法。以 Gemini 和 GPT - 4 等大型模型的训练为例,虽然相关研究团队在技术细节上往往保持高度保密,但他们也在一定程度上暗示了超参数迁移技术在其模型训练过程中发挥了重要作用。
随着技术的不断发展与普及,如今的人工智能模型正逐渐走向商品化。越来越多的开源模型涌现出来,这些模型在质量与功能上都表现出色,为广大开发者和用户提供了更多的选择。这也意味着,对于那些希望在产品中应用人工智能技术的用户来说,他们需要像在传统商品市场中一样,进行仔细的比较与筛选。因为不同的模型虽然在功能上可能相似,但在成本、性能、适用场景等方面往往存在较大差异,只有通过深入了解与比较,才能选择出最适合自己需求的模型,从而实现产品的优化与创新。
最近,人工智能领域出现了一个备受关注的问题:大型语言模型的发展是否已经开始进入停滞期或者平台期?从实际情况来看,虽然它们并没有完全停止前进的脚步,但不可否认的是,其发展速度确实有所放缓。当我们向从事人工智能研究的专业人士询问原因时,他们普遍认为,最主要的瓶颈在于数据资源的匮乏。随着互联网数据的不断挖掘与利用,我们已经逐渐接近了现有数据资源的极限,难以获取足够的新数据来支持模型的进一步优化与拓展。
在这种情况下,一些人可能会想到通过研发全新的模型架构来突破当前的困境,例如尝试取代目前广泛应用的 Transformer 架构。然而,在我看来,这种方法的可行性并不高。因为从本质上讲,机器学习的核心在于通过数据来拟合模型,只要数据量足够丰富、计算资源充足,不同的架构在性能上的差异并不会太大。
事实上,目前的研究也表明,只要给予足够的训练数据与计算资源,许多新型架构与 Transformer 架构在最终的表现上并没有显著的区别。因此,单纯地寄希望于新架构的出现来实现重大突破可能并不现实。
那么,既然数据资源已经成为制约发展的关键因素,我们该如何应对呢?一种可能的思路是,重新审视我们对人工智能模型的期望与定位。在过去,我们往往致力于将尽可能多的人类知识压缩到一个庞大的模型中,使其成为一个无所不知的“知识宝库”。然而,对于许多人工智能从业者来说,真正的“圣杯”级目标是让模型具备强大的推理能力,能够灵活地应用所学知识解决各种新问题。令人惊喜的是,在现有的模型训练过程中,我们已经发现模型在一定程度上具备了推理能力,尽管这并非其最初设计的核心目标。
为了进一步提升模型的推理能力,近年来人们开始尝试专门针对推理任务进行模型训练,例如今年出现的 o1 模型就是这方面的一个典型代表。与传统的模型训练不同,这些推理模型并不需要大量额外的网络文本数据,而是通过对模型进行精细的微调,使其专注于推理步骤的优化与学习。
具体来说,我们可以通过生成专门用于推理训练的数据集,或者在推理过程中多次运行模型等方式,来增加模型在测试阶段(推理阶段)的计算量与数据处理能力。这种方法被称为新缩放定律,它揭示了推理模型的准确率与测试阶段计算量之间存在着紧密的联系。通过增加推理时长(即模型在推理过程中花费的时间)或者并行运行模型的次数等方式,我们能够显著提高推理模型的准确率与性能。这一发现无疑为人工智能领域的发展开辟了新的方向,让我们看到了实现更强大推理能力的希望与可能。
展望未来,尽管目前人工智能与人类大脑相比,在效率等方面仍然存在着巨大的差距,但我坚信,随着技术的不断进步与创新,这种差距将会逐渐缩小。在模型训练方面,只要我们能够持续挖掘新的数据资源,不断优化计算资源的利用效率,更大规模、更强大的模型必将不断涌现。
同时,随着科技的发展,计算成本预计还将继续大幅下降,每瓦特的计算性能也将得到显著提升,这将为人工智能的发展提供更加广阔的空间与无限的可能。在这个充满机遇与挑战的时代,我认为我们应该充分发挥想象力,勇于探索人工智能领域的未知边界,去创造更多令人惊叹的成果与应用。