白虎 做爱 对话英伟达家具司理:AI推理比拟6年前已提速3000倍,效力进步将是本年LLM的主题
发布日期:2024-09-16 17:48    点击次数:126

白虎 做爱 对话英伟达家具司理:AI推理比拟6年前已提速3000倍,效力进步将是本年LLM的主题

白虎 做爱

作家| Latent Space

开端|  Z Potentials,管理洞悉

盘考结合| 13699120588

图片开端:Latent Space

期间与基础硬件高出相结合:Nvidia、Convai高档家具司理Nyla Worker认为纠正量化期间的同期,专注于推理,优化现存硬件和异日推理硬件,达成量化与精度双赢。

突破数据瓶颈:合成数据用于模子磨砺是一门艺术,是一项独有的手段。如何有用地生成数据,如安在3D寰宇中对生成的对象进行域立地化,以有用地磨砺集会,自己便是一门艺术。高效磨砺大规模模子和量化模子,从而减少所需的诡计资源。

AI在游戏中的应用:诡计效力进步对于AI在游戏及影视中的应用至关挫折,延长是咱们今天最需要优化的要道因素,以使游戏体验更为天然。另外,Convai勤劳于匡助NPC 需要采取合适的行动,模拟不同扮装,构建扮装的心智。

本期嘉宾Nyla Worker是Nvidia、Convai的高档家具司理,况兼最近加入了Google,同期她照旧寰宇展览会上"GPU与推理"赛说念的主理东说念主。她第一个向咱们指出,对于2024年的LLM而言,效力进步将成为主导主题。从她在eBay优化V100推理以用于ResNet-50模子进行图像搜索启动,她见证了诸如多效力进步实例,如GPU推理达成完满硬件并行性、量化感知磨砺(最近由Noam Shazeer在Character AI辞职前强调)以及模子蒸馏(最近由Llama 3.1论文超越强调)等开阔纠正。这些期间与基础硬件的高出(从V100到A100再到H100以及GH200)相结合,表面上使得当今的推理速率比六年前快了3000倍。

Nyla已往六年的业绩资格,在大语言模子中阐述了作用,荒芜是在LoRAs、原生Int8乃至三值模子以及老师模子蒸馏方面的应用。咱们在这期节目中不仅深入探讨了所磋议于效力的主题,还磋议了生成式AI如何应用于游戏、粉丝克己电视剧、扮装AI对话乃至播客等领域!

AI Charlie:九月忻悦。我是您的AI共同主理东说念主,查理。咱们在Latent Space探讨的一个主题是效力在各个层面的挫折性,从利用有限的诡计资源和数据进行样本效力优化,到为特出意日益增长的需求场景——比如土产货大语言模子、及时AI非玩家扮装(NPC)以及角落AI——而不休发展的推理效力优化。

关联词,咱们尚未深入探讨过这些效力趋势过甚随时辰的变化。举例,从2020年到2023年,GPT-3级别的智能处理老本从每百万token60好意思元降至27好意思分,这主要收成于2023年12月的价钱战。请参阅节目注目中的图表和数据。至于GPT-4级别的智能处理,仅用了一年多的时辰,LLAMA370B就达到了与GPT-4格外的水平,而LLAMA3405B则在开源领域超越了GPT-4 Turbo,导致每百万token的混杂老本从Claude III Opus和原始GPT-4的超过30好意思元暴跌至不到3好意思元的LLAMA3405B。

天然,Open AI自身也未停滞不前,其推出的GPT-4.0 Mini使GPT-4.0的老本镌汰了30倍。没错,GPT-4.0 Mini的价钱仅为GPT-4.0的3.5%,但在LM SYS上的阐扬却与GPT-4 Turbo持平。当智能处理的价钱每年着落超过90%时,鼓舞这一变化的因素是什么?AI工程师应该如何粗鲁这种变化?

事实上,在诡计机视觉领域,已往六年中仍是见证了近3000倍的速率纠正。咱们邀请了NVIDIA和Convay的Nyla Worker来匡助咱们回想已往,分析近况,并瞻望高效的AI推理异日应用案例。请珍爱,这段对话是在Nyla加入谷歌AI团队之前录制的,因此你不错期待她在Gemini团队中带来更多的高效责任扫尾。

Alessio:全球好,宽容收听Latent Space播客。我是Decibel Partners的搭伙东说念主兼CTO,Alessio,今天和我一说念主理的是Smol.ai的首创东说念主Swyx。

嗨,今天咱们良友责任室里迎来了Nyla Worko。宽容,Nyla,很痛快见到你。

Nyla Worker: 我也很痛快见到你们。

Nyla 的业绩之路:从天体物理学到 LLM

swyx:咱们平时把柄嘉宾的业绩概况来进行先容,然后让嘉宾我方来补充细节。您在卡尔顿学院进行了天体物理研究,之后你进入了机器学习领域。您在eBay渡过一段时光,但您最近四年在NVIDIA责任,从合成数据到云霄容器管理决策都有涉猎。当今您是Convai的家具管理总监。有什么是您但愿东说念主们了解的,但可能在LinkedIn上并不是那么不言而谕的信息吗?

Nyla Worker: 我认为不是很昭彰的一丝是从天体物理研究过渡到东说念主工智能的过程,以及这个过程是如何发生的。在天体物理学领域,我在大学一年事时的责任是分类某个天体是超新星古迹照旧系生人星。固然听起来很酷,很不可念念议,但骨子上这项责任便是检察氧气和硫的图像,并手动采纳每个区域。爽朗说,这是极其败兴的。于是,我发现了一篇1996年的论文,名为"源索求器",或者它出于某种原因称之为"Sextractor"。这是一个基于合成数据磨砺的多层感知集会,以分类识别出一个对象是恒星照旧星系。

这让我看到了一个坚强的优化机器,当输入正确的数据时,它不错实施并自动化像这样手动分类的任务。这让我想要了解更多,如何磨砺这些模子?又如何有用地部署它们?要是它对分类星系有用,那么还有哪些其他应用场景呢?咱们不错展示大都数据,磨砺这些函数去预测下一个词或是判断这是猫照旧狗等近似任务。因此我转向了诡计机视觉研究,荒芜是深度神经集会的磨砺膨胀。

那时我使用的是CPU,天然作念法是不正确的。其后我去了eBay,在那里我转而使用GPU,同期也从事Jetson和角狂妄荒的责任。这是一个好奇的过程,展示了这一切是如何连贯地结合在一说念的。

高效推理,优化延长

swyx:今天的好多播客内容骨子上都在议论效力以及随时辰变化的效力弧线。我之是以邀请您参加此次访谈,是因为我正在寻找能够磋议这个话题的东说念主。您从诡计机视觉领域的效力弧线脱手,带来了深刻的见解。我想知说念您是否不错评述一下,为您的业绩活命中仍是见证的事件设定一个布景。

Nyla Worker: 当我刚启动责任时,最先勤劳于扩大磨砺规模并提高磨砺效力。跟着时辰的推移,这一领域仍是有了显贵的发展,对于磨砺有好多内容。但我发现,要是想让这些期间的确有用,你应该专注于推理。随后我加入了eBay,在那里我在硬件团队责任,但我的责任是为硬件团队进行软件优化,以便AI研究团队的研究扫尾能够在硬件上高效运行。

我启动利用诸如TensorRT这样的优化框架来优化模子(如ResNet 50)。eBay的AI研究团队达成图像搜索的方式是一种诡计机视觉模子,咱们会从这个ResNet 50模子的特定层获取镶嵌(embedding),然后与其他图像进行某种距离诡计。这种措施在那时是曲常先进的,而我的任务是让它更高效。骨子上,它进入坐褥环境的方式是单张图片输入ResNet 50,即批次大小为一,有一定的延长。然则家具有要求,对吧?这便是推理变得相配好奇的地方,因为它不单是是要作念到最快,更是要达到东说念主类可感知的延长。

在过程中,咱们坚定到对于特定的推理任务,延长应该是七毫秒。天然,悉数这个词干事可能会在50到100毫秒内完成,这对东说念主类来说险些是不可察觉的。是以,我的主见是使硬件得回最大的效益。

咱们评估不同的硬件,但我荒芜关注的一款是V100,况兼咱们使用TensorRT进行了优化。TensorRT在后端作念了好多责任。举例,它会通了内核,量化了模子,并减少了精度。天然,当今全球都议论量化,但在那时,这还意味着从FP32到FP16的改造。那时候Intel的期间还相配稚嫩。即便如斯,咱们将坐褥环境中的干事从处理一张图片优化到了七毫秒内处理四张图片,况兼效果相配好。从那以后,咱们看到相似的模子有了显贵的高出,那时咱们使用的是2018年的TensorRT和ResNet 50。

四张图片在七毫秒内处理。要是阴险诡计一下,这意味着大致571的朦拢量。而要是你望望已往几年所取得的效力进步,并研讨到这运行在一个未经荒芜优化的V100上,你不错查阅昨年MLPerf的数据,当今这个数字仍是达到了88,000。每秒处理的图片或样本数88000。他们使用样本作为单元。昭彰,这不一定是一个完全公说念的比较,因为你需要仔细阅读具体细节,了解他们是如何运行测试的。他们并不是针对延出息行优化的。他们是优先研讨其他因素,但即便如斯,这个数字仍然是令东说念主胆怯的,不是吗?在我在NVIDIA期间,我还学到了其他一些东西。我不错更深入地探讨这个问题。

推理侧硬件算力优化

Alessio:是的,没错,这很棒。我认为硬件部分尤其挫折。比如说,当你在eBay的时候,你提到了V100是那时的顶级硬件。V100大致有130万亿次浮点运算才能(teraFLOPs),而在FP4精度下的GB200则达到了约20,000万亿次浮点运算才能。是以仅从硬件自己来看,如今的硬件要坚强得多。我很想听听您那时在为现存硬件优化时的想法,以及您在NVIDIA责任期间对异日硬件的洞悉,因为当今东说念主们或然还在进行近似的磋议:咱们是应该为现存的硬件优化,照旧为异日的硬件优化?咱们今天需要一个扫尾,但从生意角度来看,这样作念可能会挥霍时辰。我很想听听您的看法。

Nyla Worker: 看到这两个寰宇相互碰撞是很好奇的,因为我加入eBay时,我在硬件团队,而平台团队和AI研究团队是分开的。硬件团队决定了公司举座的硬件树立,而AI研究团队则依赖于这些硬件。是以看到这两个寰宇之间的理会差距,并亲历其中,是很好奇的。那么,你如何决定使用哪种硬件?在那处进行优化?为异日的硬件构建系统是一个好奇的问题。

正如你所见,我在2018年运行这个名目时,使用的是V100来处理ResNet 50,这在今天看来有些过分了,因为当今除非是一个巨大的批量责任负载,不会使用V100来运行ResNet 50。但你不会在GB100或200上跑这个模子,你会在Jetson拓荒上运行它,这是一个只需一百好意思元就能买到的现成拓荒。

昭彰,硬件发生了变化,这更多取决于具体的使用场景以及你异日的发展地方。我信托,从统计学角度讲,很难准确预测两年以上的事情。芯片将在三年后上市,三年后的寰宇会是什么神志?我不敢笃定。回到优化层这一丝上来。要是你看NVIDIA的幻灯片,他们会比较并吞种芯片在不同庚份的阐扬。他们夸耀即使在并吞块芯片上,性能优化每年都变得更好。

为什么会这样?让咱们谈谈诡计机视觉,跟着时辰推移使其性能大幅进步的原因很昭彰,举例,我在eBay时将批处理大小增多到四个,它仍然得意了延长管理,但只是是增多批处理大小,就有动态批处理的成见,这对于大语言模子而言近似于连气儿批处理或飞行中的批处理。

这些年,咱们的量化和量化期间也在不休纠正。比如在2018年,我使用的是FP16,而INT8刚刚出现。对于不同类型量化的磋议仍是启动,但期间的发展需要时辰。举例,当我在NVIDIA责任时,咱们专注于角狂妄荒,并荒芜为角狂妄荒开发了框架。咱们不仅达成了INT8量化,而且还进行了量化感知磨砺,这使得模子不错在这些量化管理下运行。咱们也看到了这一丝,尤其是在磨砺过程中,LLMs阐扬出更好的管感性。但这是咱们最先在诡计机视觉中不雅察到的景象。其他的优化还包括FP16,以及许多迭代版块,如bfloat16,从TPU启动,基本上悉数硬件都对其精度进行了各式优化,从而进步了性能。你基本上不错从一种硬件切换到另一种硬件,而这些优化会被相应的框架所摄取。

对于诡计机视觉,咱们看到的其他落寞于硬件自己的优化还包括剪枝。也便是说,在模子磨砺完成后,你不错剪掉那些接近于零的激活值。然后你需要再进行一轮新的磨砺和部署。在我为NVIDIA与客户结合时,这种措施使咱们的效力大幅进步。不外这种措施现时对于大规模语言模子来说并不高效,但谁知说念在异日两三年内会发生什么呢?也许有东说念主会提议新的措施。我不错在节目条记中附上一篇试图更高效地为大语言模子进行剪枝的论文连络。正如你所见,有一些优化是顺利抓取硬件的特色,但还有好多优化是发生在集会自己上,以跟着时辰推移不休优化并提高效力。

Alessio:您是否有不同的措施来粗鲁不同的需求,比如镌汰延长,或者提高朦拢量?这些期间中是否更适合特定的目的,或者非论如何一切都变得更好?

Nyla Worker: 如实如斯。举例,在诡计机视觉中增多批处理大小会立即进步朦拢量,但这受到内存适度。关联词,作为家具司理,延长是一个你神气的管理条款。比如,不成超过七毫秒,不然用户体验就会变差。在优化过程中,不时会际遇这种情况。

因此,这是一个相配复杂的优化函数。举例,即使是在量化过程中,当咱们部署用于识别车招牌的ResNet 18模子时,也需要作念出相配明确的量度,即为了得回效力进步,咱们能在多猛进度上就义准确性或其他评估目的,如调回率等。在某些情况下,举例在工场的坐褥线上,许多物品需要通过,这时你更神气的是延长问题;而在其他场景下,则可能有所不同。因此,这些优化相配依赖于最终的应用场景。

量化与精度之间的弃取

swyx:我相配可爱你将你在诡计机视觉领域所见到的情况类比到大语言模子上的这种说法。我对量化精度及调回率之间的量度很感意思,非论是精准调回照旧其他。在我的嗅觉中,诡计机视觉领域的精度着落要比语言模子更为平安。这是准确的吗?

Nyla Worker: 你是什么真理?

swyx:当进行量化时,昭彰会升天精度,因为领有的比特位减少了,用来存储信息的空间也就少了。我的领会是,在诡计机视觉中进行量化时,你能够更准确地保留特征的主要因素,而这恰是你的确神气的部分。而在语言模子中,单词的真理之间存在好多复杂的相互作用,Anthropic称其为叠加态。当你进行量化时,你可能会丢失那些在语言中相配挫折但在视觉中相对没那么挫折的低位信息。我不知说念你对此有什么看法。

Nyla Worker: 我需要和群众们磋议这个问题,但我的直观是,模子越小,权重就越挫折。我的真理是,要是模子相配小,那么它的参数数目也会很少。因此,这些参数所传递的信息需要愈加精准。我的直观是,举例在ResNet 18上,当咱们进行量化而不进行后续的量化感知磨砺时,模子的正确率会急剧着落。这是咱们必须要极其小心处理的问题,这亦然为什么会有那么多为此遐想的期间。但这是我个东说念主基于资格造成的直观。

对于大语言模子而言,由于它们规模广大,渺小的变化可能对它们的影响不如对相配小的诡计机视觉模子那么显贵。天然,在处理大型诡计机视觉模子,如Segment Anything等时就不适用了。但要是你有一个相配小的单一任务模子,如ResNet 18,要是你略微丢失了一些权重,莫得正确地进行量化,那么你的扫尾将会迅速变得一团糟。

swyx:我快活这种直观。当今东说念主们磋议的一个话题是极点量化。有一篇对于三值模子(1.58 位模子)的论文。我不知说念这种期间有多大的可行性,但东说念主们正在以开源的方式复制它。好多东说念主在磋议这个话题。我不知说念该如何评价它,因为我合计大型实验室还莫得的确领受这种期间。

Nyla Worker: 是的,我对阿谁期间也不笃定,但我认为在某种进度上,对于如斯大的模子,你险些只需要一个地方性的数字,举例"是"或"否"。然后它就像是一个采纳地方的门一样。因为模子领有如斯多的参数,对于这些门来说,"是"或"否"的采纳比咱们得到的具体精准数值更挫折。

我可爱用物理学的角度来念念考这个问题。咱们为模子找到了相配精准的权重,就像常数一样,对吧?这些常数仍是被讲明注解在很厚情况下都是有用的,况兼是为特定方程尽心遴选的。而在超大型模子中,更像是地方性比具体的数值更为挫折,这是我的个东说念主直观,但也有许多长年专门研究量化期间的群众能更好地回答这个问题。

突破数据墙:Nvidia 对合成数据的需求

Alessio:这是从模子推理的角度来说的。你在NVIDIA还作念了许多其他出色的责任,荒芜是在合成数据方面,比如构建图像,还有三维数据等方面。您能简略总结一下你在NVIDIA五年的主要责任吗?因为我波及了好多方面,可能不单是推理优化和其中的一些责任。

Nyla Worker: 事实上,我在eBay责任时就构兵到了NVIDIA,况兼其后我加入了他们的管理决策架构师名目,在那里我不错构兵到NVIDIA的悉数东说念主工智能客户,并为他们提供复古。在那段时辰里,我参与了一个轮岗计划,为零卖客户、角落AI客户和试图以某种方式利用AI的其他客户提供复古 。

举例,对于零卖业,应用场景包括像Amazon Go这样的无东说念主商店或零卖防盗保护。对于角落AI,应用场景包括机器东说念主、制造业以及自动驾驶汽车上的诡计机视觉集会等。这是我的前两年责任,罕有百家客户试图利用诡计机视觉。也有一些大语言模子的应用,但那时期间还不练习,它们主要用于推选系统或搜索。在诡计机视觉方面,咱们发现了一个问题。然后我决定加入角落AI团队,在那里我与西门子等大公司结合,了解他们在坐褥线上的部署情况。

关联词,险些悉数客户的靠近共同问题:数据。他们不错使用现成的模子,商场上有大都的图像数据集,但这些数据集并不成得意他们特定的小众应用需求。举例,在汽车制造线上查抄划痕是一个耗时吃力的责任,而这样的数据集并不存在。在零卖业,货架上的商品数据不及,而且包装不时更换。因此,数据相配要道。我启动入部属手生成能够立即自动复古这些需求的合成数据。举例,我与亚马逊结合了一个名目,咱们在3D寰宇中合成替换胶带,这对于亚马逊来说是一个大问题,因为他们需要快速从头磨砺诡计机视觉集会来识别带有新亚马逊胶带的包裹。

这只是一个泉源,其后膨胀到了机器东说念主领域。我与Festo结合了一个3D操作器名目,该操作器需要检测物体的姿势。若何才能得到姿势数据?传统的措施是给物怜惜上标签,比如二维码,以便获取一些真实数据进行标注。但这是不可能的,这便是合成数据的确挫折的地方,因为你无法在每个位置都获取物体的姿势数据,而且这样作念会干扰物体自己,在推行寰宇中,物体上不会有二维码标签。这便是我看到悉数需要合成数据的地方。

我与像Jonatan Tremblay这样的凸起研究东说念主员结合,进行了大都的3D和合成数据生成研究。咱们际遇了数据瓶颈,无法仅凭现存数据无间前进。当今该若何办?我认为咱们将在大语言模子上看到近似的情况,咱们将际遇数据瓶颈。然后该若何办?昭彰,也有为大语言模子生成合成数据的期间,让咱们静瞻念其变其发展。在将合成数据家具化的过程中,我坚定到使用合成数据进行磨砺是一门艺术,是一项独有的手段。举例,如何有用地生成数据,如安在3D寰宇中对生成的对象进行域立地化,以有用地磨砺集会,这自己便是一门艺术。但总的来说,这便是将悉数事情磋议在一说念的要道。

Alessio:是的,这很好。我认为在研讨大语言模子时,咱们之前在Chinchilla和一些膨胀定律上所作念的优化念念考是为了找到一个适合的均衡点,而不是针对任何特定方面进行优化。而当今,咱们只是专注于优化推理。咱们在算法层面,以致在GPU层面,通过一些新的数学措施和像Cutlass这样的矩阵乘法器具来作念这项责任。但在数据方面,咱们还莫得到达需要大都生成合成数据的地步,这似乎与机器东说念主期间和3D环境中的需求造成了对比。

在3D环境中,合成数据并未几。因此,现时大部单干作仍然统一在获取更多的数据上。咱们还莫得的确看到太多近似Sora这样的令东说念主印象深刻的应用,固然它与3D有些干系,但骨子上输出是二维的,但它有我方的3D引擎,不错运行任何想法。

在游戏引擎中坐褥合成数据

Alessio:您不错谈谈你在3D合成数据方面所见,并念念考咱们在大语言模子方面还有多远的路要走,比如咱们何时将需要的确扩大合成数据的规模,以使这些模子能够突破下一个性能遏制。另外,对于Sora,您有什么看法?我知说念这个模子相配奥密,莫得若干东说念主有契机骨子操作过它。

Nyla Worker:我对于Sora莫得什么看法,我认为它让许多从事这方面研究的研究东说念主员感到困惑,以致激发了他们是否应无间研究的危急。然则对于Sora我莫得太多不错评述的,正如你所说,它相配奥密,对于他们是否使用了Sora也只是是传言。

对于来自游戏引擎的合成数据,这类期间是存在的,但我不笃定具体细节。我能说的是,我的合成数据家具是基于游戏引擎生成时辰连贯的数据,举例,这适用于姿势臆度,同期这种臆度是基于物理信息的,因为游戏引擎提供了物理属性。这样生成的数据不错用于磨砺。举例,对于物体生成,游戏引擎会赋予它们一些逻辑,比如它们具有一定的分量,你不错对这些属性进行参数化。因此,这会为那些咱们难以获取信息的场景生成相配好的合成数据,并提供高质地的真实标签,与视频比拟,即使是由东说念主工标注的视频,也可能在时辰连贯性上出错。

那么这一切与大语言模子有何干联呢?我在NVIDIA责任的终末几个月里,我勤劳于匡助纠正和加快3D内容创作历程。在这方面有好多模子正在增强3D内容创作的历程。举例,咱们不错从基础启动,比如文本到纹理。比如你不错更好地在3D寰宇中对钞票进行纹理化处理。文本到材质,通过轻便的文本请示即可得回材质。接着是图像到3D,Sanyas Fiedler团队和Ming Yu团队创建了很好的模子。此外还有Dreamfusion等专注于3D内容生成的研究。

即便如斯,由于这些钞票可能存在几何子虚,你仍需对生成的钞票进行从头拓扑化。因此还有一些正在进行的研究,旨在将其改造为正确的拓扑结构。我看到了悉数这些期间的会通。就像我之前提到的,咱们当今有点像是处于3D生成的GAN时期。你看到了远景,但生成的扫尾可能仍很可怕,比如生成的"瘦长鬼影"对象。我有一个名目便是使用此生成钞票,扫尾便是一个瘦长鬼影。骨子上,我将Andrej Karpaty的形象通过一个3D生成机器生成,扫尾变成了一个瘦长鬼影形象,但咱们在高出。

我认为期间将以相配好奇的方式会通。咱们仍是有了视频生成,但视频生成并不具备3D空间的纯真性。一朝咱们能够生成较少残障的3D内容,就会带来全新的体验。我意想异日将有各式3D寰宇的扮装和无限的体验,创造全新的文娱档次。这亦然我加入Convai的原因之一。在那里,有这些具身化的3D对话扮装,它们进行任务计划,周围的环境亦然完全生成的。

咱们仍是有了一些身手化生成,想象一下,要是你不错开脱抒发你的想法,场景中的悉数元素都将随之生成,或者把柄你的意思生成你可爱的寰宇,为你创造某种体验。我信托这便是咱们异日发展的地方。这亦然我一直在努力的地方,期间正在会通况兼迅速发展。

模子蒸馏

Alessio:另外,我认为咱们还不错磋议一些对于推理的话题,除了咱们仍是提到的除外,另一个方面是如何膨胀模子以达成更好的性能,这其中就包括了合成数据的应用。您合计咱们还有什么遗漏的地方吗?我想知说念,在这方面,还有哪些是您荒芜想磋议的内容。

Nyla Worker: 咱们可能遗漏的一丝是如何有用地磨砺大语言模子。咱们基本上把悉数这个词互联网悉数能获取到的标记数据都塞进了模子中。昭彰,OpenAI作念了大都的责任来剔除有毒的数据等,但这仍然是格外阴恶的方式,就数据量而言,咱们认为数据越多越好。关联词,当你试图将模子应用于某个具体场景时,你会发现其实并不需要一个能作念数学、物理和诡计机科学诡计的模子来告诉你一辆车的脸色。咱们在诡计机视觉中看到了这一丝,比如模子蒸馏。

咱们最先从ResNet 150启动,然后尝试了其他模子,但在一段时辰内,我发现一个好奇的景象:ResNet 50老是从头出现。东说念主们会转向VisionNet、视觉变换器(Vision Transformers),但很快又发现,视觉变换器并疏漏易磨砺,需要大都的数据,是以他们会回到ResNet 50,或者尝试其他模子,扫尾发现ResNet 50仍然有用。非论如何,这适用于相配受限的应用场景。或然这也意味着在骨子应用中,咱们会不休总结到那些经过考证有用的模子上。

Alessio:这很专门念念真理,咱们可能还在寻找不是Transformer的其他东西,也许教化是:咱们不应该偏离太远。

Nyla Worker: 是的,固然我莫得像三年前那样深入编码,但从阅读论文和与Google DeepMind的研究东说念主员交流中,我发现他们采纳某些函数是因为这些函数在诡计上更高效,比如多头重见解机制,它在并行磨砺方面的阐扬优于LSTM。这种诡计效力和咱们能够塞入更多数据的才能是曲常挫折的。天然,也有一些紧要突破,但我认为这是旅程中一个超越的方面。

Alessio:你认为当今东说念主们在磨砺阶段有哪些曲解?咱们谈到了推理优化和数据方面的问题。在磨砺方面,你还有什么想说的吗?

Nyla Worker: 正如我提到的,现时的磨砺过程是曲常低效的。当咱们发现的确有价值的用例时,咱们将能够通过磨砺过程找出的确有价值的数据。我认为,一方面,咱们不错督察相似的大规模模子,但磨砺得更高效,并更高效地量化模子,从而减少所需的诡计资源。另一方面,既然咱们知说念这种措施有用,咱们不错进行模子蒸馏。

不外,模子蒸馏的有用性仍然有待商榷,比如咱们能否让一个近似于Mistral 8位的模子在受限条款下阐扬出与ChatGPT或GPT-4近似的性能。我认为对于某些特定的用例,咱们最终会达成这一丝。举例,Databricks助手结合了不同类型模子的上风,以协助完成特定任务,既研讨到老本也研讨到骨子需求。

要是你在实施agent操作,你肯定不但愿因为诡计资源过于消耗而导致你的SaaS业务的利润率受损。这些都是幕后发生的事情。像Copilot这样的器具受到了东说念主们的喜爱,尽管它比GPT-4要小得多。

swyx:我认为他们仍是对OpenAI最先的Codex模子进行了多轮蒸馏以用于Copilot,这如实是专门念念真理的。我一直在尝试梳理蒸馏的玄学,并试图分裂不同的蒸馏主见。一种是东说念主们平时所指的常识蒸馏。但对于大语言模子来说,它也启动包含偏好蒸馏。也便是说,你不错使用大语言模子作为裁判,基本上是从一个模子中窃取强化学习东说念主类反馈(RLHF)的才能并改造到另一个模子上,这样你就有了相通的RLHF偏好数据,而无需支付老本。

然后还有推理蒸馏。我认为有一些模子,比如orca模子,你不错将念念维链输入模子中。此外,还有好多基准测试的游戏化。无人不晓,你不错将基准测试的常识蒸馏进模子,从而使其在基准测试中的阐扬更好。但现时不太为东说念主领会的是,那些不可被游戏化的排名榜,比如LMSys排名榜,相似有可能被游戏化,你不错蒸馏出较小的模子,使其在这些排名榜上阐扬细致。

Nyla Worker: 在诡计机视觉领域,咱们不时看到有东说念主在基准测试上作念四肢。我不信托那些数字接近的基准测试扫尾。这种情况当今仍是变得毫无真理了,因为它仍是被完全游戏化了你只需进入最多的诡计资源,然后采纳一个稳妥基准测试要求的查抄点,然后提交扫尾。我际遇过磨砺大规模模子的东说念主告诉我,他们无法重现这些扫尾,这些扫尾完全不可叠加,但他们有一个查抄点,那次它顺利了,于是他们就提交了论文。

swyx:这就叫是研究生的无奈。

Nyla Worker: 是的,你都备不成信任这种情况。这亦然为什么我会花好多时辰和客户一说念证明,这是否是一个有用的测试集?这真的是你的测试环境吗?这如实是你需要考证的内容吗?达到这样一个不错考证的景色是曲常具有挑战性的。

swyx:为了让全球与时俱进,你了解FineWeb吗?这是一个来自Hugging Face的数据集,近似于计帐过的C4数据集,但他们使用大语言模子不是用来蒸馏,而是用来过滤数据。利用大语言模子来提高数据质地似乎是未被充分探索的领域。从FineWeb名目的初步扫尾来看,你不错用少十倍的标记数据来磨砺出相通质地的模子。也便是说,使用100亿数据与使用10亿标记数据比拟,在GPT-2架构上磨砺出的模子质地格外,以致略微更好,这体当今困惑度和评估分数上。这很好奇,因为它并不是合成数据,而是通过其他神志提高了数据的质地。

Nyla Worker: 的确。对于合成数据,咱们发现要是提供的数据散布适值稳妥你在推行寰宇中的需求,那么是有余的。这意味着你不需要像以前那样使用那么多的样本进行磨砺。某种进度上,我合计这就像在埃克塞特这样的地方教化孩子一样,孩子的智慧进度并不挫折,因为信息被很好地传递给他们,荒芜是有些学校能够很好地匹配合适的信息给你。

对于东说念主类来说,这种方式是有用的,我不解白为什么这种方式在这些模子上就不适用。咱们在诡计机视觉领域看到了它的效果。只需要一个极少据集,只罕有据是合适的,况兼很好地稳妥了需求,模子就能正常责任。这便是咱们得出的资格。

传统 ML 与LLM 通向AGI的旅途

swyx:我认为这里的问题在于,固然咱们领会如安在传统的机器学习环境中作念到这一丝,但当你试图构建AGI时,推行寰宇是全地方的。莫得什么不错用于专门优化的主见,因为它涵盖了一切。那么,您如何为悉数内容优化呢?

丝袜色情

Nyla Worker: 我认为AGI将会出当今AI能够得回完整反馈的领域,这只是我的直观。举例,在编程环境中,AI将有才能从头运行代码并从头评估其性能,这样就会生效。然则,对于那些无法得回反馈的情况,我还不深刻该若何作念。比如在机器东说念主期间中,咱们需要最先领有相配出色的抓抓传感器或视觉传感器,以便最终能够造成某种反馈回路。但这更多属于强化学习的范畴,咱们仍是在其中看到了超东说念主的阐扬,但它是在使用大语言模子中。我认为咱们仍在利用现存的资源进行臆度。这是一个相配好奇的话题,但要道在于你如何界说它,以及如何预计它。

swyx:除了界说除外,我想传达的是传统机器学习的念念维方式,即先领会问题,然后遐想数据集和架构来稳妥这个问题。然则在基础模子范式下,莫得具体的问题不错优化,因为你试图建造的是一个通用的、适用于悉数事情的模子。

Nyla Worker: 关联词,咱们用大语言模子作念的事情是采纳下一个词。我的不雅点是,文本是完全标记的数据,因为它是东说念主类输出的内容。咱们看到诸如"教科书便是你需要的一切"的论文,这是因为教科书信息密集,是东说念主类多年尽心砥砺每一个字的扫尾,而大语言模子从中学习。这是一种多任务学习,它通过这种尽心挑选的学习作念了好多事情,悉数内容都是被标记的。

我认为这很接近东说念主类智能,但我不笃定这是否会成为最好的东说念主类智能。比如,谁能够写一册量子力学的书,而AI当今能够预测量子力学教科书中的下一个词,这可能是东说念主类智能的最好体现。但我并不完全笃定。我对AGI的界说是它能够自我进步,况兼远远超过东说念主类所能创造的任何东西。我并不完全信托咱们当今领有的期间能够达成这一丝,但也许我是错的。这是我现时的不雅点。

ConvAI - AI NPC

swyx:咱们不错把这个话题留到喝咖啡时闲聊,当今无间讲Convai。

Nyla Worker: 我加入了Convai,这是一个制作对话型3D AI扮装的公司。这些扮装昭彰具有咱们之前磋议的大语言模子所赋予的理会才能,这是一种增强检索的生成模子。这些模子能够进行对话,咱们有文本到语音、自动语音识别等功能。咱们正在集成多模态期间,举例,咱们有一个多模态集会不错让NPC感知寰宇。NPC指的是曲玩家扮装。咱们相配珍爱这些扮装的具身化。要是你拜谒咱们的页面,你会看到咱们与悉数Avatar创建平台的集成,举例Relution或MetaHuman,这样咱们就不错给这些扮装赋予身体、表情和个性。

咱们使用器具来动画化面部,并利用动作模子——这是一种大型语言模子的微调版块,带有四个动作——使得这些游戏中的扮装能够实施动作。比如,要是你告诉它,"到这里来,给我拿一把斧头",它就会去给你拿一把斧头。这便是咱们所作念的责任。咱们发现这些期间在游戏领域相配有用。举例,有一个落寞开发者制作了一款游戏,你需要劝服NPC缅想某个区域,不然你就要脱色它们。这是一个应用场景。此外,还有一些外往来戏机制正在探索,比如劝服其他东说念主缅想的才能,看你若何期骗外交技巧来达成这一主见。

这是在游戏方面的一些应用,咱们还看到这些期间被用作品牌代言东说念主。比如,咱们仍是看到了聊天机器东说念主,它不错回答你对于X公司的悉数信息,并充任客服扮装。但这只是启动,下一代的品牌标志将是代表你品牌的扮装,它讲话像你的品牌,看起来像你的品牌,发型、面部特征等都稳妥你的品牌形象。这是咱们相配爱好的另一个领域。

swyx:有莫得什么着名的品牌不错连络到这一丝?我知说念一些Instagram上的AI influencer 或AI包装者,但我不知说念是否有品牌身份的例子。

Nyla Worker: 咱们有一些行将推出的东西,但我不想显现太多细节。

swyx:即使不是你们作念的,但你知说念业界有公认的金法式或其他近似的东西。

Nyla Worker: 是的,有一些品牌大使。Jensen在GTC Computex上发布了一个对于数字东说念主类的挫折公告,敷陈了数字东说念主类在异日的作用。举例,Hypocratic正在塑造别称照看,也便是一位数字照看,我不错告诉你磋议它的信息。我认为这是一种全新的与诡计机互动的方式。因为这种方式愈加东说念主性化,包含了品牌的悉数信息,具备品牌的作风,就像网站所先容的一样,当今它还有声息,况兼它亦然传输信息的方式,高度针对与该扮装交谈的东说念主。你仍是在Computex上看到各式品牌代理的医疗助手在作念这样的事情。

swyx:一个好奇的事实是,我如实在Computex现场。我刚从台湾坐飞机回来,况兼我看到Jensen在一位女士的身体部位签名,这件事在外交媒体上引起了世俗传播。他就像一个摇滚明星一样,到处都被一大群东说念主包围着。我信托这对他是很不酣畅的,但他似乎袭取了这种景色。

Nyla Worker: 你能想象已往五年发生了多大的变化吗?当我加入时,他在NVIDIA里面是深受景仰的,NVIDIA对Jensen有着近乎宗教般的伴随,但在NVIDIA除外并不是这样。而在已往一年里,他变成了一个巨星。很难想象那是什么嗅觉。

swyx:是的,太豪恣了。Lisa Su也在那里。这就像是一场家庭约会,因为他们相互是表亲。我认为他们莫得在并吞间房间里,但有好多东说念主在崇尚这些GPU之神。

让咱们回到agent上来。有好多品牌和聊天机器东说念主。我合计这些都是并吞件事,像代理、聊天机器东说念主一样。我认为东说念主们曲解或不太领会的是,需要哪些完整的堆栈才能达成这一切?有LLM,有增强检索(RAG),有语音合成。还有什么是我遗漏的吗?

Nyla Worker: 面部动画,手势动画。

swyx:视觉。

Nyla Worker: 视觉亦然缺失的一部分。是以咱们正在进行的一个名目,咱们正在与客户结合,它当今更像是幕后责任,但它波及到一个不错看到你、与你交谈并对你的响应作出讲演的agent。

举例,咱们有一个演示,固然是曲公开的,扮装会看着你说,你为什么用那种表情看着我?这改变了悉数这个词历程,因为当今要是你只是与它交谈,这与它能看到你、看到你的响应并启动交谈完全不同,这会改变你的景色,况兼基于此作念出响应。

我认为悉数这些元素共同组成了一个真实的体验。这嗅觉很不一样,很深邃释,但当你与这些扮装交谈,它们看着你,况兼它们的面部表情跟着你的动作而变化时,这嗅觉像是一个巨大的纠正。

swyx:是的。我在Computex现场时,他们展示了一种悬浮玻璃拓荒。它有点像一块玻璃,但里面有一块屏幕。你不错透过它看到东西,但它亦然一个屏幕,一个全息图。看起来相配传神,好像它们站在那里一样。但要是走近一丝看,你不错看出它是假的。他们的眼睛会在你走动时伴随你。它们真的在看着你。这有点令东说念主魂不附体,但昭彰存在延长问题。

Nyla Worker: 这是悉数这个词行业追求的地方,我认为咱们会达成这一丝。这便是为什么悉数的磋议都统一在推理上。我的大脑老是朝这个地方念念考,因为延长是咱们今天最需要优化的要道因素,以使体验嗅觉天然。

正如我在eBay的责任,我的任务是镌汰推理延长,使之对咱们来说嗅觉天然。而当今,跟着NPC的发展,咱们正朝着这个方上前进,况兼很快就会达成。另一丝是让扮装带着正确的情谊看着你,检测你的口吻。举例,咱们与NVIDIA结合作念了一个拉面店体验的演示。对于扮装来说,去拿拉面是曲常挫折的,当它与你交谈时完成这些动作,况兼响当令辰要天然,这些都很必要。

我个东说念主认为对话只是这个旅程的第一步。扮装需要能够辞寰宇中实施某些动作。举例,咱们正在使用 "第二东说念主生"(Second Life),咱们的NPC认真教你如何进入这个环境,以致把你先容给其他东说念主。因此,它们不单是是进行对话,还会带领你,比如,如何提起冲浪板。在Second Life中你不错冲浪、飞行、舞蹈,但除非有一个像AI助手一样的扮装指点你,同期具有个性并融入Second Life的环境,不然你可能不会知说念这些。这些是咱们看到的所需的功能。不单是是对话这样轻便。

Alessio:我玩电子游戏很万古辰了。我合计这便是一直以来很难完全千里浸其中的原因之一。就像在你启动与NPC交谈之前,你可能杀了十几个东说念主。然后你和NPC交谈时,NPC却说,竟然好意思好的一天。这就像是,它完全莫得坚定到周围发生的事情。是以这个纠正看起来是一个巨大的高出。

Nyla Worker: 咱们看到mods在作念这个。前几天有个一又友打电话给我,他说,嘿,我需要一个mod。在我把Howard's Legacy的商店打劫一空后,NPC却说,你好,今天我能若何匡助你?我打劫了你,请回答。

Alessio:是的,恰是如斯。

模拟不同扮装以进行磨砺

Alessio:咱们大致两三周前有一期节目是对于模拟AI的。您是如何看待NPCs和游戏的?您昭彰在模拟机械环境方面有好多资格。对于更像语言或念念维环境的模拟,你是否也认为NPCs不错作为模拟咱们但愿从大语言模子中得回的行为的一种方式?

Nyla Worker: 你能谨防解释一下你的想法吗?

Alessio:比如,研讨一个处理邮件的agent,你不错测试大语言模子生成文本的才能,你无法模拟扫尾会若何,然则你不错有不同的NPC,比如销售代表NPC和顾主NPC,然后你不错模拟它们之间的对话,从而了解顾主可能会提议什么样的反对意见等等。您提到了面向消费者的品牌的用例,那么里面呢?您是否看到了企业里面某些功能的数字孪生?

Nyla Worker: 是的,我所看到的是有两个方面。一方面,咱们有NPC对NPC的功能,你不错看到两个NPC之间的模拟对话。把柄你如何构建这些扮装的心智,举例,在Jean和Nova的演示中,Jean只懂拉面,是以他只会回复与拉面干系的内容。而Nova则掌抓了CES期间发布的最新GPU的信息,是以她会不休议论GPU,而Jean则不休议论拉面,这种混杂对话相配好奇。

我不错想象这在企业中是如何运作的,你不错训导一个与销售代表完全持相悖意见的NPC,然后你不错不雅察他们的不合以及他们的响应。企业正在使用的其中一个用例是职工培训。举例,你想磨砺医师如何粗鲁不同的病东说念主,有的病东说念主立场恶劣,有的病东说念主立场友好。因此你不错创建具有各式响应的NPC。但这是企业赋能培训的早期阶段,这种培训更为推行,使用了类东说念主扮装。让咱们静瞻念其变。

Alessio:这听起来很棒。我认为这也许是东说念主们在料到NPC时的一个误区。东说念主们平时料到的是电子游戏。但大多数骨子的用例似乎是生意性质的。固然电子游戏商场很大,但最终能够销售给的大型游戏刊行商并未几。

Nyla Worker: 我认为在游戏方面,跟着AI体验的到来,将有一种新的互动方式出现。它是在游戏中,但它更像是一种全新的文娱神志,包括对话生成、身手化寰宇创建等。咱们将在异日几年内看到这种情况的发生。对我来说,这是不言而谕的,但正如你所说,的确,大型责任室很少,而且它们有我方的开发方式。

它们有时不太惬心尝试新的游戏机制,这便是为什么咱们看到好多革命来自落寞开发者。像Convai这样的器具受到开发者的喜爱。咱们在Unity和Unreal钞票商店中都是最受落寞开发者宽容的钞票之一,他们正在探索并提议惊东说念主的创意和游戏。但总的来说,咱们在游戏之旅上还处于早期阶段,但我信托这将会到来。而在生意用途方面,这些东说念主形实体也将变得不可或缺。

Alessio:对于内容方面,我知说念你们作念了一个对于AI爱情故事的AI生成播客。在这方面有什么最新的进展吗?您是否有看到其他好奇的名目,或者从中得到了什么学习资格?

Nyla Worker: 我创造了第一个由AI生成的播客。那周ChatGPT发布了,我那时就想,哦,这个比GPT-1好多了。然后我就想,咱们不错生成标题,不错生成图片,不错生成声息,咱们不错用AI作念悉数的事情。于是我马上拉着我的室友一说念作念了这件事。她说,为什么是今天?我说咱们必须发布它,不管若何,我要阿谁头衔。因为我想要一切都是由AI生成的,莫得任何东说念主为干豫,连剪辑也不例外,一切都必须是生成的,它如实作念到了。尽管那是一个格外厄运的播客,但你不错看到它有可能变成一种新的文娱神志。

Alessio:是的,我很好奇这些模子将如何允许相通的IP在不相似式中重用。我一直在看Amazon上的Fallout电视剧。我可爱Fallout系列游戏,但自从《Like a New Vegas》发布以来仍是已往了十年,直到他们的确制作了一部对于它的电视节目。要是领有模子的IP悉数者,比如NPC等,能够从头利用这些内容,那就好奇了。这是视频游戏,这是电视剧,这是动漫,这是YouTube短视频版块,诸如斯类。我认为有大都的粉丝需求。你在同东说念主演义界也能看到这一丝,东说念主们老是为并吞个系列创作新的作品,比如《哈利·波特》,只是为了有更多的东西可读。是以我很想知说念这会对新的IP产生什么影响,荒芜是当顺利的IP有这样多迭代时。

Nyla Worker: 我认为在膨胀IP方面还有好多事情要作念。这让我感到相配欢乐。比如说,你花了数年时辰制作一个游戏,为什么不使用AI对其进行修改,以延长其人命周期呢?我认为,跟着AI扮装的加入,修改将成为一个巨大的领域。昭彰,这里存在一个常识产权的争论,我不太想深入磋议这个问题,因为这波及到好多复杂的情况。异日几年肯定会有大都的法律诉讼来管理这些问题。但我认为,最终你会有一个相配好奇的异日,你不错与你可爱的扮装交流,与他们冒险,要是假造寰宇变得愈加深广,你就不错作念到这一丝。我加入Convai的原因之一便是我想与爱因斯坦交谈,和他一说念漫步,就像我和我的物理教化那样。天然这只是其中一件事情,但当你能够创造这样的事物时,这个寰宇会是什么神志呢?也许还不错与我最可爱的科幻扮装交谈。

Alessio:尤其是对于那些领有大都磨砺数据的新扮装来说更是如斯。比如Sean Carroll,我但愿能随时有Sean Carroll来解释悉数这些东西。他读了好多书,参加了好多播客,是以有好多不错用来磨砺的数据,但当今我只可听他的播客。

Nyla Worker: 令东说念主欢乐的是,你将领有这个东说念主的官方授权实体。比如这个大语言模子是由X东说念主批准的。这样,即使你不是顺利与Jensen交谈,你也知说念你是在与经过授权的Jensen Huang交谈。你会合计更宽解,因为这样你接收的常识便是他们提供的常识。爱因斯坦的问题在于我不知说念他是否会授权我的假造生成。然后咱们磋议了IAC,但这并莫得……

Alessio:我合计,这些据说物理学家生活在一个相配豪恣的时期,比如20世纪初到中期,那时候经历了两次寰宇大战,发生了各式豪恣的事情。将这些经历建模进去将会相配好奇。

Nyla Worker: 如实,那些竹素使我进入了物理学的寰宇。那时我是个优秀的诡计机科学家,18岁时就仍是作念了好多编程,物理学从他们的角度来看显得如斯酷,读了他们的书之后,我合计,好吧,我要试试这个,但缺憾的是,我无法复制他们的一些成就。

Alessio:这对任何东说念主来说都很难。咱们知说念咱们仍是占用了你很万古辰,但咱们聊了好多。还有什么遗漏的地方,或者你想要向不雅众传达的信息吗?要是你想招聘团队成员或者其他什么,都不错告诉咱们。

Nyla Worker: 要是有东说念主对AI扮装相配感意思,请磋议我。你不错在LinkedIn上找到我,或者发邮件给我。我的私东说念主邮箱是nyla.worker@gmail.com。是以,要是你对3D扮装感意思,或者对合成数据好奇的话,请磋议我。我在这一领域花费了很万古辰,是以我不错与你探讨这个话题。

Alessio:太好了,Naila,谢谢你今天的共享。

Nyla Worker: 好的,调整,相遇。

原著述:Efficiency is Coming: 3000x Faster, Cheaper, Better AI Inference from Hardware Improvements, Quantization, and Synthetic Data Distillation

https://www.latent.space/p/nyla

编译:Juan Wang

-----------

END

点击下方卡片,关注管千里着沉稳慧

                                                       可爱这篇著述

请为我点赞和在看