思要“弯道超车”英伟达的12家独角兽

李易欣 2024-02-26 07:41 845

"思要“弯道超车”英伟达的12家独角兽,这篇新闻报道详尽，内容丰富，非常值得一读。这篇报道的内容很有深度，让人看了之后有很多的感悟。作者对于这个话题做了深入的调查和研究，呈现了很多有价值的信息。这篇报道的观点独到，让人眼前一亮。 " 账号设置我的关注我的收藏申请的报道退出登录登录搜索36氪Auto数字时氪将来消费智能涌现将来城市启动Power on36氪出海36氪研究院潮生TIDE36氪企服点评36氪财经(Finance)职场bonus36碳后浪研究所暗涌Waves硬氪媒体品牌企业号企服点评36Kr研究院36Kr创新咨询企业服务核心服务城市之窗行政部门服务创投发布LP源计划VClubVClub投资机构库投资机构职位推介投资人认证投资人服务寻求报道36氪Pro创投氪堂企业入驻创业者服务创投平台首页快讯资讯推荐财经(Finance)科技(Technology)创新城市最新创投汽车(Car)企服专精特新直播视频专题活动搜索寻求报道我要入驻城市合作想要“弯道超车”英伟达的12家独角兽36氪的朋友(Friend)们·2024-02-23 11:54关注AI芯片主战场：从训练转向推理？

近期，华尔街明星(Star)基金经理、方舟投资管理公司的CEO“木头姐”凯茜·伍德（Cathie Wood)在接受媒体采访时表示，她减持套现约450万美元的英伟达股票，在她看来，将来英伟达GPU芯片的需求并没有预期的那般火热，英伟达将面临更多的竞争。

木头姐称，看看科技(Technology)巨头们，比如Meta、亚马逊、Alphabet，它们(They)都在开发自己的AI芯片。它们(They)更加专业化，目的性更为明确，而英伟达的芯片则更加通用。

“木头姐”话音刚落，Groq LPU (Language Processing Units语言处理单元) 芯片惊艳亮相，号称“性价比高英伟达100倍”（芯片的速度比英伟达GPU快10倍，但价格和耗电量都仅为英伟达的十分之一），再加上谷歌自研AI芯片TPU设计者的光环，不少人直呼：英伟达的劲敌出现了。

根据Groq官网介绍，该公司自研的LPU是一种专为AI推理所设计的芯片。不同于英伟达GPU需要依赖高速数据传输，Groq称，他们(They)的LPU芯片在系统中没有采用高带宽存储器（HBM），而是选择使用SRAM，速度比GPU所用的存储器快约20倍。

Groq公司称，在执行推理任务中LPU可以取代GPU，通过其专用化的设计，LPU能够为特定的AI应用提供优化的性能和能效比。

01 替代英伟达GPU？成本问题是关键

原阿里技术副总裁贾扬清发文分析称，要保证LPU和H100同样吞吐量，就需要更多的卡，而一张LPU卡仅有230MB的内存，且售价超2万美元，在运行Llama-2 70b模型时，需要305张Groq卡才足够，而用H100则只需要8张卡。

从目前(Currently)的价格来看，这意味着在同等吞吐量下，Groq的硬件成本是H100的40倍，能耗成本是10倍。如果运营三年，Groq的硬件采购成本为1144万美元，运营成本为76.2万美元。相比起来，8卡H100的硬件采购成本是30万美元，运营成本是7.2万美元。

但华为“天才少年”左鹏飞在知乎上发文反驳了贾扬清的说法，左鹏飞认为大家混淆了售卖价和成本价。应该以Groq自己生产卡的成本价来计算推理成本。虽然 Groq 卡的售卖价是2万美金，但其成本价非常低，预计每卡成本在1200美金左右。

左鹏飞直言，GPU的成本大头则在HBM，但 Groq 直接丢掉了HBM，可以按 SRAM 的成本价估算卡成本。

按1200美金/卡的成本计算，500张Groq卡的总成本是60万美金。Groq 公司拿这60万美金只能采购两台英伟达H100。两台英伟达 H100 能跑出 500 tokens/s的性能吗？

02 Grop LPU如何降本？如何进一步降本？

如今，Transformer模型已经成为主流，但训练和使用起来代价非常昂贵。使用大型Transformer模型进行(Carry Out)推理时，除了模型的规模不断扩大外，还有两个不可忽略的地方：1.内存消耗大，2.低并行性。

不同于传统的CPU和GPU架构，Groq从头设计了一个张量流处理器 (TSP) 架构，以加速人工智能、机器学习和高性能计算中的复杂工作负载。

而Groq编译器则在TSP上调度程序执行，提供了一种从软件层到硬件层高度集成和优化的解决方案，特别适合执行复杂的机器学习和深度学习任务。通过这种方式，Groq可以提高计算效率，降低通信开销，同时保证程序执行的确定性和可预测性。

每个TSP都还具有网站交换的功能，可直接通过网站与其他TSP交换信息，无需依赖外部的网站设备，这种设计提高了系统的并行处理能力和效率。

Groq闪电般的响应速度迅速引爆互联网讨论(Discuss)，“快”的关键则在于，LPU没有采用HBM，而使用了SRAM，同时这种设计也能够显著提高吞吐量。

分析认为，LPU的一个关键特点是它的纯粹确定性，与需要定期刷新的HBM不同，SRAM不需要刷新，能够稳定地存储数据，这意味着Groq芯片可以精确地知道数据在任何给定时刻的位置。

因此，LPU特别适合于执行基于Transformer模型的推理任务，这些计算具有高度的确定性。例如，像GPT-4这样的大语言模型（LLM）通过一系列确定的操作处理文本，与Groq的架构非常匹配。

这是AI的推理计算，相较于模型训练需要的数据量远小，Groq的LPU更节能。在执行推理任务时，它从外部内存读取的数据更少，消耗的电量也低于英伟达的GPU。

参考某电话会议教授的说法：Groq价格可能在5000美元左右，而英伟达（NVIDIA）的类似产品价格为1万美元。如果成本在2000至3000美元之间，那么其价格与英伟达的产品在成本上可以竞争。Groq可能主要面向云端服务市场，可能会在下一代芯片中加入外置的DRAM。如果能够改进其架构，例如支持高带宽内存（HBM），可能会在不增加单卡成本的情况下提升性能，从而降低整体成本。

03 AI芯片的主战场：由训练转向推理？

在Groq LPU推出之前，大模型的训练和推理都是基于英伟达GPU来设计，采用的CUDA软件技术栈。而Groq LPU的“一夜走红”也让市场开始推断风向变了，AI芯片的主战场将由训练转向推理。

在AI领域，工作任务有两大类：训练和推理。训练阶段对大规模的计算力和内存容量有着极高的需求，但对于访问速度的依赖相对较小。

推理阶段则截然不同，AI模型必须以极致的速度运行，目的是为了能够向终端用户提供尽可能多的Token，以此来加快回复用户指令的速度。

有分析认为，将来一年AI推理市场将大幅增长，相较于AI训练，AI推理与用户终端场景需求更加紧密，训练后的大模型需要通过AI推理服务于实际的场景，目前(Currently)基于英伟达GPU的AI推理方案依然成本高企，在性能、时延等方面影响用户使用体验。

这一次Groq之所以突然爆发，也是因为Groq搭载的Llama2可能Mistreal模型的云服务上线，如果Groq LPU推理芯片可以从硬件上解决性能和成本问题，让AI推理服务大规模部署，可能许将来会有更多的AI推理类应用落地。

分析认为，英伟达A100采用的Ampere架构设计为广泛的计算任务提供支持，包括但不限于机器学习。

A100的Tensor Core技术和对多种数据类型的支持确实为深度学习提供了强大的加速，但TSP的专门优化使其在机器学习任务上可能提供更优的性能和能效比。

由于高能效比，Groq就想到了把TSP变成专用集成电路，也就是ASIC。ASIC的特点在于特定的应用可能算法进行(Carry Out)了高度优化，以达成最佳性能、最低功耗和最小面积等目标。

由于它们(They)专门用于执行一种可能一组相关任务，因此在完成这些任务时往往比非定制化的芯片更高效，特别是在推理领域。

数据显示，目前(Currently)，数据中心定制芯片市场约为300亿美元，当更多可替代英伟达GPU的新一代专用推理芯片出现在数据中心，而基于云端的AI训练芯片的增长可能许会逐渐放缓，这可能许也是英伟达为什么要开始进军定制芯片市场的重要原因。

04 推理芯片公司试图从英伟达GPU庞大市场里分一杯羹

近日，有媒体汇总了想要“弯道超车”英伟达的12家独角兽。

这些初创企业平均历史(History)只有五年，融资额度最高的已有7.2亿美元。

将来，这些“新锐们”可能成为英伟达“王位”的有力挑战者。

本文来自微信公众号“硬AI”（ID:IngAI_），作者：葛佳明，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

+10

好文章，需要你的鼓励

36氪的朋友(Friend)们特邀作者0收藏+10评论打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮微博沉浸阅读返回顶部参与评论评论千万条，友善第一条登录后参与讨论(Discuss)提交评论0/1000你可能也喜欢这些文章Stable Diffusion 3震撼发布，采用Sora同源技术，文字终于不乱码了Sora降世，短视频(Short Video)真的会更好吗？2024开年，电话厂商革了自己的命AI元年，被C端用户们“证伪”了的AI产品（上）英伟达值14万亿吗？2024的初创公司，不蹭AI就融不到资？AI上国内团队好像被甩开了？差钱？差人？OPPO、魅族，背道而驰“字节版Sora”国外公测，这回不是狼来了最新文章推荐Stable Diffusion 3震撼发布，采用Sora同源技术，文字终于不乱码了想要“弯道超车”英伟达的12家独角兽Sora降世，短视频(Short Video)真的会更好吗？毛利、销量双承压， “特斯拉杀手” Rivian 能挺过生死线吗？美股亢奋，上窜下跳的Block靠不靠谱？万代23年净赚32亿，高达+龙珠+海贼王三大IP营收199亿烤肉品类发展报告2024：门店超16万家，下沉市场存机遇2024开年，电话厂商革了自己的命开年后上海的租赁市场怎么这样了2024年最新产品特征与亮点有哪些？

36氪的朋友(Friend)们特邀作者

作者有点忙，还没写简介

发表文章37921篇最近内容想要“弯道超车”英伟达的12家独角兽5分钟前多家银行密集宣布：下调存款利率，有银行大额存单下调70个基点，教授：还有下降空间2小时前英伟达坐上AI火箭：黄仁勋被誉强过马斯克3小时前阅读更多内容，狠戳这里下一篇Sora降世，短视频(Short Video)真的会更好吗？

一个做号的时代，似乎又蠢蠢欲动地到来了。

6分钟前

热门标签葱油饼投资担保融资监管资金安危安危平台疯狂动物城变形金刚5特种部队2血战钢锯岭龙之战南朝鲜影视电话电视(Television)加里宁格勒无线3d地图空间数据郑州租房张喜平湖南卫视王菲窦靖童收视建筑结构超高层卢志强魔都奚梦瑶维密emoji表情符号关于36氪城市合作寻求报道我要入驻投资者关系商务合作关于我们(We)联系我们(We)加入我们(We)网站谣言信息举报入口热门推荐热门资讯热门产品文章标签快讯标签合作伙伴