了解有关 Google TPU 芯片的更多信息:它们如何与 Broadcom 竞争?他们能与英伟达竞争吗?

前几天我简单讲了一下Google TPU目前面临的困境。该公司与博通有着密不可分的关系,并希望消除对博通的高度依赖。今天,我们就来仔细看看谷歌是如何与博通竞争的。另外,在竞争激烈的市场环境下,他们最终能否批发TPU并从Nvidia手中夺取市场份额? 1、谷歌TPU开发模式目前TPU v7、v7e和v8版本的开发归属如下:谷歌TPU最初选择博通是因为它确实是全球最好的芯片设计和代工工艺服务提供商,特别是拥有对实现AI芯片大规模并行计算至关重要的尖端高速芯片互连技术。但另一方面,博通在TPU订单上的毛利率高达70%。作为消费级芯片厂商,联发科的综合技术能力虽然不如博通,但也愿意接受毛利率超过30%的TPU订单,这将大幅降低谷歌的运营成本,必然成为谷歌制衡博通的棋子。 Mag7还看到许多科技巨头使用类似的模型来开发自己的AI芯片。 Meta也选择了博通作为合作伙伴,微软和亚马逊选择了Marvell和Alchip,特斯拉和苹果选择了独立开发。 2、谷歌与博通的接口问题 为什么谷歌要自己设计其芯片的高层架构,而不是完全外包给博通?为什么博通不将谷歌的芯片设计作为公共版本出售给其他制造商?我们来研究一下这个工作界面问题。在进入正题之前,我先给大家讲一个小故事。我记得差不多10年前,云服务的股票投资在中国很流行。当前,当我对服务器制造进行尽职调查时,我听到了一个谣言。阿里巴巴刚成立的时候为了进入云服务领域,它与富士康接洽,私下请求为谷歌代工的服务器主板。富士康拒绝了这一点,并建议使用自己的公共版本。撇开商业知识产权和商誉问题不谈,谷歌当时设计的主板将 12V 铅酸电池直接悬挂在每个主板上。与需要三次转换的传统集中式UPS设计不同,电网电力在进入主板之前仅进行一次转换,从而显着降低了功耗。当时,在云服务领域,大幅节能意味着制造商毛利的大幅提升或者是初始市场价格的大幅下降,这简直是对商业欺诈的致命打击。同样,我们看一下TPU开发工作接口的问题。谷歌做TPU是因为它最大的用户是自己内部的应用负载,比如搜索引擎、YouTube、广告推荐等系统和Gemini的大型模型。因此,只有Google内部团队知道TPU算子是如何设计的,以最大限度地提高内部应用程序的有效性。不可能将这些内部业务信息交给泊头来完成芯片的高层架构设计。这就是为什么谷歌需要自己做TPU的更高层次的架构设计。但这引出了第二个问题。如果博通接手其二高层架构设计,博通不会发现吗?它可以改善你的公司吗?是其他厂家销售的版本吗?抛开商业知识产权和商誉问题不谈,为芯片提供高级架构设计与十多年前提供电路板设计不同。 Google自己的工程师使用SystemVerilog编写布局(RTL)源代码并编译成Broadcom的是门级网表。这使得几乎不可能对背后的高级设计逻辑进行逆向工程。即使 Broadcom 知道其芯片设计中的 1 亿个晶体管是如何连接的。对于核心逻辑模块设计,例如谷歌的MXU矩阵乘法单元,谷歌甚至没有向博通展示具体的网络列表。相反,我们创建一个物理设计(硬 IP)并将其作为黑盒发送给博通。 Broadcom只需要根据需要为黑匣子提供电源、散热和数据连接,而无需知道黑匣子是什么。因此,我们目前看到的谷歌与博通的合作界面,实际上是最理想的业务合作情况。谷歌设计了TPU的顶层架构,对各种信息进行加密并发送给博通。博通将处理所有剩余的实施工作。同时,我们将为谷歌提供自己一流的高速互联网技术,最终提供给台积电进行代工制造。现在谷歌表示 TPU 出货量正在增加我想降低成本。所以,博通,你把你的一些工作交给联发科,而我付给他们的钱比你少。博通说是的,无论如何他们在 Meta 和 OpenAI 上还有很多工作要做,所以谁会把一些最后的工作留给联发科。联发科表示:“嘿谷歌,我更​​便宜。继续找我。除了高速互联网,我什么都不会。其他的尽量交给我。” 3. TPU真的能从Nvidia手中抢走市场份额吗?简而言之,TPU 出货量将大幅增长,但 Nvidia 出货量影响不大。两者的增长逻辑不同,为客户提供的服务也不同。正如上一篇文章提到的,Nvidia的卡出货量增长是由三个主要需求驱动的:(1)高端培训市场的增长。人工智能模型已经消耗了世界上大部分信息,许多人认为它们将不再需要学习。这实际上称为锻炼前。但锻炼后很快认真对待,因为每个人很快发现,受纯大数据约束的预训练模型很容易产生无意义的幻觉。一次又一次的培训涵盖了很多专家的判断。这里的数据量甚至是动态的。只要世界在变化,专家的判断也必须不断审查,因此大型模型越复杂,后续需要的训练就越广泛。 (2)复杂的推理要求。大型后训练思维模型,如OpenAI的o1、xAI的Grok 4.1 Thinking、Google的Gemini 3 Pro等,每项复杂任务都需要多次推理和自我验证,使得工作量已经与小规模轻量级训练相当。最复杂和高端的推理仍然需要在 NVIDIA 卡上运行。 (3)AI体能要求。即使世界固定知识的信息训练完成,动态的物理世界会发生什么? c自主传导,各行业机器人,自动化d 生产、科研。新知识和交互信息不断产生的物理世界所产生的训练和复杂推理需求远远超过当今世界存在的知识总量。 TPU的快速增长主要得益于以下原因:(1)Google自身使用量的增加。特别是,人工智能几乎集成到了谷歌所有的主要应用程序中,包括搜索引擎、YouTube视频、广告推荐、云服务和Gemini应用程序。这些巨大的增长导致了谷歌自身 TPU 需求的爆炸式增长。 (2)GoogleVice云服务器对外提供TPU云。目前,Google Cloud主要为外部客户使用NVIDIA卡,但也在积极推广基于云的TPU服务。与Meta这样的大客户一样,该公司对自己的AI基础设施有着强烈的需求,但需要时间购买NVIDIA卡来部署数据中心。它也可以作为酒吧在商务谈判中获得筹码。 Meta可以考虑租用TPU云服务进行预训练,以缓解NVIDIA卡稀缺和昂贵的问题,而Meta自研的芯片将用于内部推理任务。这种混合芯片解决方案可能是元的最佳选择。最后,我们来谈谈软件和硬件方面,为什么TPU不能取代Nvidia卡或面临直接竞争。 (1) 硬件故障:基础设施不支持NVIDIA GPU。这是一个标准零件。您可以购买它并使用它连接到您的 Dell/HP 服务器。可以安装在任何想要的数据中心。 TPU 是一个依赖于 Google 专有的 48V 电源、液体冷却管道、机柜尺寸和封闭式 ICI 光学互连网络的“系统”。除非客户愿意像谷歌那样拆除并重建他们的数据中心,否则几乎不可能在本地购买和部署 TPU。这意味着TPU只能在 Google Cloud 上租用,其覆盖范围仅限于高端市场。 (2)软件瓶颈:生态不兼容(PyTorch/CUDA vs. 这里,对于开发者来说迁移成本非常高。正规公司和开发者,除了像 Apple、Anthropic 这样有能力重写底层代码的巨头,都买不起 TPU。这注定意味着 TPU 只能服务于“极少数具有全栈开发能力的客户”,无法将 AI 训练和推理普及到像 NVIDIA 这样的所有大学和初创公司,包括(3)最后还有一个商数:内部“Gemini vs. Cloud” 作为云服务巨头,Google Cloud 肯定是想通过出售 TPU 来赚钱,但 Google Gemini 团队却想垄断 TPU 的算力来维持自己的主导地位,并利用退出应用来为公司赚钱,这里面必然存在利益冲突。奖金?假设 Google 开始向 Meta 或亚马逊大规模销售下一代 TPU,然后帮助他们部署和使用这些 TPU。结果,谷歌最赚钱的广告业务开始落入这两个最大竞争对手的手中。这个账户是怎么计算的?这种内部战略冲突很可能会让谷歌犹豫是否对外出售TPU,甚至保留其最强大版本的销售。如果出现这种情况,它注定无法与英伟达竞争并控制高端市场。 4.总结:谷歌和博通在TPU上的战斗仍在继续,混合开发模式,但开发强大的v8难度肯定会增加。我们将继续关注具体事态发展,并期待博通下周12月11日发布第三季度财务报告时是否提供更多信息。TPU卡和NVIDIA卡之间的竞争威胁较小。无论是硬件还是b载体,软件对环境的适配,或者业务逻辑,你会直接购买TPU来自己实现。正如最近一篇文章所报道的,只有少数高水平玩家可以轻松尝试它,例如 Meta。但据我了解,Meta 正在花费大量资金来基于 TPU 重建他们的数据中心。很难获得资本投资,人工智能的开发可能会蚕食谷歌的广告业务。而且,传播这篇文章的媒体是The Infomation,这是一家长期与英伟达、微软等多家科技巨头为敌的网络八卦媒体。大多数被举报的物品最终都是假货。与 TPU 自己的混合开发策略类似,Meta 很可能会通过 TPU 云租赁的方式用于模型预训练和复杂推理,以减少对 NVIDIA 的依赖。科技巨头正在分崩离析,但最终他们必须保持强大,并且只有符合他们最大利益的解决方案是正确的。文章来源:新视野艾伦·肖尔
特别提示:以上内容(包括图片、视频,如有)由自媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号社交媒体平台用户上传并发布。并提供信息存储服务。

admin

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注