谷歌TPU市值逼近4萬億美元:AI算力駛離英偉達“單行道”

來源:投影時代 更新日期:2025-12-01 作者:佚名

    近日,谷歌母公司 Alphabet(NASDAQ:GOOGL)股價連續(xù)多日強勢上漲,市值逼近 4 萬億美元,創(chuàng)下歷史新高。截至 24 日收盤,Alphabet 市值約為 3.84 萬億美元,位列全球第三,僅次于英偉達和蘋果。

    這股推動 Alphabet 市值創(chuàng)新高的動力,不僅源于巴菲特旗下公司破圈大舉買入谷歌所帶來的市場信心,更來自谷歌TPU業(yè)務今年以來接連獲得的全球關鍵客戶背書:10 月 24 日 Anthropic 與谷歌共同宣布,雙方達成價值數(shù)百億美元、規(guī)模達百萬片的 TPU 采購協(xié)議;11 月 23 日,馬斯克披露特斯拉已在車輛控制系統(tǒng)與數(shù)據(jù)中心大規(guī)模部署自研 AI 芯片,數(shù)量達數(shù)百萬顆;11 月 25 日 The Information 報道稱,Meta 正計劃于 2027 年將谷歌 TPU 部署至自有數(shù)據(jù)中心,并最早自明年起租用谷歌云 TPU 算力;而近期口碑爆棚的 Gemini 3 正是谷歌用深耕 10 年的自研 TPU 芯片訓練的成果。

    這些看似獨立的動向,共同指向一個清晰的行業(yè)轉(zhuǎn)折點:AI 算力市場正加速擺脫對英偉達 GPU 的單一依賴,尋求基礎設施多元化,擁抱以 TPU 為代表的 AI 專用芯片的新架構(gòu)方向。

    Meta 加持:谷歌 TPU 從云服務到本地部署的戰(zhàn)略升級

    TPU 是谷歌專為機器學習定制的 AI 加速芯片,在性能、能效比和成本方面為 AI 計算提供了新的選擇。與英偉達的通用 GPU 相比,TPU 采用脈動陣列等簡化控制邏輯的設計,在執(zhí)行大規(guī)模的矩陣乘加等神經(jīng)網(wǎng)絡核心運算時,能夠?qū)崿F(xiàn)極高的能效比和吞吐量。

    2015 年始,TPU 在谷歌內(nèi)部部署,并成功支撐了 AlphaGo 擊敗李世石等里程碑事件。多年來,谷歌始終將 TPU 嚴格限制于自家云平臺(Google Cloud),通過出租接入權(quán)限的方式,向需要大規(guī)模 AI 訓練和部署的企業(yè)提供算力。谷歌本次計劃放開在客戶本地部署,是其首次以英偉達替代方案的方式進入市場,標志著其戰(zhàn)略的重大轉(zhuǎn)變。

    Meta 與谷歌的這筆潛在交易可能是谷歌十年 TPU 投入的一次關鍵性背書。按照討論中的方案,Meta 將把谷歌的 TPU 部署到其自有數(shù)據(jù)中心,并最快從明年起租用 Google Cloud 的 TPU 算力,凸顯了 Meta 構(gòu)建和運行人工智能模型所需的高性能計算能力需求。

    隨著模型參數(shù)規(guī)模從百億向萬億邁進,Meta 面臨的算力成本壓力呈指數(shù)級增長。據(jù)公開計劃,Meta 正在大幅增加其在 AI 基礎設施上的投入,Meta 今年在 AI 基礎設施方面的支出將高達 720 億美元,以滿足人工智能研發(fā)及業(yè)務運營的需求。當前,眾多深度思考推理模型,多采用 MoE(混合專家)架構(gòu)。這類架構(gòu)雖激活參數(shù)量相對較少,但總參數(shù)量巨大,對大規(guī)模并行處理和高效內(nèi)存訪問需求迫切,單個芯片難以滿足其計算需求。TPU v7 正是基于此設計,在執(zhí)行大規(guī)模張量操作時,最大程度減少芯片上的數(shù)據(jù)移動和延遲。對于 Meta 這樣每天需要處理數(shù)百萬億個 AI 模型的任務和操作的企業(yè),TPU 在總擁有成本上的優(yōu)勢成為關鍵考量因素。

    本次潛在合作可能會超越傳統(tǒng)的供應商-客戶關系。通過將 TPU 引入自有數(shù)據(jù)中心,Meta 實質(zhì)上是在構(gòu)建一個異構(gòu)算力架構(gòu),為未來接入更多專用芯片奠定基礎。同時,這一合作也將加速 TPU 生態(tài)的完善,推動其成為行業(yè)事實標準之一。對于年投入數(shù)百億美元建設 AI 基礎設施的 Meta 而言,與谷歌的深度合作不僅關乎成本節(jié)約,更關系到其在下一代 AI 競爭中的戰(zhàn)略地位。

    TPU VS. GPU,為 AI 大模型而生的天然優(yōu)勢架構(gòu)

    GPU 最初設計用于圖形處理,尤其是實時渲染和圖像處理,因此對其中體面結(jié)構(gòu)的矩陣和向量運算做了專門優(yōu)化,后來逐漸發(fā)展成為通用計算設備(GPGPU)。GPU 具有大量結(jié)構(gòu)較為簡單的并行處理單元,適合處理高度并行的任務,如圖形渲染和科學計算,因此被廣泛應用于計算機圖形學、游戲開發(fā)、視頻編碼/解碼、深度學習訓練和推理。 

    TPU 是谷歌專為加速機器學習和深度學習任務而設計的專用芯片,特別是針對深度學習模型的訓練和推理。TPU 針對張量運算進行了高度優(yōu)化,單個的脈動陣列架構(gòu)吞吐量和處理效率相較 GPU 有了更大提升,特別適合于處理矩陣乘法等常見于神經(jīng)網(wǎng)絡的操作,主要用于機器學習和深度學習模型的訓練和推理,特別是使用 TensorFlow 框架的任務。 

    TPU 以強大的并行處理能力實現(xiàn)了模型訓練速度和精度的雙重提升,可以說是比 GPU 更適合進行大量部署或使用的深度學習計算單元:

    ·多維度的計算單元提高計算效率:相較于 CPU 中的標量計算單元和 GPU 中的矢量計算單元,TPU 使用二維乃至更高維度的計算單元完成計算任務,將卷積運算循環(huán)展開的方式實現(xiàn)最大限度的數(shù)據(jù)復用,降低數(shù)據(jù)傳輸成本,提升加速效率;

    ·更省時的數(shù)據(jù)傳輸和高效率的控制單元:馮諾依曼架構(gòu)帶來的存儲墻問題在深度學習任務當中尤為突出,而 TPU 采用更為激進的策略設計數(shù)據(jù)傳輸,且控制單元更小,給片上存儲器和運算單元留下了更大的空間;

    ·設計面向 AI 的加速,強化 AI/ML 計算能力:定位準確,架構(gòu)簡單,單線程控制,定制指令集,TPU 架構(gòu)在深度學習運算方面效率極高,且易于擴展,更適合超大規(guī)模的 AI 訓練計算。

    TPU 為代表的新架構(gòu)沖擊英偉達 GPU 主導的 AI 算力市場

    當前,Meta 的選擇折射出眾多整個行業(yè)的戰(zhàn)略轉(zhuǎn)向——AI算力基礎設施的構(gòu)建已不再局限于通用 GPU 的堆砌,正向更具能效優(yōu)勢的 TPU 或者類 TPU 等定制化芯片深入。

    今年 10 月 24 日,谷歌與 Anthropic 共同發(fā)布聲明,宣布谷歌將向 Anthropic 供應至多 100 萬塊專用 AI 芯片 TPU 以及附加的谷歌云服務,這筆交易價值數(shù)百億美元;谷歌在聲明中稱,這是 Anthropic 迄今為止規(guī)模最大的 TPU 擴容計劃。至此,Anthropic 已與谷歌、亞馬遜與英偉達三大芯片提供商達成合作。

    11 月 23 日,特斯拉首席執(zhí)行官馬斯克通過社交平臺發(fā)布長文,特斯拉已組建一支全球頂尖的芯片研發(fā)團隊,特斯拉已具備從芯片設計到量產(chǎn)的全鏈條能力,支撐起 FSD 自動駕駛、Dojo 超級計算機等核心業(yè)務。據(jù)馬斯克介紹,特斯拉已在車輛控制系統(tǒng)與數(shù)據(jù)中心大規(guī)模部署自研 AI 芯片,數(shù)量達數(shù)百萬顆。特斯拉當前車載芯片為 AI4(原HW4),其下一代產(chǎn)品 AI5 已完成關鍵設計,即將進入流片階段,而第六代芯片 AI6 的研發(fā)工作也已正式啟動。公司計劃以“一年一代”的節(jié)奏推進芯片迭代。

    不止如此,自 2019 年始,許多科技巨頭已經(jīng)開始探索非GPU算力解決方案:

    ·早在 2019 年,英特爾就收購了來自以色列的 AI 芯片制造商 Habana Labs,并在 2024 年 4 月推出了專攻深度學習神經(jīng)網(wǎng)絡推理的類 TPU 芯片 Gaudi 3;預計2025 年初,IBM Cloud 將率先部署英特爾 Gaudi 3 AI 加速器; 

    ·2023 年 11 月,微軟在其全球技術大會 Ignite 上宣布推出專為 Azure 云服務和 AI 工作負載設計的 ASIC 芯片 Maia 100,預計 2026 年正式發(fā)布; 

    ·2023 年 11 月底,AWS 在其“AWS re:Invent 2023”大會發(fā)布了為生成式 AI 和機器學習訓練設計的云端 AI 算力芯片 Trainium 2;2024 年底,AWS 與 Anthropic 官宣共同打造名為 Project Rainier 的 EC2 UltraCluster,將使用數(shù)十萬片 Trainium2 芯片;

    ·2024 年 7 月 蘋果公司使用谷歌 TPU 訓練其人工智能系統(tǒng)“蘋果智能”(Apple Intelligence)的 AI 模型 AFM,通過 2048 片 TPUv5p 芯片來訓練擁有 27.3 億參數(shù)的設備端模型 AFM-on-device,以及 8192 片 TPUv4 芯片來訓練其為私有云計算環(huán)境量身定制的大型服務器端模型 AFM-server。

    ·2025 年 6月,據(jù)路透社報道,作為英偉達 GPU 長期以來的最大采購商之一的 OpenAI 已開始租用谷歌的 TPU 為其 ChatGPT 及其他 AI 產(chǎn)品提供算力支持。

    · ······

    國內(nèi)唯一全自研、已量產(chǎn) TPU 芯片的公司

    核心創(chuàng)始團隊組建于 2018 年,作為國內(nèi)唯一一家掌握 TPU 架構(gòu) AI 專用芯片核心技術并實現(xiàn)全自研 TPU 芯片量產(chǎn)的公司,中昊芯英的創(chuàng)始人及 CEO 楊龔軼凡曾作為谷歌 TPU 芯片核心研發(fā)者,深度參與過 TPU v2/3/4 的設計與研發(fā)工作。當前,OpenAI 大規(guī)模租用 TPU 算力、Meta 廣泛采購部署 TPU 芯片,特斯拉為特定場景研發(fā)專用 AI 芯片,共同標志著為 AI 負載優(yōu)化的專用計算架構(gòu)已成為行業(yè)演進的關鍵路徑,也從產(chǎn)業(yè)層面驗證了 TPU 技術方向的可行性與前瞻性。

    TPU 為 AI 大模型而生的天然優(yōu)勢架構(gòu),使其在面向 AI 計算場景時,在同等生產(chǎn)制程下相較于 GPU 可以擁有 3-5 倍的性能提升。以中昊芯英歷時近五年全自研的國內(nèi)首枚已量產(chǎn) TPU AI 芯片“剎那®”為例,“剎那®”在處理大規(guī)模 AI 模型運算時與海外知名 GPU 芯片相比,計算性能可以超越其近 1.5 倍,在完成相同計算任務量時的能耗降低 30%,將價格、算力和能耗綜合測算,“剎那®”的單位算力成本僅為其 42%。

    TPU 所引領的架構(gòu)革新,正在重塑全球 AI 算力的競爭格局。在模型復雜度與算力成本雙重攀升的背景下,以 TPU 為代表的專用芯片憑借其在能效、集群性能與總擁有成本上的綜合優(yōu)勢,正逐步成為大規(guī)模 AI 基礎設施的可靠選擇。正是這些多元技術路徑的探索,最終推動算力效率持續(xù)突破,進而為下一代 AI 模型的宏大未來構(gòu)建起堅實而高效的算力基礎。專注于 TPU 技術路線的中昊芯英為本土 AI 產(chǎn)業(yè)市場提供一個經(jīng)過實踐檢驗的高效算力選項。

廣告聯(lián)系:010-82755684 | 010-82755685 手機版:m.pjtime.com官方微博:weibo.com/pjtime官方微信:pjtime
Copyright (C) 2007 by PjTime.com,投影時代網(wǎng) 版權(quán)所有 關于投影時代 | 聯(lián)系我們 | 歡迎來稿 | 網(wǎng)站地圖
返回首頁 網(wǎng)友評論 返回頂部 建議反饋
快速評論
驗證碼: 看不清?點一下
發(fā)表評論