![]() 香港飛龍.online 官方授權發布的第4代「香港飛龍」標誌 本文内容: 如果您希望可以時常見面,歡迎標星收藏哦~來源:內容編譯自google,謝謝。今天,在GoogleCloudNext25大會上,谷歌隆重推出第七代張量處理單元(TPU)Ironwood。它是我們迄今爲止性能最高、可擴展性最強的定製AI加速器,也是首款專爲推理而設計的加速器。十多年來,TPU一直爲Google最苛刻的AI訓練和服務工作負載提供支持,並助力公司的雲客戶實現同樣的目標。Ironwood是谷歌迄今爲止性能最強大、性能最強、能效最高的TPU。它專爲大規模支持思考和推理AI模型而設計。Ironwood代表着人工智能及其發展基礎設施的重大轉變。它代表着從提供實時信息供人類解讀的響應式人工智能模型,到能夠主動生成洞察和解讀的模型的轉變。這就是我們所說的“推理時代”,屆時人工智能代理將主動檢索和生成數據,以協作方式提供洞察和答案,而不僅僅是數據。Ironwood旨在支持生成式人工智能的下一階段發展及其巨大的計算和通信需求。它可擴展至9216個液冷芯片,並通過突破性的芯片間互聯(ICI:Inter-ChipInterconnect)網絡連接,功率接近10兆瓦。它是GoogleCloudAI超級計算機架構的幾個新組件之一,該架構可協同優化硬件和軟件,以應對最苛刻的人工智能工作負載。藉助Ironwood,開發者還可以利用Google自己的Pathways軟件堆棧,可靠、輕鬆地利用數萬個IronwoodTPU的綜合計算能力。下面我們將詳細介紹這些創新如何協同工作,以無與倫比的性能、成本和功率效率承擔最苛刻的培訓和服務工作負載。Ironwood的主要特點GoogleCloud是唯一一家擁有十多年AI計算經驗的超大規模提供商,致力於支持尖端研究,並將其無縫集成到Gmail、搜索等數十億用戶的日常服務中。所有這些專業知識構成了Ironwood的核心功能。其主要功能包括:1.性能顯著提升的同時,更注重能效,使AI工作負載能夠更經濟高效地運行。Ironwood的每瓦性能是公司去年發佈的第六代TPUTrillium的兩倍。在可用功率成爲AI功能交付制約因素之一的當下,谷歌爲客戶工作負載提供了顯著更高的每瓦容量。谷歌先進的液冷解決方案和優化的芯片設計,即使在持續繁重的AI工作負載下,也能可靠地維持高達標準風冷兩倍的性能。事實上,Ironwood的能效幾乎是我2018年推出的首款雲TPU的30倍。2.高帶寬內存(HBM)容量大幅提升。Ironwood每芯片容量高達192GB,是Trillium的6倍,能夠處理更大的模型和數據集,減少頻繁數據傳輸的需求,並提升性能。3.顯著提升HBM帶寬,單芯片高達7.2TBps,是Trillium的4.5倍。如此高的帶寬確保了快速的數據訪問,這對於現代AI中常見的內存密集型工作負載至關重要。4.增強芯片間互連(ICI)帶寬。雙向帶寬提升至1.2Tbps,是Trillium的1.5倍,從而實現更快的芯片間通信,促進大規模高效分佈式訓練和推理。據nextplatform介紹,TPUv7p芯片是谷歌首款在其張量核心和矩陣數學單元中支持FP8計算的TPU。之前的TPU支持INT8格式和推理處理,以及BF16格式和訓練處理。Ironwood芯片還配備了第三代SparseCore加速器,該加速器首次亮相於TPUv5p,並在去年的Trillium芯片中得到了增強。SparseCore芯片最初的設計目的是加速推薦模型,這些模型利用嵌入來跨用戶類別進行推薦。Ironwood芯片中的第三代SparseCore芯片中編碼了各種算法,以加速金融和科學計算,但具體細節尚未透露。從圖中我們可以看到,Ironwood封裝的中心有兩個芯片組,這讓我們相信它不像之前的TPU那樣是單片式的。在我們看來,這些芯片的組合看起來比標線極限要大一些。它有8個HBM內存組,每側4個,如果今年出貨,估計是HBM3E。這意味着每個堆棧有8個DRAM單元,每個3GB,總共24GB。IronWord封裝包含一箇位於計算芯片上方的中央芯片組,以及位於內存條上方沿頂部邊緣的另外兩個芯片組。這些無疑是用於芯片間互連(ICI)的I/O芯片,谷歌利用ICI將TPU芯片電連接到各個Pod。更大的TPU聚合體則通過谷歌的“Jupiter”光路交換機進一步連接在一起。IronWord的外觀如下:與之前的TPU設計一樣,系統板上有四個IronwoodTPU。我們正在努力弄清楚主板上所有這些芯片的具體結構。我們覺得TPU系統板插在背板上,主機服務器中可能有兩個這樣的TPU,主機CPU也可能是其中之一,而主機CPU目前可能是谷歌自己的AxionArm服務器CPU。Pod中有一些網絡接口用於連接TPU。IronwoodTPU有兩種不同的配置:一種是適用於推理的256個計算引擎的Pod,另一種是適用於訓練的9,216個計算引擎的Pod。(如果您的推理任務非常龐大,我們認爲它可以在更大的Pod上運行。)TPUPod採用2D或3D環面拓撲結構的ICI,具體取決於規模。以下是前兩代採用更具可擴展性的3D環面拓撲結構的TPUPod以及即將推出的IronwoodPod的外觀:IronwoodTPUv7p的pod尺寸比上一代TPUv5ppod增加了2.85%,雖然不算多,但還是值得一試。在相同的BF16分辨率下,TPUv7p芯片的AI訓練性能比TPUv5p提升了5倍,使用INT8或FP8數據類型的推理性能也同樣提升。(我們不確定是否存在INT8數據類型,但出於向下兼容的考慮,我們推測應該存在。)對於AI訓練而言,FP8數據類型可將訓練吞吐量翻倍,因此比TPUv5p中使用的BF16提高了10倍。Ironwood封裝的HBM內存容量提高了2倍,內存帶寬也提高了2.7倍。新芯片上的ICI互連帶寬提高了12%,鏈路減少了三分之一,其中TPUv7p有四個ICI鏈路,運行速度爲1.34Tb/秒,TPUv5p有六個端口,運行速度爲800Gb/秒。以下是我們整理的更完整的TPU顯著特性表,我們盡力填補了空白:如上圖所示,我們已盡力估算缺失數據,這些數據以紅色粗斜體顯示。我們還查閱了TPU手冊,並儘可能更新了TrilliumTPUv6e的數據。順便說一句,谷歌正在與Trillium進行大量比較,Trillium在AI推理方面表現不錯,但如果要比較AI訓練,那麼TPUv5p是更佳的基準。於AI訓練而言,以下幾點至關重要。搭載8960個計算引擎的TPUv5ppod在INT8分辨率下推理性能最高可達8.22exaflops,在BF16分辨率下訓練性能最高可達4.11exaflops(僅爲其一半)。最大的Ironwoodpod擁有9216個計算引擎,在FP8(可能也包括INT8)下性能最高可達42.52exaflops,在BF16分辨率下訓練性能最高可達21.26exaflops。這意味着單個系統鏡像的性能提升了5.17倍。通過OCS切換,谷歌可以在單個數據中心內整合10萬個TPUv7p計算引擎,就像它已經在TrilliumTPUv6e設備上所做的那樣。我們不知道谷歌會如何定價Ironwood的容量。不過,我們肯定會盡快通知您。以上價格和相對性價比是去年夏天的。谷歌喜歡將其與TPUv2進行比較,後者是其首款能夠同時進行訓練和推理的自主研發AI引擎,早在2017年5月就已發佈。基於TPUv2的計算能力在當年第三季度即可出租。當然,谷歌本身並不出售TPU或基於TPU的系統,也不允許第三方出售。性能提升3600倍,每瓦性能提升29.3倍,這看起來令人印象深刻,而且在耗電10兆瓦的Ironwood大型機上實現如此高的性能似乎也情有可原。但我們需要做一些研究,才能弄清楚它與Nvidia系統相比如何。(這取決於你如何稱呼加速器內存域。)我們很想知道Google安裝了多少TPU容量,Trillium和Ironwood的安裝計劃是什麼,以及分配給Google內部使用和雲用戶使用的TPU容量各佔多少。Ironwood,助力推理時代據谷歌所說,Ironwood旨在優雅地管理“思維模型”的複雜計算和通信需求,這些模型涵蓋大型語言模型(LLM)、混合專家模型(MoE)和高級推理任務。這些模型需要大規模並行處理和高效的內存訪問。具體而言,Ironwood旨在在執行大規模張量操作的同時最大限度地減少芯片上的數據移動和延遲。在前沿領域,思維模型的計算需求遠遠超出了任何單個芯片的容量。我們設計了具有低延遲、高帶寬ICI網絡的IronwoodTPU,以支持全TPUPod規模的協調同步通信。對於GoogleCloud客戶,Ironwood根據AI工作負載需求提供兩種尺寸:256芯片配置和9,216芯片配置。當每個pod擴展至9,216塊芯片,總計算能力達42.5百億億次浮點運算(Exaflops)時,Ironwood支持的計算能力是全球最大超級計算機ElCapitan的24倍以上,而後者每個pod的計算能力僅爲1.7百億億次浮點運算(Exaflops)。Ironwood可提供處理最苛刻的AI工作負載所需的強大並行處理能力,例如超大規模密集LLM或具有訓練和推理思維能力的MoE模型。每個芯片的峯值計算能力可達4,614TFLOPs。這代表着AI能力的巨大飛躍。Ironwood的內存和網絡架構確保始終提供正確的數據,以支持如此大規模的峯值性能。Ironwood還配備了增強版SparseCore,這是一款專用加速器,用於處理高級排名和推薦工作負載中常見的超大嵌入。Ironwood中擴展的SparseCore支持可以加速更廣泛的工作負載,包括從傳統的AI領域擴展到金融和科學領域。Pathways是Google自有的機器學習運行時,由GoogleDeepMind開發,能夠跨多箇TPU芯片實現高效的分佈式計算。GoogleCloud上的Pathways讓超越單個IronwoodPod的遷移變得簡單,能夠將數十萬個Ironwood芯片組合在一起,從而快速推進新一代人工智能計算的前沿技術。“Ironwood代表着推理時代的獨特突破,它提升了計算能力、內存容量、ICI網絡的進步和可靠性。這些突破,加上近兩倍的能效提升,意味着我們最苛刻的客戶能夠以最高的性能和最低的延遲完成訓練和服務工作負載,同時滿足計算需求的指數級增長。Gemini2.5和諾貝爾獎得主AlphaFold等領先的思維模型如今都在TPU上運行。我們迫不及待地想看到Ironwood在今年晚些時候正式發佈後,由我們的開發者和GoogleCloud客戶帶來哪些AI突破。”谷歌總結說。https://blog.google/products/google-cloud/ironwood-tpu-age-of-inference/https://www.nextplatform.com/2025/04/09/with-ironwood-tpu-google-pushes-the-ai-accelerator-to-the-floor/半導體精品公衆號推薦專注半導體領域更多原創內容關注全球半導體產業動向與趨勢*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅爲了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯繫半導體行業觀察。今天是《半導體行業觀察》爲您分享的第4090期內容,歡迎關注。『半導體第一垂直媒體』實時專業原創深度公衆號ID:icbank喜歡我們的內容就點“在看”分享給小夥伴哦 (本文内容不代表本站观点。) --------------------------------- |