近期,業(yè)內(nèi)動態(tài)顯示,OpenAI在尋求計算資源的多元化布局上邁出了新步伐,其合作網(wǎng)絡(luò)不再局限于長期伙伴微軟,而是積極拓展至甲骨文、CoreWeave等,甚至包括直接競爭對手谷歌。
盡管市場傳聞OpenAI可能與谷歌建立合作關(guān)系,利用谷歌自研的張量處理單元(TPU)來運行或訓(xùn)練其模型,但據(jù)路透社報道,這一合作在近期內(nèi)并未成為現(xiàn)實。OpenAI在周末發(fā)布的聲明中承認,他們正在測試谷歌的TPU技術(shù),但目前尚無大規(guī)模部署的具體計劃。
這一聲明是在《The Information》的一篇報道之后發(fā)出的,該報道指出谷歌已努力說服OpenAI將其工作負載轉(zhuǎn)移至自家的加速器上。此舉被外界視為OpenAI試圖減少對微軟及英偉達依賴的信號,尤其是在薩姆·奧特曼領(lǐng)導(dǎo)的模型構(gòu)建商尋求更多自主權(quán)的背景下。
事實上,OpenAI在硬件堆棧多樣化方面已有多年的探索。盡管起初可能主要依賴英偉達的DGX系統(tǒng),但這一關(guān)系從未排他。GPT系列模型在多種硬件平臺上均有運行,包括微軟自研的Maia加速器。同時,微軟作為OpenAI的主要基礎(chǔ)設(shè)施提供商之一,也是最早采用AMD Instinct MI300系列加速器的企業(yè)之一,這些加速器在運行GPT-4等模型時展現(xiàn)了關(guān)鍵優(yōu)勢。
AMD的加速器以其高內(nèi)存容量和帶寬著稱,這可能使它們在模型服務(wù)方面比英偉達的GPU更具經(jīng)濟性。因此,即使OpenAI與微軟的關(guān)系有所調(diào)整,AMD仍保持著與這家新興AI巨頭的關(guān)鍵合作關(guān)系。上個月,奧特曼在AMD AI推進活動上發(fā)表演講,進一步強調(diào)了雙方的合作。
OpenAI還被曝正在自主研發(fā)AI芯片,以優(yōu)化其訓(xùn)練和推理管道的計算、內(nèi)存、帶寬和網(wǎng)絡(luò)比例。這一舉動表明,OpenAI在追求技術(shù)自主性的道路上越走越遠。
在這樣的背景下,OpenAI測試谷歌自研芯片的想法并不令人意外。畢竟,谷歌的Gemini模型已經(jīng)證明了其架構(gòu)在大規(guī)模訓(xùn)練上的能力。而且,谷歌提供的TPU加速器擁有多種配置,可滿足不同計算、內(nèi)存和可擴展性需求,為OpenAI提供了靈活性。
例如,谷歌第七代Ironwood TPU具有高達4.6 petaFLOPS的密集FP8性能、192GB高帶寬內(nèi)存(HBM)以及1.2TB/s的芯片間帶寬,與英偉達的Blackwell加速器相當(dāng)。這些TPU可以以256芯片或9,216芯片的集群形式存在,甚至可以進一步連接以擴展計算能力。
然而,盡管有這些潛在優(yōu)勢,OpenAI還是決定暫不使用谷歌的TPU。這背后的原因可能包括性能未達到預(yù)期、谷歌無法滿足其需求或每個Token的成本過高等。但更可能的是,OpenAI的軟件堆棧已經(jīng)高度優(yōu)化以適應(yīng)GPU環(huán)境。要將這一軟件調(diào)整到充分利用TPU架構(gòu),需要投入大量時間和資源,且最終可能并不會帶來顯著的性能提升。
正如常言所說,只有親自嘗試才知道山有多高。OpenAI在探索新技術(shù)和合作伙伴的道路上,顯然也在不斷學(xué)習(xí)和調(diào)整策略。