国产又色又爽又刺激在线观看,内射合集对白在线,中文字幕AV一区二区三区人妻少妇,亚洲va韩国va欧美va

深圳市前海金融同業(yè)公會(huì)

返回上一頁(yè) 當(dāng)前位置:
理事動(dòng)態(tài) | 航海日志:AI基礎(chǔ)設(shè)施產(chǎn)業(yè)投資專(zhuān)題研究(一) ——智聯(lián)無(wú)界
發(fā)布時(shí)間:2025-03-14
閱讀:117
一村淞靈專(zhuān)注于早中期投資,致力于構(gòu)建一個(gè)強(qiáng)大的AI生態(tài)朋友圈。AI競(jìng)賽中,無(wú)論是模型或數(shù)據(jù)的優(yōu)化,還是算力的提升,都離不開(kāi)堅(jiān)實(shí)的基礎(chǔ)設(shè)施。本篇文章作為《航海日志》系列的延續(xù),將深入探討AI基礎(chǔ)設(shè)施產(chǎn)業(yè)鏈中的細(xì)分領(lǐng)域——芯片與模組,并針對(duì)AI集群的互聯(lián)部分進(jìn)行研究探索。


在大模型訓(xùn)練過(guò)程中,有一種設(shè)想是當(dāng)模型參數(shù)結(jié)構(gòu)復(fù)雜到一定程度之后,模型突然展現(xiàn)出一些新的、未被明確編程的能力或行為,具有一定的不可預(yù)測(cè)性和非線(xiàn)性特征,我們稱(chēng)之為“智能涌現(xiàn)”。


圖片來(lái)源:GPT4o生成


從Transfomer算法的橫空出世到對(duì)規(guī)模定律(Scaling Law)的執(zhí)念追尋,從模型到算力,從OpenAI到NVIDIA再到DeepSeek,人類(lèi)開(kāi)始了一種前所未有的內(nèi)卷方式去探索這種智能涌現(xiàn)的可能。


2024年12月,DeepSeek V3正式發(fā)布,通過(guò)創(chuàng)新的稀疏混合專(zhuān)家架構(gòu)(Sparse MoE)實(shí)現(xiàn)了參數(shù)規(guī)模與訓(xùn)練成本的突破性平衡。新年伊始,DeepSeek R1的推出則吹響了AI技術(shù)平權(quán)的號(hào)角,開(kāi)辟了AI在有限資源下技術(shù)追趕的新路徑,AI開(kāi)始走進(jìn)千家萬(wàn)戶(hù)。正如杰文斯悖論(Jevons Paradox)中提到的:“技術(shù)進(jìn)步使得資源利用效率提高時(shí),反而可能導(dǎo)致資源的總體消耗增加,而不是減少”。


這輪AI革命的一大特點(diǎn)是算力基礎(chǔ)設(shè)施的升維競(jìng)賽,當(dāng)下從模型到數(shù)據(jù)再到算力的升維周期又一次開(kāi)啟了,當(dāng)行業(yè)目光聚焦于模型算法創(chuàng)新時(shí),支撐智能進(jìn)化的底層硬件網(wǎng)絡(luò)正在醞釀更具確定性的增長(zhǎng)機(jī)遇。其中端側(cè)智能對(duì)于模型、算力的升維標(biāo)準(zhǔn)與迫切需求,催生了通往AGI時(shí)代又一波的非線(xiàn)性增長(zhǎng)機(jī)會(huì)。


本專(zhuān)題將圍繞AI基礎(chǔ)設(shè)施產(chǎn)業(yè)鏈,重點(diǎn)關(guān)注芯片和模組環(huán)節(jié),分別將計(jì)算、存儲(chǔ)和互聯(lián)三個(gè)細(xì)分領(lǐng)域作為研究主旨,本文是該系列的第一篇研究報(bào)告,將著重對(duì)AI集群的互聯(lián)部分進(jìn)行研究探索。

一村淞靈團(tuán)隊(duì)AI基礎(chǔ)設(shè)施投資圖譜



01 集群互聯(lián):重塑千億參數(shù)時(shí)代的底層秩序

規(guī)?;募夯ヂ?lián)對(duì)智能涌現(xiàn)的觸發(fā)具有結(jié)構(gòu)性催化作用,其意義或許不只是單純的算力堆砌,而是通過(guò)網(wǎng)絡(luò)拓?fù)涓锩c信息動(dòng)力學(xué)重構(gòu),為智能的質(zhì)變創(chuàng)造必要條件。因此極致的性能追求是AI數(shù)據(jù)中心的核心目標(biāo),由此產(chǎn)生兩條齊頭并進(jìn)的技術(shù)路徑:Scale-Up(縱向提升服務(wù)器內(nèi)算力卡性能)和Scale-Out(橫向堆疊服務(wù)器的數(shù)量)。摩爾定律的放緩帶來(lái)的芯片工藝的革新難度加大,單個(gè)服務(wù)器算力的提升緩慢而艱難,Scale-Out集群化成為AI數(shù)據(jù)中心算力問(wèn)題的重要解決路徑,由此造就了千卡,萬(wàn)卡集群的數(shù)據(jù)中心。


xAI Colossus數(shù)據(jù)中心計(jì)算大廳

圖片來(lái)源:企業(yè)IT觀(guān)察


大模型訓(xùn)練是基于并行計(jì)算范式,一個(gè)訓(xùn)練任務(wù)是計(jì)算—通信—計(jì)算這種周期性迭代的過(guò)程,所有GPU在一輪計(jì)算迭代后都必須同步參數(shù)和梯度才能進(jìn)行下一輪的計(jì)算。這種情況下,集群中任何一處有網(wǎng)絡(luò)擁塞或者故障都會(huì)影響整體訓(xùn)練的性能,具有很強(qiáng)的木桶短板效應(yīng),追求穩(wěn)定的高性能網(wǎng)絡(luò)互聯(lián)正成為AI集群的最核心訴求。因此,隨著AI集群化趨勢(shì)越來(lái)越明顯,AI基礎(chǔ)設(shè)施建設(shè)逐步進(jìn)入2.0時(shí)代,數(shù)據(jù)中心對(duì)于網(wǎng)絡(luò)端的投入比例也在逐漸增加。


我國(guó)目前在A(yíng)I基礎(chǔ)設(shè)施尤其是芯片領(lǐng)域的關(guān)注還主要集中在算力的國(guó)產(chǎn)替代階段,隨著該領(lǐng)域技術(shù)和產(chǎn)品的逐步完善,AI網(wǎng)絡(luò)端芯片將成為下一個(gè)亟需突破的環(huán)節(jié)。

02 AI服務(wù)器集群拓?fù)浣Y(jié)構(gòu)

在A(yíng)I算力集群中,葉脊架構(gòu)(Leaf-Spine)及其變體(如胖樹(shù)Fat-Tree)正成為主流拓?fù)溥x擇,其核心驅(qū)動(dòng)力源于GPU并行計(jì)算引發(fā)的東西向流量爆炸式增長(zhǎng)。相較于傳統(tǒng)三層架構(gòu)的南北向流量主導(dǎo)模式,葉脊架構(gòu)通過(guò)多路徑、無(wú)阻塞互聯(lián)與分布式路由策略,將數(shù)據(jù)流動(dòng)態(tài)分散至多條鏈路,完美適配AI訓(xùn)練中高頻的跨節(jié)點(diǎn)通信需求(如參數(shù)同步、梯度聚合)。


圖片來(lái)源:Cisco,國(guó)信證券


這種設(shè)計(jì)在保障集群橫向擴(kuò)展(Scale-Out)靈活性的同時(shí),具有以下重要意義:


  • 算力集群的線(xiàn)性增長(zhǎng)。每新增一個(gè)GPU節(jié)點(diǎn),僅需按需擴(kuò)展葉/脊層交換機(jī),無(wú)需重構(gòu)全網(wǎng)拓?fù)?,集群?guī)??蓮陌倏o(wú)縫擴(kuò)展至萬(wàn)卡級(jí)。

  • 通信延遲的保障。通過(guò)自適應(yīng)負(fù)載均衡算法,葉脊架構(gòu)將跨節(jié)點(diǎn)通信延遲方差控制在10%以?xún)?nèi),為萬(wàn)億參數(shù)模型的同步訓(xùn)練提供穩(wěn)定的延遲保障。

  • 故障隔離與彈性冗余。單鏈路或單節(jié)點(diǎn)故障僅影響局部通信路徑,結(jié)合智能重路由協(xié)議,集群可用性可達(dá)99.999%。

03 集群的主要互聯(lián)形態(tài)

目前AI集群的網(wǎng)絡(luò)通信路徑設(shè)計(jì)需在縱向性能(Scale-Up) 與 橫向擴(kuò)展(Scale-Out)間取得平衡,同時(shí)兼顧前端服務(wù)與存儲(chǔ)訪(fǎng)問(wèn)的實(shí)時(shí)性需求。一個(gè)典型的NVIDIA 8卡A100的主機(jī)硬件拓?fù)浼軜?gòu)如下圖所示:


圖片來(lái)源:https://arthurchiao.art

NVIDIA典型8卡A100主機(jī)硬件拓?fù)?/p>


因此,AI集群的互聯(lián)網(wǎng)絡(luò)主要由以下三種形態(tài)構(gòu)成:


(1)前端網(wǎng)絡(luò)負(fù)責(zé)連接傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)、存儲(chǔ)系統(tǒng)等,主要通過(guò)智能網(wǎng)卡進(jìn)行數(shù)據(jù)收發(fā),以光作為傳輸介質(zhì),前端網(wǎng)絡(luò)對(duì)于網(wǎng)卡性能的需求要低于后端網(wǎng)絡(luò),目前100G和200G智能網(wǎng)卡基本上能滿(mǎn)足要求。


(2)在Scale-Up網(wǎng)絡(luò)中,算力卡之間通過(guò)NVIDIA NVLink和NVSwitch進(jìn)行互聯(lián),這種情況下,NVLink4.0雙向速率可以達(dá)到600GB/s,或者通過(guò)PCIe 5.0協(xié)議以及Gen5 Switch進(jìn)行互聯(lián),雙向速率可以達(dá)到128GB/s,連接方式以銅互聯(lián)為主。目前Scale-Up網(wǎng)絡(luò)采用的主要互聯(lián)協(xié)議包括:NVLink、PCIe和CXL(Compute Express Link)。NVLink4.0與PCIe5.0 對(duì)比仍然有著幾倍以上的性能優(yōu)勢(shì),一方面是因?yàn)镹VIDIA的方案中每個(gè)GPU上都包含了不止一條 NVLink,并由NVSwitch提供了GPU的ALL-to-ALL連接,因此在GPU計(jì)算領(lǐng)域,NVLink對(duì)比PCIe的優(yōu)勢(shì)是巨大的,而PICe最大的優(yōu)勢(shì)在于其通用性以及開(kāi)放性的生態(tài)。CXL則是一項(xiàng)基于PCIe物理層技術(shù)的新興協(xié)議,目前尚未大范圍普及。三種協(xié)議的對(duì)比如下:

表格由一村淞靈團(tuán)隊(duì)重新整理


(3)Scale-Out網(wǎng)絡(luò)通過(guò)智能網(wǎng)卡+光互聯(lián)+高性能協(xié)議的三重賦能,實(shí)現(xiàn)算力網(wǎng)絡(luò)的橫向拓展。InfiniBand、RoCE、UEC分別代表了封閉極致、生態(tài)兼容與開(kāi)源靈活的不同路徑。目前主流的Scale-Out網(wǎng)絡(luò)對(duì)于智能網(wǎng)卡的帶寬要求在400G以上,并且主要通過(guò)光傳輸?shù)姆绞竭M(jìn)行組網(wǎng)。


04 集群互聯(lián)中的重要技術(shù)


智能協(xié)同中樞—PCIe Switch

作為AI集群的重要接口協(xié)議,由于PCIe是串行接口,所以一個(gè)PCIe接口只能接一個(gè)PCIe設(shè)備,要想多接幾個(gè)PCIe設(shè)備就需要用到PCIe Switch。PCIe Switch主要作用是在讓節(jié)點(diǎn)的PCIe設(shè)備,包括GPU,CPU,內(nèi)存以及網(wǎng)卡等設(shè)備通過(guò)PCIe協(xié)議進(jìn)行更加高效的互聯(lián)互通。

圖片來(lái)源:NVIDIA官網(wǎng)


目前 PCIe Switch不僅已經(jīng)被廣泛應(yīng)用在了傳統(tǒng)存儲(chǔ)系統(tǒng)中,而且在A(yíng)I服務(wù)器平臺(tái)也逐漸普及,用于提高數(shù)據(jù)傳輸?shù)乃俣?。以NVIDIA的DGX服務(wù)器為例,其需要配備2顆144通道的PCIe Gen5 Switch芯片,用來(lái)連接CPU,GPU以及CX7網(wǎng)卡,每顆PCIe Gen5 Switch芯片價(jià)格是400—450美元之間,PCIe Gen4 Switch芯片價(jià)格大概在200—300美元之間,且長(zhǎng)期處于供不應(yīng)求的狀態(tài)。


目前全球PCle Switch三大供應(yīng)商,博通、微芯和祥碩科技共占有全球約58%的份額。根據(jù)QYResearch的統(tǒng)計(jì)及預(yù)測(cè),2028年全球 PCIe Switch芯片規(guī)模會(huì)達(dá)到18億美元,而我國(guó)在A(yíng)I高端領(lǐng)域的市場(chǎng)占有率近乎為0,國(guó)產(chǎn)替代空間巨大。


信號(hào)的再生引擎—Retimer

無(wú)論是NVlink還是基于PCIe的其他傳輸協(xié)議,傳輸速率的提升是必然的趨勢(shì)。由于目前節(jié)點(diǎn)內(nèi)互聯(lián)主要的傳輸介質(zhì)是銅線(xiàn),而隨著傳輸速率的提升,整個(gè)鏈路的插損也大大增加,對(duì)集群的通信效率影響巨大,因此解決鏈路的插損問(wèn)題尤為重要。


Retimer芯片的核心作用是恢復(fù)信號(hào)質(zhì)量和同步時(shí)序,尤其是在長(zhǎng)距離或高頻率的數(shù)據(jù)傳輸中,它通過(guò)在傳輸鏈路上插入,幫助消除由于信號(hào)衰減、噪聲和抖動(dòng)造成的問(wèn)題,確保信號(hào)在到達(dá)接收端時(shí)依然清晰、可靠。Retimer芯片的關(guān)鍵在于:(1)是否有能力準(zhǔn)確接收到存在插損的信號(hào);(2)是否能夠?qū)⒉鍝p信號(hào)恢復(fù)后再傳輸出去。


圖片來(lái)源:Astera Labs官網(wǎng)

Astera Labs的Retimer芯片


AI服務(wù)器時(shí)代,PCIe Retimer芯片的需求量在不斷增加。在NVIDIA的DGX服務(wù)器中,一張通用基板上部署有8顆GPU芯片,上面的CPU板上放置了2顆CPU芯片。目前,8顆GPU會(huì)配置8顆PCIe Gen5的Retimer芯片,上方CPU節(jié)點(diǎn)也會(huì)配備8顆對(duì)應(yīng)的Retimer芯片,即一臺(tái)主流的DGX AI服務(wù)器大概需要配備16顆Retimer芯片,后續(xù)Scale-Up組網(wǎng)的進(jìn)一步迭代,對(duì)于PCIe Retimer芯片的需求也會(huì)進(jìn)一步增加。此外,有源銅纜從ACC向AEC過(guò)渡,也會(huì)增加Retimer芯片的需求(AEC需要利用Retimer芯片對(duì)電信號(hào)進(jìn)行重新定時(shí)和重新驅(qū)動(dòng))。總體而言,隨著傳輸速率向更高速發(fā)展(如PCIe 6.0、800G/1.6T以太網(wǎng)等),Retimer芯片將成為不可或缺的組件,以應(yīng)對(duì)更高的技術(shù)挑戰(zhàn)。


異構(gòu)算力粘合劑—CXL

AI數(shù)據(jù)中心面臨的一個(gè)核心挑戰(zhàn)是GPU性能與內(nèi)存可擴(kuò)展性之間的差距正在不斷擴(kuò)大,如下圖所示:


圖片來(lái)源:OCP(開(kāi)放計(jì)算項(xiàng)目)技術(shù)研討會(huì)


這一問(wèn)題在大模型訓(xùn)練任務(wù)中尤為突出,因?yàn)檫@類(lèi)任務(wù)對(duì)內(nèi)存的訪(fǎng)問(wèn)頻率和容量提出了更高的要求。隨著模型規(guī)模的持續(xù)增長(zhǎng),GPU的計(jì)算能力迅速提升,但內(nèi)存帶寬和容量卻未能同步擴(kuò)展,導(dǎo)致性能瓶頸日益顯著。這種失衡不僅限制了訓(xùn)練效率,還可能增加硬件成本和能源消耗,進(jìn)一步加劇了數(shù)據(jù)中心的運(yùn)營(yíng)壓力。


CXL協(xié)議就像是計(jì)算機(jī)世界里的“萬(wàn)國(guó)語(yǔ)”一樣,通過(guò)跨機(jī)柜的資源解耦、池化和共享,讓不同的硬件設(shè)備可以高效地進(jìn)行通信和協(xié)作,通過(guò)內(nèi)存池化、設(shè)備共享和低延遲互連,解決數(shù)據(jù)中心面臨的“內(nèi)存墻”和異構(gòu)計(jì)算資源調(diào)度難題。當(dāng)前,CXL 3.0協(xié)議已支持多層級(jí)拓?fù)浜途彺嬉恢滦裕⑻貭?、AMD等芯片巨頭已將其集成至新一代處理器,三星、美光等廠(chǎng)商也推出CXL內(nèi)存擴(kuò)展方案,技術(shù)生態(tài)初具規(guī)模。而制約CXL發(fā)展的主要因素還是生態(tài)系統(tǒng)成熟度不足 盡管英特爾、AMD等巨頭已布局CXL,但全產(chǎn)業(yè)鏈支持仍不均衡。內(nèi)存廠(chǎng)商需開(kāi)發(fā)兼容CXL的擴(kuò)展模塊,軟件生態(tài)尚處于早期階段,應(yīng)用場(chǎng)景的適配和優(yōu)化仍需時(shí)間積累。


隱形算力杠桿—智能網(wǎng)卡(SNIC)

智能網(wǎng)卡的應(yīng)用場(chǎng)景主要是針對(duì)Scale-Out網(wǎng)絡(luò)的橫向擴(kuò)展,目的是為了實(shí)現(xiàn)跨集群的數(shù)據(jù)流動(dòng),采用的協(xié)議包括InfiniBand或RoCE ,應(yīng)用在前端和后端兩個(gè)網(wǎng)絡(luò)中。


前端網(wǎng)絡(luò)主要聚焦于南北向流量,負(fù)責(zé)AI集群與云數(shù)據(jù)中心存儲(chǔ)資源(如分布式文件系統(tǒng)、對(duì)象存儲(chǔ))的對(duì)接。AI服務(wù)器內(nèi)部的CPU負(fù)責(zé)傳輸數(shù)據(jù),同時(shí)每個(gè)CPU都配備自己的智能網(wǎng)卡,一般單個(gè)節(jié)點(diǎn)會(huì)部署2張100-200G以太網(wǎng)存儲(chǔ)網(wǎng)卡(如NVIDIA ConnectX-6),通過(guò)光互聯(lián)進(jìn)行數(shù)據(jù)傳輸。


后端網(wǎng)絡(luò)主要聚焦于東西向流量,實(shí)現(xiàn)節(jié)點(diǎn)內(nèi)網(wǎng)卡與節(jié)點(diǎn)外網(wǎng)卡的通信,網(wǎng)絡(luò)協(xié)議一般是InfiniBand或RoCE,通過(guò)光互聯(lián)進(jìn)行數(shù)據(jù)傳輸,對(duì)于單機(jī)8卡服務(wù)器而言,一般會(huì)配備4張左右的智能網(wǎng)卡,以確保網(wǎng)絡(luò)性能不會(huì)成為瓶頸,DGX100會(huì)配備8張智能網(wǎng)卡,帶寬要求至少在200Gb/s以上。

圖片來(lái)源:https://arthurchiao.art


智能網(wǎng)卡的一項(xiàng)核心技術(shù)是RDMA (Remote Direct Memory Access),是一種高性能網(wǎng)絡(luò)通信技術(shù),能顯著提升數(shù)據(jù)傳輸效率,通過(guò)RDMA遠(yuǎn)程直接地址訪(fǎng)問(wèn),本端GPU/AI芯片可以直接訪(fǎng)問(wèn)遠(yuǎn)端節(jié)點(diǎn)GPU/AI芯片的內(nèi)存,如下圖所示。


圖片來(lái)源:https://developer.aliyun.com/article/603617

目前,AI智能網(wǎng)卡主要由NVIDIA和博通所壟斷,其供應(yīng)給數(shù)據(jù)中心的網(wǎng)卡主流傳輸速度已經(jīng)達(dá)到200G/400G的水平,支持800Gb/s的以太網(wǎng)網(wǎng)卡也已開(kāi)始出貨,國(guó)內(nèi)目前智能網(wǎng)卡能夠達(dá)到量產(chǎn)要求的還集中在100G—200G區(qū)間,且主要是支持前端網(wǎng)絡(luò)。


根據(jù)IDC和Dell‘Oro Group預(yù)測(cè),2027年國(guó)內(nèi)服務(wù)器出貨量預(yù)計(jì)達(dá)到560萬(wàn)臺(tái),其中AI服務(wù)器大約為65萬(wàn)臺(tái)。結(jié)合這個(gè)數(shù)據(jù),根據(jù)AI服務(wù)器的標(biāo)準(zhǔn)配置方案,每臺(tái)AI服務(wù)器配置4-10張網(wǎng)卡,預(yù)計(jì)國(guó)內(nèi)AI網(wǎng)卡的市場(chǎng)規(guī)模在100—150億人民幣左右,是除了GPU計(jì)算芯片外,AI服務(wù)器中價(jià)值量第二高的芯片類(lèi)別。

05 集群互聯(lián)中的主要傳輸介質(zhì)


光傳輸

目前數(shù)據(jù)中心不論是InfiniBand以及以太網(wǎng)組網(wǎng),機(jī)架之間互聯(lián)存在光纖和銅互聯(lián)兩種方式,其中,機(jī)架內(nèi)短距離優(yōu)先使用銅纜,而在中遠(yuǎn)距離則采用光纖+光模塊方案,總體而言約超過(guò)75%的連接方式以光為主,主要得益于其能支撐更高的通信速率以及更遠(yuǎn)的傳輸距離。

資料來(lái)源:NVIDIA官網(wǎng),SemiAnalysis,華泰研究


目前主流的AI服務(wù)器組網(wǎng)按照葉脊架構(gòu),如果Scale-Up和Scale-Out的集群組網(wǎng)模式繼續(xù)拓展,則高速光模塊的需求也將進(jìn)一步增加。以NVIDIA為例,早期NVIDIA H100 AI服務(wù)器組網(wǎng),GPU芯片和800G光模塊的比例僅僅約為1:2.5,而通過(guò)NVIDIA GH200服務(wù)器進(jìn)行組網(wǎng),GPU芯片與800G光模塊的比例會(huì)將達(dá)到1:9以上。


資料來(lái)源:華泰研究

  • 硅光

硅光芯片硅光在高速、高集成、低功耗三方面具有理論上的巨大優(yōu)勢(shì)。在高集成度層面,工藝一旦成熟,成本能夠快速下降,并且在寸土寸金的AI服務(wù)器中占據(jù)的空間資源很少,可以有效適配CPO技術(shù);另一方面是以InP為代表的傳統(tǒng)光芯片在100G速率以后難以進(jìn)一步進(jìn)行演化(功耗、尺寸、成本之間非常難平衡),而硅光芯片能夠從容應(yīng)對(duì)高速率與多通道挑戰(zhàn),得益于其在硅基平臺(tái)上實(shí)現(xiàn)的大規(guī)模集成,使得成本不會(huì)隨通道數(shù)和傳輸速率的提升而顯著增加,因此在A(yíng)I時(shí)代具備天然競(jìng)爭(zhēng)優(yōu)勢(shì)。


資料來(lái)源:中科院微電子研究所,徐芳露等《硅光芯片-后摩爾時(shí)代的高速信息引擎》


目前硅光的100G方案已經(jīng)很成功,但是總體市占率并不高,在800G以下的硅光還不足以和傳統(tǒng)光芯片拉開(kāi)差距,再加上硅光的技術(shù)和工藝也持續(xù)要改善,成本并未顯示出優(yōu)勢(shì),所以當(dāng)前800G以下硅光的市場(chǎng)份額大概在20%左右。但是1.6T(2025年預(yù)計(jì)有400萬(wàn)的需求量)以上速率則會(huì)大規(guī)模取代傳統(tǒng)方案,有一個(gè)較大的增長(zhǎng)空間。其后續(xù)的一個(gè)重要的增長(zhǎng)邏輯是:硅光方案可以在性能不斷提升的情況下,成本不會(huì)有太大的增長(zhǎng),參照摩爾定律的發(fā)展軌跡,將來(lái)可以實(shí)現(xiàn)更高速率,但是成本又可控。


  • 薄膜鈮酸鋰

電光調(diào)制器是高速光模塊的核心器件,其電光調(diào)制速率決定了光模塊的數(shù)據(jù)傳輸速率,目前主要可分為:硅光調(diào)制器、磷化銦、鈮酸鋰調(diào)制器三類(lèi)。


在1.6T層面,目前硅光有兩種方案可以實(shí)現(xiàn),第一種是單100G用16個(gè)通道去做,第二種是200G用8個(gè)通道去做,這也意味著單通道的速率從原來(lái)單波100G提到200G,但該方案難度大。因?yàn)楣璞旧聿牧嫌邢拗?,?dǎo)致高頻響應(yīng)帶寬不是特別好,導(dǎo)致很難突破單波200G,這也是硅光路線(xiàn)繼續(xù)往更高速率上做的一個(gè)主要問(wèn)題。


薄膜鈮酸鋰可實(shí)現(xiàn)超快電光效應(yīng)和高集成度光波導(dǎo),具有大帶寬、低功耗、低損耗、小尺寸等優(yōu)異特性,并可實(shí)現(xiàn)大尺寸晶圓規(guī)模制造,是非常理想的電光調(diào)制器材料,其調(diào)制速率的極限可以達(dá)到400G,因此在更高速率的需求下有較大的應(yīng)用價(jià)值。


目前限制薄膜鈮酸鋰調(diào)制器應(yīng)用的一直重要原因是其加工工藝難度較高(鈮酸鋰薄膜相對(duì)較硬,組成特殊,難以刻蝕),需要通過(guò)重資產(chǎn)的IDM模式重新打通各個(gè)制造環(huán)節(jié),并且鈮酸鋰材料本身的成本較高,導(dǎo)致目前的商業(yè)化進(jìn)度相對(duì)較低,目前主要的應(yīng)用集中在軍工等領(lǐng)域?,F(xiàn)在已經(jīng)有一些大廠(chǎng)已經(jīng)開(kāi)始堅(jiān)定的推行薄膜鈮酸鋰方案路線(xiàn)了,例如Arista等公司,一旦數(shù)據(jù)中心對(duì)于通訊速率的需求達(dá)到1.6T以上,我們相信薄膜鈮酸鋰的落地進(jìn)程一定會(huì)加快。


總體而言,我們認(rèn)為在800G的DR8層面,傳統(tǒng)InP方案下的EML還會(huì)是主流并且不會(huì)被硅光方案取代。但在800G的FR4以及1.6T的DR8方案以及再往上的速率,EML方案的市場(chǎng)空間將會(huì)不斷被壓縮。未來(lái)的高速光模塊市場(chǎng)的很有可能是硅光和薄膜鈮酸鋰的天下。


  • 光IO

過(guò)往芯片之間的銅互連技術(shù)長(zhǎng)期依賴(lài)TSV(硅通孔)等先進(jìn)封裝工藝實(shí)現(xiàn)高密度布線(xiàn),但隨著AI 2.0時(shí)代對(duì)數(shù)據(jù)中心提出更高要求:數(shù)據(jù)吞吐量呈指數(shù)級(jí)增長(zhǎng)、單芯片算力需求激增且功耗嚴(yán)格受限、異構(gòu)計(jì)算架構(gòu)推動(dòng)計(jì)算資源解耦,這種情況下傳統(tǒng)電互連方式逐漸暴露出瓶頸,需要高性能的光IO來(lái)應(yīng)對(duì)這些問(wèn)題。


在IEDM 2024大會(huì)上,NVIDIA介紹了對(duì)未來(lái)人工智能加速器的設(shè)計(jì),其計(jì)劃引入硅光子技術(shù),作為IO器件。需要12個(gè)硅光子IO器件來(lái)實(shí)現(xiàn)芯片內(nèi)和芯片間的連接,每個(gè)GPU模塊有三個(gè)連接,每層有四個(gè)GPU模塊,每個(gè)GPU模塊與六個(gè)DRAM內(nèi)存模塊垂直連接。

資料來(lái)源:IEDM 2024


Ayar Labs的研究數(shù)據(jù)顯示,GPU集群規(guī)模擴(kuò)大會(huì)導(dǎo)致顯著的規(guī)模不經(jīng)濟(jì)效應(yīng):?jiǎn)蜧PU芯片的運(yùn)算效率約為80%,但當(dāng)集群規(guī)模增至64顆GPU時(shí)效率驟降至50%,而256顆GPU的協(xié)同效率甚至可能跌至30%。這種效率衰減主要源于傳統(tǒng)電互連的帶寬瓶頸與信號(hào)延遲,尤其在數(shù)據(jù)密集型AI訓(xùn)練場(chǎng)景中,跨節(jié)點(diǎn)通信開(kāi)銷(xiāo)會(huì)吞噬大量算力資源。光IO方案相比傳統(tǒng)互連可實(shí)現(xiàn)約5-10倍的更高帶寬、4-8倍的能效,并將延遲降低至1/10。這樣一來(lái),集群規(guī)模的拓展在經(jīng)濟(jì)性和效率上都將有很大的提升。

資料來(lái)源:Ayar Labs


正是由于光IO對(duì)于A(yíng)I數(shù)據(jù)中心集群能效影響巨大,目前NVIDIA,英特爾,三星以及Marvell等巨頭都在積極推進(jìn)光IO的產(chǎn)業(yè)化進(jìn)程,我國(guó)也有一些創(chuàng)業(yè)公司開(kāi)始進(jìn)行技術(shù)和商業(yè)化探索,但我們預(yù)計(jì)光IO的商業(yè)化速度不會(huì)一蹴而就,還需要解決工藝、成本以及供應(yīng)鏈成熟度等問(wèn)題,后續(xù)落地進(jìn)度預(yù)計(jì)會(huì)在2026年之后。


銅傳輸

在2024年NVIDIA GTC大會(huì)上,其推出的GB200超級(jí)芯片與NVL72機(jī)柜引發(fā)了業(yè)界對(duì)高速銅互聯(lián)技術(shù)的廣泛關(guān)注。不同于傳統(tǒng)光互聯(lián)方案,此次NVIDIA通過(guò)多節(jié)點(diǎn)高速銅纜互聯(lián)構(gòu)建了“類(lèi)超級(jí)GPU”架構(gòu),將多個(gè)GPU芯片通過(guò)高密度銅纜互聯(lián)形成統(tǒng)一的計(jì)算單元,顯著提升了集群內(nèi)節(jié)點(diǎn)間的帶寬與能效比。當(dāng)前,高速銅連接技術(shù)在A(yíng)I數(shù)據(jù)中心中的應(yīng)用主要集中在以下三個(gè)場(chǎng)景: 


  • 背板級(jí)互聯(lián):通過(guò)高密度銅纜實(shí)現(xiàn)同一機(jī)柜內(nèi)多GPU的互聯(lián),帶寬可達(dá)500GB/s以上,滿(mǎn)足千卡級(jí)訓(xùn)練的實(shí)時(shí)同步需求。

  • 外部I/O擴(kuò)展:借助銅纜的靈活性與低成本優(yōu)勢(shì),為GPU集群提供高速訪(fǎng)問(wèn)外部存儲(chǔ)與網(wǎng)絡(luò)的接口,平衡了性能與部署復(fù)雜度。

  • 近芯片級(jí)集成:在芯片封裝層面,銅纜直接連接GPU與協(xié)處理器,實(shí)現(xiàn)微秒級(jí)延遲的近場(chǎng)通信,支撐存算一體架構(gòu)的實(shí)時(shí)數(shù)據(jù)處理。

資料來(lái)源:華泰研究


在A(yíng)I數(shù)據(jù)中心場(chǎng)景中,銅互聯(lián)技術(shù)雖憑借低成本與易部署特性廣泛應(yīng)用于短距互聯(lián),但其固有物理限制仍是核心挑戰(zhàn):傳輸速率與傳輸距離呈負(fù)相關(guān)(速率越高,信號(hào)衰減越嚴(yán)重),典型瓶頸表現(xiàn)為100G PAM4銅纜有效傳輸距離不超過(guò)15米。這一特性決定了銅互聯(lián)主要適配短距場(chǎng)景。目前銅互連有以下三種方案:


  • DAC(Direct Attach Copper),也稱(chēng)為直連電纜,由鍍銀銅導(dǎo)線(xiàn)和泡沫絕緣芯線(xiàn)制成的高速電纜組成,其不可更換的一體化設(shè)計(jì)雖犧牲了靈活性,卻換取了極致的信號(hào)完整性,使其在A(yíng)I數(shù)據(jù)中心短距互聯(lián)中應(yīng)用廣泛。


  • ACC(Active Copper Cable),有源銅線(xiàn)是一種有源銅線(xiàn),它利用Redriver芯片架構(gòu),并采用CTLE均衡來(lái)調(diào)整Rx端的增益。本質(zhì)上,它的作用是作為一根有源電纜放大模擬信號(hào)。


  • AEC(Active Electrical Cable),AEC有源電纜代表了有源銅線(xiàn)電纜的一種更具創(chuàng)新性的方法。它利用了Retimer芯片架構(gòu),該架構(gòu)不僅放大和均衡Tx和Rx端子,而且重塑Rx端子處的信號(hào)。AEC retimer目前主要是8通道50G的方案。


AI訓(xùn)練及推理對(duì)網(wǎng)絡(luò)速率的需求不斷提高,從400G向800G過(guò)渡的過(guò)程,DAC的傳輸距離越來(lái)越小,已經(jīng)不能滿(mǎn)足需求,AEC在性能方面的優(yōu)勢(shì)便逐漸嶄露頭角(可以實(shí)現(xiàn)7米以?xún)?nèi)的布線(xiàn)),性能比ACC要更好,隨著224G PAM6與Chiplet技術(shù)的成熟,AEC有望成為下一代算力集群的“血管級(jí)”互聯(lián)技術(shù)。


06 結(jié)語(yǔ)

互聯(lián)技術(shù)是AI算力革命的“隱形引擎”,其本質(zhì)是通過(guò)物理層、協(xié)議層與調(diào)度層的協(xié)同進(jìn)化,將摩爾定律的單點(diǎn)算力增長(zhǎng)升維至全局算力共振,從這個(gè)邏輯上講,在通往AGI的道路上,誰(shuí)掌握了互聯(lián)技術(shù)的制高點(diǎn),誰(shuí)就擁有了一把打開(kāi)智能時(shí)代算力開(kāi)關(guān)的鑰匙。


智能涌現(xiàn)的探索是一條漫長(zhǎng)之路,在transformer體系可預(yù)見(jiàn)的將來(lái),模型優(yōu)化和算力堆疊還將繼續(xù)重復(fù)往返的內(nèi)卷下去,但我們也會(huì)時(shí)刻關(guān)注可能顛覆transformer的全新架構(gòu)體系,因此對(duì)于A(yíng)I基礎(chǔ)設(shè)施的兼容性與拓展性也提出了新的課題與挑戰(zhàn),淞靈團(tuán)隊(duì)將繼續(xù)圍繞AI產(chǎn)業(yè)鏈展開(kāi)一系列研究,深刻關(guān)注這其中發(fā)生那每一次技術(shù)進(jìn)步和變革。


來(lái)源:istock


References:
1、https://docs.nvidia.com/dgx/dgxh100-user-guide/introduction-to-dgxh100.html#hardware-overview

2、https://arthurchiao.art

3、https://www.asteralabs.com

4、https://blocksandfiles.com/2025/01/13/panmnesia-gpu-cxl-memory-expansion/.

5、Dagley, Rick. "Gartner 2024 IT IOCS Highlights: Equipping IT I&O Leaders for an AI Future." ITPro Today, December 30, 2024

6、Raguraman Sundaram, Celestica. "Ethernet in the Age of AI: Adapting to New Networking Challenges." YouTube, November 19, 2024.

7、公眾號(hào):Andy730

8、公眾號(hào):信息平權(quán)


關(guān)于一村淞靈

一村淞靈是一村資本位于深圳的全資子公司,專(zhuān)注AI早中期投資,打造淞靈AI生態(tài)朋友圈。


關(guān)于深圳一村淞靈私募創(chuàng)業(yè)投資基金管理有限公司(簡(jiǎn)稱(chēng)“一村淞靈”或“公司”)一村淞靈成立于2013年,是一家位于深圳的長(zhǎng)期聚焦人工智能、數(shù)字經(jīng)濟(jì)的私募股權(quán)投資管理機(jī)構(gòu)。自成立以來(lái),以其深植產(chǎn)業(yè)的投資邏輯、成熟專(zhuān)業(yè)的投資能力,公司先后發(fā)起并受托管理了國(guó)家科技部、國(guó)家發(fā)改委、深圳市引導(dǎo)基金、青島市經(jīng)信委、深圳市天使引導(dǎo)基金、前海引導(dǎo)基金等多支政府參股基金,在管資產(chǎn)規(guī)模達(dá)20億元。


通過(guò)踐行產(chǎn)融結(jié)合的投資策略和管理模式,經(jīng)典案例包括:生命科學(xué)智造企業(yè)華大智造、醫(yī)藥數(shù)字化平臺(tái)“藥師幫”、光電半導(dǎo)體企業(yè)“縱慧芯光”、全球領(lǐng)先的AI視覺(jué)服務(wù)商“視比特機(jī)器人”、全棧式3D視覺(jué)解決方案提供商“光鑒科技”、致力于顛覆式創(chuàng)新的AI芯片設(shè)計(jì)商“墨芯科技”、專(zhuān)注于云計(jì)算和數(shù)據(jù)中心數(shù)據(jù)處理器芯片(DPU)和解決方案的領(lǐng)先半導(dǎo)體公司“云豹智能”。

來(lái)源:一村資本