PAC 2025:在算力風暴中淬煉的國產(chǎn)力量

來源:投影時代 更新日期:2025-12-01 作者:佚名

    2025年的夏天雖已遠去,然而PAC 2025的熱血余溫未散:算力的涌動、屏幕的閃爍、代碼的狂奔……那份拼搏與激情,仿佛仍在空氣中熾烈燃燒,未曾褪色。

    頂尖戰(zhàn)隊齊聚第21屆CCF HPC China 2025的PAC決賽現(xiàn)場,展開正面交鋒,將激情與實力盡數(shù)傾注 “優(yōu)化” 與 “應(yīng)用” 兩大賽道,現(xiàn)場氛圍燃至頂峰。

    賽場的熱度,不止是代碼奔涌時的風扇轟鳴,更是年輕人拼盡全力時的心跳共振。正是這股激情與執(zhí)著,凝聚成推動國產(chǎn)計算駛向未來的核心動力。終場哨響,PAC2025并行應(yīng)用挑戰(zhàn)賽圓滿收官。

鯤鵬撐腰,滿格開戰(zhàn)

    本屆大賽全面采用鯤鵬計算平臺作為核心硬件底座。以ARM架構(gòu)為技術(shù)核心,其集成的眾核架構(gòu)、向量/矩陣擴展、片上內(nèi)存高帶寬等硬件特性,成為參賽團隊挖掘極致性能的核心載體,也標志著國產(chǎn)CPU平臺正式成為高性能計算技術(shù)探索的關(guān)鍵陣地。

    技術(shù)亮點回顧“硬件-軟件-應(yīng)用”的全棧突破

    硬件架構(gòu)特性的深度挖掘:以鯤鵬 ARM 為核心,釋放國產(chǎn) CPU 潛力

    ARM 技術(shù)的規(guī);瘧(yīng)用:特等獎獲得者清華大學深圳國際研究生院團隊(簡稱清華團隊)充分發(fā)揮矩陣運算可伸縮向量擴展的優(yōu)勢,通過循環(huán)重排與數(shù)據(jù)預(yù)取優(yōu)化GEMM與HPCG性能,最大化鯤鵬CPU的向量計算吞吐。在INT8低精度計算與Attention算子這一核心挑戰(zhàn)上,清華、浙大、山大團隊均依托鯤鵬平臺的矩陣算力,實現(xiàn)了“向量→矩陣”的計算單元升級。例如,清華團隊利用矩陣運算單指令完成 Tile 級乘加,大幅降低指令數(shù)量與寄存器壓力;浙江大學團隊則驗證“矩陣運算+片上內(nèi)存”組合的優(yōu)勢,將鯤鵬CPU的帶寬與矩陣吞吐拉至接近GPU量級,減少CPU與加速器的數(shù)據(jù)搬運延遲。

    鯤鵬硬件優(yōu)勢的協(xié)同驗證:山東大學團隊在應(yīng)用賽道中,基于鯤鵬新一代CPU的多核并行與高帶寬優(yōu)勢,實現(xiàn)了 20 億原子體系的分子動力學模擬。在弱擴展8倍、強擴展 4 倍的條件下仍保持80%并行效率,直接證明了國產(chǎn)CPU在超大規(guī)模科學計算中的端到端性能,已具備與GPU相當?shù)母偁幜Α?/P>

PAC2025上機現(xiàn)場

    軟件優(yōu)化創(chuàng)新:硬件特性與軟件策略的深度協(xié)同

    精細化內(nèi)存與計算調(diào)度:清華團隊采用二維 Tiling 策略,浙江大學團隊針對K維度切分以充分利用HPC緩存,均將關(guān)鍵數(shù)據(jù)留駐L1/L2緩存,減少對內(nèi)存帶寬的依賴,適配鯤鵬的緩存架構(gòu)設(shè)計。此外,清華基于 Pthreads 自建線程池,規(guī)避操作系統(tǒng)調(diào)度開銷,實現(xiàn)鯤鵬多核間的任務(wù)均衡分配,并行效率較傳統(tǒng)方案提升顯著。

    精度與性能的平衡優(yōu)化:針對混合精度計算需求,浙大提出“fp32保存中間變量 + svzip 轉(zhuǎn)化為 fp16”的方法,避免了純 fp16 的指數(shù)溢出問題;山大則提出“全流程混合精度向量化”,并自研 ARM 向量化超越函數(shù)庫,進一步適配鯤鵬平臺的指令集特性,在保證計算正確性的前提下,效率提升 20%-30%。

    算子級優(yōu)化突破:山東大學團隊在優(yōu)化賽道中,針對 INT8GEMM 與 Attention 算子提出“數(shù)值擴展+算子融合”全棧方案——基于SVSUMOPA/SVMOPA指令實現(xiàn)2路/4路矩陣外積乘法,結(jié)合FlashAttention融合策略,減少中間結(jié)果訪存開銷與線程競爭,使大Batch訓(xùn)練與大模型推理的穩(wěn)定性提升40%以上,為鯤鵬平臺的AI算子庫建設(shè)提供直接技術(shù)參考。

PAC2025答辯現(xiàn)場

    應(yīng)用落地突破:覆蓋 AI 與科學計算的多領(lǐng)域驗證

    AI 計算:清華團隊的矩陣運算加速與山大的算子融合成果,可直接應(yīng)用于鯤鵬生態(tài)的 AI 芯片與 CPU,為大模型推理(如語音識別、視覺計算)與中小規(guī)模訓(xùn)練提供高性能算子支撐,有效解決國產(chǎn)平臺“AI計算性能不足”的核心痛點。

    科學計算:清華團隊的 HPCG 優(yōu)化與山大的分子動力學模擬,驗證了鯤鵬平臺在氣象、天文、流體力學、藥物研發(fā)等領(lǐng)域的適用性——如山東大學團隊的成果可直接復(fù)用至新能源材料設(shè)計與復(fù)雜流體計算,為國產(chǎn)高性能計算的行業(yè)落地提供技術(shù)范本。

PAC的意義:從賽場到未來

    PAC大賽的成果不是單點的創(chuàng)新打法,而是真正能走出賽場、落到產(chǎn)業(yè)的技術(shù)。無論是算子優(yōu)化,還是大規(guī)?茖W計算模擬,都已具備直接賦能科研與產(chǎn)業(yè)的潛力。

    PAC 2025的意義,在于夯實國產(chǎn)算力生態(tài),讓以鯤鵬為核心的國產(chǎn) CPU 走向成熟,打破“高性能依賴國外架構(gòu)”的偏見;在于推動“硬件—軟件—應(yīng)用”的全棧融合,讓協(xié)同優(yōu)化成為可復(fù)制的范式;更在于將成果帶入產(chǎn)業(yè)與人才的長遠布局,既賦能 AI、大模型、分子動力學等應(yīng)用場景,也培養(yǎng)出一批能夠橫跨硬件、軟件與應(yīng)用的青年力量。

    從 ARM 架構(gòu)的深度挖掘,到軟硬件的協(xié)同優(yōu)化,再到端到端的應(yīng)用突破,PAC 2025 讓國產(chǎn)算力不再只是“能用”,而是真正“好用”。它證明了我們不再只是被動追趕,而是已能與前沿并肩而行,正全力奔向?qū)儆谥袊母咝阅苡嬎阄磥怼?/P>

廣告聯(lián)系:010-82755684 | 010-82755685 手機版:m.pjtime.com官方微博:weibo.com/pjtime官方微信:pjtime
Copyright (C) 2007 by PjTime.com,投影時代網(wǎng) 版權(quán)所有 關(guān)于投影時代 | 聯(lián)系我們 | 歡迎來稿 | 網(wǎng)站地圖
返回首頁 網(wǎng)友評論 返回頂部 建議反饋
快速評論
驗證碼: 看不清?點一下
發(fā)表評論