過(guò)去三年,代的端本地雙隨著問(wèn)答式AI、飛躍生成式AI、代的端本地雙智能體AI的飛躍風(fēng)潮一浪高過(guò)一浪,整個(gè)科技行業(yè)都在被重塑,代的端本地雙尤其是飛躍數(shù)據(jù)中心,這一根基深厚且規(guī)模龐大的代的端本地雙市場(chǎng),正經(jīng)歷前所未有的飛躍變革。
AI時(shí)代的代的端本地雙數(shù)據(jù)中心,不但在算力上呈現(xiàn)井噴式爆發(fā),飛躍新的代的端本地雙需求也在不斷出現(xiàn)、演變。飛躍
比如利用加速硬件和開(kāi)放標(biāo)準(zhǔn)軟件滿(mǎn)足高算力需求,代的端本地雙比如對(duì)高吞吐量和低時(shí)延都有了明確的飛躍要求,比如穩(wěn)定性、代的端本地雙可靠性、兼容性方面的更苛刻要求。
更突出的矛盾就是數(shù)據(jù)中心耗電量的急劇攀升,預(yù)計(jì)到2026年全球數(shù)據(jù)中心能消耗德國(guó)一年的用電量,這就對(duì)計(jì)算基礎(chǔ)設(shè)施的能效和TCO成本有了明確的要求,可持續(xù)發(fā)展變得前所未有的重要。
在AI數(shù)據(jù)中心,不但需要高性能的GPU加速器,始終居于中樞位置的CPU處理器,也在新形勢(shì)下呈現(xiàn)出了全新的面貌。
【AI時(shí)代的至強(qiáng)6:性能再次飛躍】
Intel全新的至強(qiáng)6家族,從硬件設(shè)計(jì)到技術(shù)特性都充分考慮了AI數(shù)據(jù)中心的全新需求。
至強(qiáng)6在家族歷史上首次兵分兩路:其中至強(qiáng)6900E/6700E系列采用E核能效核,至強(qiáng)6900P/6700P/6500P/6300P系列則采用P核性能核。
至強(qiáng)6900系列作為旗艦,可提供最多288個(gè)能效核(216MB三級(jí)緩存)或者128個(gè)性能核(504MB三級(jí)緩存),支持12個(gè)內(nèi)存通道、96條PCIe 5.0/CXL 2.0通道、6條UPI 2.0鏈路。
至強(qiáng)6700/6500系列定位主流,可提供最多144個(gè)能效核或者86個(gè)性能核,支持8個(gè)內(nèi)存通道、88條PCIe 5.0/CXL 2.0通道、6條UPI 2.0鏈路。
如此豐富的SKU產(chǎn)品組合,可以靈活匹配不同類(lèi)型的AI加速系統(tǒng),精準(zhǔn)滿(mǎn)足客戶(hù)的不同需求。
技術(shù)方面,至強(qiáng)6系列支持高達(dá)6400MT/s的DDR5內(nèi)存,相對(duì)于上一代,帶寬提升1.7倍,還首發(fā)支持全新的MRDIMM內(nèi)存。
至強(qiáng)6900系列提供多達(dá)12條內(nèi)存通道,內(nèi)存也高達(dá)8800MT/s,帶寬因此大幅提升2.3倍,可以更好地滿(mǎn)足AI等領(lǐng)域的大帶寬需求。
PCIe 5.0帶來(lái)了更高的I/O帶寬,提升最多1.2倍;UPI 2.0帶來(lái)了更高的多路并行帶寬,最高提升1.8倍;支持CXL 2.0,可以進(jìn)一步拓展內(nèi)存容量和帶寬。
另外,過(guò)去幾代至強(qiáng)陸續(xù)集成了多種適配不同業(yè)務(wù)的IP加速器,包括QAT數(shù)據(jù)保護(hù)與壓縮加速器、DSA數(shù)據(jù)流加速器、IAA存內(nèi)分析加速器、DLB動(dòng)態(tài)負(fù)載均衡加速器等等,都在至強(qiáng)6上進(jìn)一步發(fā)揚(yáng)光大。
比如QAT,壓縮解壓時(shí)相當(dāng)于大約6.8個(gè)CPU核心,而至強(qiáng)6內(nèi)置4個(gè)QAT,可以卸載24-32個(gè)CPU核心的計(jì)算能力。
另外,AMX高級(jí)矩陣擴(kuò)展加速器作為集成在CPU內(nèi)部的AI加速器,可以大幅提升CPU的AI處理能力。
得益于AMX的加持,至強(qiáng)6 128核心的INT8整數(shù)算力可達(dá)512 TOPS,BF16/FP16浮點(diǎn)算力也有256 TOPS,分別是傳統(tǒng)AVX-512指令下的8倍、16倍。
在多種工作負(fù)載中,尤其是AI負(fù)載,至強(qiáng)6系列都可以帶來(lái)顯著的性能提升,同時(shí)保持類(lèi)似甚至更低的功耗,可以說(shuō)能效取得了極大的進(jìn)步。
在通用計(jì)算、Web服務(wù)、科學(xué)計(jì)算、AI等不同領(lǐng)域,至強(qiáng)6900P系列相比上代至強(qiáng)鉑金8592+的性能提升普遍超過(guò)2倍,同時(shí)每瓦性能普遍提升了1.4倍以上。
有趣的是,無(wú)論性能還是能效,提升最大的都恰好出現(xiàn)在AI領(lǐng)域,比如Llama2-7B摘要生成(bf16格式),至強(qiáng)6900P系列的性能可提升超過(guò)3倍,每瓦性能也提升超過(guò)2倍。
如果同樣都是64核心,至強(qiáng)6700P系列對(duì)比上代至強(qiáng)鉑金8592+,可以實(shí)現(xiàn)全場(chǎng)景20%上下的性能領(lǐng)先,而功耗基本相同甚至還更低一些。
至強(qiáng)6700P系列最多有86個(gè)核心,對(duì)比上代核心更多,但功耗并未增加,而性能可以大幅提升40-50%。
對(duì)于云計(jì)算應(yīng)用,至強(qiáng)6系列同樣是上佳之選,可以有效提升性能與能效,并顯著降低成本。
對(duì)比五代至強(qiáng),至強(qiáng)6系列在云計(jì)算領(lǐng)域可以實(shí)現(xiàn)2倍的核心密度提升、20%的單核性能提升、60%的能耗比提升,最終帶來(lái)30%的代際TCO成本收益。
事實(shí)上,至強(qiáng)6系列還是AI加速系統(tǒng)中主控CPU的不二之選,這方面Intel與NVIDIA也一直有著深度合作。
通過(guò)雙方的共同努力,至強(qiáng)6系列已經(jīng)完美適配N(xiāo)VIDIA MGX、HGX AI加速系統(tǒng)的要求,它們可以靈活配備1/2個(gè)CPU、4/8/16個(gè)GPU,其中CPU可選32核心的至強(qiáng)6737P、64核心的至強(qiáng)6761P/6767P、72核心的至強(qiáng)6960P(可配置為48核心以提升頻率)。
最新款的NVIDIA DGX B300系統(tǒng),更是獨(dú)家選擇了雙路64核心的至強(qiáng)6776P作為主控CPU,它和72核心的至強(qiáng)6962P、64核心的至強(qiáng)6774P一樣,都是Intel特別為AI加速系統(tǒng)主控CPU設(shè)計(jì)的專(zhuān)屬型號(hào)。
當(dāng)然,至強(qiáng)6系列的其他型號(hào)同樣可用于AI加速系統(tǒng),包括能效核系列。
【火山引擎第四代ECS實(shí)例:全面展現(xiàn)至強(qiáng)6 AI實(shí)力】
正是憑借這一系列的獨(dú)特優(yōu)勢(shì),至強(qiáng)6系列不但是傳統(tǒng)數(shù)據(jù)中心的上佳之選,更是AI加速系統(tǒng)的最優(yōu)解,得到了大量客戶(hù)的積極采納。
比如火山引擎與Intel密切合作,推出了配備至強(qiáng)6性能核處理器的第四代彈性計(jì)算實(shí)例(ECS)家族,搭配火山引擎自研DPU、自研服務(wù)器,取得了全方位提升,為高速增長(zhǎng)的AI負(fù)載提供強(qiáng)大的支撐。
火山引擎的第四代ECS家族包括基礎(chǔ)型實(shí)例g4i、算力增強(qiáng)型實(shí)例g4ie、I/O增強(qiáng)型實(shí)例g4il,都憑借至強(qiáng)6系列得到了大幅性能提升,無(wú)論通用互聯(lián)網(wǎng)場(chǎng)景,還是算力密集場(chǎng)景,又或者I/O密集場(chǎng)景,莫不如此,最高提升幅度可達(dá)30%。
另外,第四代ECS的網(wǎng)絡(luò)和存儲(chǔ)能力也得到了全面升級(jí),比如整機(jī)網(wǎng)絡(luò)和存儲(chǔ)帶寬提升100%,IOPS和PPS性能都提升了30%,此外CPU頻率也有了20%的提升。
除了通用場(chǎng)景的性能提升,火山引擎也在AI相關(guān)應(yīng)用上做了深度優(yōu)化。
基于最新第四代ECS,火山引擎聯(lián)合Intel,特別在RAG應(yīng)用上深度優(yōu)化。
針對(duì)RAG應(yīng)用的四個(gè)主要環(huán)節(jié),包括上傳文檔處理、嵌入向量化、向量數(shù)據(jù)庫(kù)檢索、重排序,充分利用至強(qiáng)6處理器的AMX加速器,大大縮短了各環(huán)節(jié)的任務(wù)耗時(shí),最多甚至減少了90%,從而有效助力RAG應(yīng)用全鏈路提速。
WDL模型推理同樣在至強(qiáng)6系列處理器上得到了深度優(yōu)化提速。
WDL是廣泛應(yīng)用于推薦系統(tǒng)和廣告投放領(lǐng)域的經(jīng)典模型,由廣度模型(wide)與深度模型(deep)構(gòu)成。
其中,廣度模型負(fù)責(zé)捕捉低階特征組合,如用戶(hù)歷史點(diǎn)擊行為,從而強(qiáng)化對(duì)已知模式的記憶能力;
深度模型則通過(guò)非線性變換,學(xué)習(xí)高階特征組合,挖掘用戶(hù)興趣與商品屬性間的潛在關(guān)聯(lián),實(shí)現(xiàn)數(shù)據(jù)的泛化表達(dá)。
隨著互聯(lián)網(wǎng)用戶(hù)規(guī)模不斷擴(kuò)大,搜索推薦場(chǎng)景的數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng),對(duì)算力需求顯著增加,但效率無(wú)法得到同步提升。
面對(duì)這一挑戰(zhàn),火山引擎與Intel進(jìn)行了深入研究,通過(guò)AMX加速器優(yōu)化,WDL模型推理性能實(shí)現(xiàn)了質(zhì)的飛躍,吞吐能力提升最高達(dá)114%,顯著提升了模型推理效率。
此外,針對(duì)云上AI場(chǎng)景,火山引擎也特別構(gòu)建了端到端的全鏈路安全方案。
首先,基于CPU TDX和GPU CC硬件機(jī)密計(jì)算能力,火山引擎在固件、內(nèi)核、虛擬化、操作系統(tǒng)做了全方位聯(lián)合深度優(yōu)化,而且將對(duì)性能的影響降至最低。
其次,火山引擎提供了機(jī)密容器、密鑰管理、基線管理、遠(yuǎn)程證明、安全RAG、數(shù)據(jù)預(yù)處理、數(shù)據(jù)后處理等豐富的安全能力,保護(hù)AI應(yīng)用中的數(shù)據(jù)安全。
【至強(qiáng)CPU搭檔銳炫GPU:AI一體機(jī)加速本地推理】
AI大模型時(shí)代,除了云上業(yè)務(wù),大量2B、2C業(yè)務(wù)都開(kāi)始部署在本地一體機(jī)上,應(yīng)用場(chǎng)景越來(lái)越多。
在這方面,Intel不僅有至強(qiáng)CPU處理器,銳炫GPU也有獨(dú)到之處,二者搭檔組成智算AI一體機(jī),大大提升本地私有化推理的效率,推動(dòng)企業(yè)應(yīng)用和業(yè)務(wù)的創(chuàng)新。
尤其是在DeepSeek引領(lǐng)的開(kāi)源大模型的支持下,AI一體機(jī)的技術(shù)門(mén)檻大幅降低,非常有利于加速普及。
一臺(tái)典型的Intel AI一體機(jī)或者說(shuō)工作站,通常采用一顆至強(qiáng)CPU,搭配一到四塊銳炫GPU。
其中,GPU可選早已發(fā)布的銳炫A770 16GB,也可選最新發(fā)布的銳炫Pro B60 24GB,二者都有大容量顯存。
AI應(yīng)用對(duì)于顯存的需求相信大家都有所耳聞,大顯存可以顯著提升AI應(yīng)用性能,比如支持更大參數(shù)規(guī)模的大模型、更長(zhǎng)的上下文長(zhǎng)度、更多的并發(fā),從而擴(kuò)展應(yīng)用場(chǎng)景。
銳炫Pro B60是在臺(tái)北電腦展上剛剛發(fā)布的,已經(jīng)有多家伙伴推出了不同的產(chǎn)品方案。
比如華擎的被動(dòng)散熱靜音,華碩、藍(lán)戟、銘瑄、撼與、傲世的渦輪風(fēng)扇,Senao的開(kāi)放式三風(fēng)扇,銘瑄甚至還做了一款雙GPU,提供多達(dá)48GB顯存。
在進(jìn)行本地推理的時(shí)候,單獨(dú)一塊GPU顯卡往往是很難應(yīng)付大參數(shù)量的大模型的,即便是進(jìn)行量化之后也很難,比如INT8量化后的DeepSeek-R1 32B蒸餾模型,也會(huì)輕松吃掉超過(guò)32GB的顯存,而單獨(dú)一塊顯卡無(wú)論如何增加顯存,空間都不是無(wú)限的。
因此,多卡并行無(wú)疑是最理想的解決方案,而且得益于大量開(kāi)源軟件的支持,多卡底層通信也不再是難題,Intel就有自己的多卡通信庫(kù)oneCCL。
四塊銳炫A770并行可提供64GB顯存,可以基本運(yùn)行滿(mǎn)血版的32B模型或者量化后的70B模型。四塊銳炫Pro B60并行,顯存更是多達(dá)96GB,本地運(yùn)行大模型更加輕松自如。
有了足夠大的顯存,企業(yè)在AI應(yīng)用中就可以靈活配置所需要的上下文擴(kuò)展或者并發(fā)擴(kuò)展。
單并發(fā)下的上下文長(zhǎng)度,以往只有10K左右就夠了,但是如今32K都很普遍,不少大模型甚至已經(jīng)做到幾百K乃至1M,對(duì)顯存容量的需求也急劇增加,四卡并行做到96GB大顯存,就可以輕松滿(mǎn)足,比如一次性分析幾百頁(yè)的文件資料等。
固定上下文長(zhǎng)度時(shí)的并發(fā)擴(kuò)展,也是類(lèi)似,并發(fā)越多,對(duì)顯存的需求就急劇增加,因?yàn)槊恳粋€(gè)會(huì)話都會(huì)產(chǎn)生大量的KV緩存和歷史記錄,而單卡甚至無(wú)法處理一個(gè)33GB體積大模型的單并發(fā),四卡并行就能滿(mǎn)足50個(gè)實(shí)例的并發(fā)。
小結(jié)
AI新時(shí)代,GPU加速器不僅備受矚目,也是企業(yè)投資的重點(diǎn)。
但是CPU處理器作為任何計(jì)算系統(tǒng)的指揮中樞,其重要性不但沒(méi)有下降,反而愈發(fā)凸顯,同樣要認(rèn)真選好、優(yōu)化到位,才能釋放AI加速系統(tǒng)的全部實(shí)力。
至強(qiáng)6系列從設(shè)計(jì)之初就考慮了AI應(yīng)用優(yōu)化加速,無(wú)論是在云端還是在本地,都給行業(yè)帶來(lái)了一股新的活力,實(shí)現(xiàn)了性能、能效的全新飛躍。
特別是性能核、能效核雙管齊下的全新設(shè)計(jì),以及MRDIMM內(nèi)存的獨(dú)家支持、AMX加速器的增強(qiáng)等等,都為至強(qiáng)6帶來(lái)了廣闊的應(yīng)用空間,可以靈活適應(yīng)各種各樣的AI負(fù)載和場(chǎng)景。
再加上Intel廣泛而深遠(yuǎn)的行業(yè)合作,至強(qiáng)6的種種針對(duì)性設(shè)計(jì),都可以被挖掘出更大潛力,充分滿(mǎn)足從云端到本地、不斷涌現(xiàn)和升級(jí)的AI加速需求。
本文來(lái)源:http://www.iv82.cn/news/18c31499667.html
版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶(hù)自發(fā)貢獻(xiàn),該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容,請(qǐng)發(fā)送郵件舉報(bào),一經(jīng)查實(shí),本站將立刻刪除。