這兩天啊,國產(chǎn)各地高考的大模成績終于是陸續(xù)公布了。
現(xiàn)在,型高也是考裸時候揭曉全球第一梯隊的大模型們的“高考成績”了——
我們先來看下整體的情況(該測試由字節(jié)跳動Seed團隊官方發(fā)布):
按照傳統(tǒng)文理分科計分方式,Gemini的分選理科總成績655分,在所有選手里排名第一。清華豆包的還北文科總成績683分,排名第一,國產(chǎn)理科總成績是大模648分,排名第二。型高
再來看下各個細分科目的考裸成績情況:
除了數(shù)學、化學和生物之外,分選豆包的清華成績依舊是名列前茅,6個科目均是還北第一。
不過其它AI選手的國產(chǎn)表現(xiàn)也是比較不錯,可以說是達到了優(yōu)秀學生的水準。
比較遺憾的選手就要屬O3,因為它在語文寫作上跑了題,因此語文成績僅95分,拉低了整體的分數(shù)。
若是從填報志愿角度來看,因為這套測試采用的是山東省的試卷,根據(jù)過往經(jīng)驗判斷,3門自選科目的賦分相比原始分會有一定程度的提高,尤其是在化學、物理等難度較大的科目上。本次除化學成績相對稍低外,豆包的其余科目組合的賦分成績最高能超過690分,有望沖刺清華、北大。
(賦分規(guī)則:將考生選考科目的原始成績按照一定比例劃分等級,然后將等級轉換為等級分計入高考總分)
好,那現(xiàn)在的豆包面臨的抉擇是:上清華還是上北大?
大模型參加高考,分數(shù)怎么判?
在看完成績之后,或許很多小伙伴都有疑惑,這個評測成績到底是怎么來的。
別急,我們這就對評測標準逐條解析。
首先在卷子的選擇上,由于目前網(wǎng)絡流出的高考真題都是非官方的,而山東是少數(shù)傳出全套考卷的高考大??;因此主科(即語文、數(shù)學、英語)采用的是今年的全國一卷,副科采用的則是山東卷,滿分共計750分。
其次在評測方式上,都是通過API測試,不會聯(lián)網(wǎng)查詢,評分過程也是參考高考判卷方式,就是為了檢驗模型自身的泛化能力:
選擇題、填空題采用機評(自動評估)加人工質檢的方式;開放題實行雙評制,由兩位具有聯(lián)考閱卷經(jīng)驗的重點高中教師匿名評閱,并設置多輪質檢環(huán)節(jié)。
在給模型打分的時候,采用的是 “3門主科(語文數(shù)學英語)+3門綜合科(理綜或文綜)” 的總分計算方式,給五個模型排了個名次。
值得一提的是,整個評測過程中,模型們并沒有用任何提示詞優(yōu)化技巧來提高模型的表現(xiàn),例如要求某個模型回答得更詳細一些,或者刻意說明是高考等等。
最后,就是在這樣一個公平公正的環(huán)境之下,從剛才我們展示的結果來看,Gemini、豆包相對其他AI來說取得了較優(yōu)的成績。
細分科目表現(xiàn)分析
了解完評測標準之后,我們繼續(xù)深入解讀一下AI選手們在各個科目上的表現(xiàn)。
由于深度思考的大火,大模型們在數(shù)學這樣強推理科目上的能力明顯要比去年好很多(此前大部分均不及格),基本上都能達到140分的成績。
不過在一道不算難的單選題(全國一卷第6題)上,國內外的大模型們卻都栽了跟頭:
這道題大模型們給出的答案是這樣的:
豆包:C;Gemini:B;Claude:C;O3:C;DeepSeek:C。
但這道題的正解應該是A,因此大模型們在此全軍覆沒。
之所如此,主要是因為題目里有方框、虛線、箭頭和漢字混在一起的圖,模型認不準圖像,說明它們在 “看圖說話” 這塊還有進步空間。
以及在更難的壓軸大題上,很多大模型也沒完全拿下,經(jīng)常漏寫證明過程,或者推導不嚴謹被扣分,說明在細節(jié)上還需加強。
到做語文選擇題和閱讀題這兩個版塊,大模型們幾乎是 “學霸本霸”,得分率超高。
不過在作文寫作過程也暴露出了一些問題,例如寫作過于刻板、文字冰冷,文章字數(shù)不達標(不足800字或超過1200字)、立意不對,形式上還經(jīng)常會出現(xiàn)慣用的小標題。
在英語測試過程中,大模型們幾乎挑不出毛病,唯一扣分點是在寫作上,比如用詞不夠精準、句式稍顯單調,但整體已經(jīng)很接近完美。
對于理綜,遇到帶圖的題目大模型們還是會犯難,不過豆包和Gemini這倆模型在看圖像和理解圖的能力上會比其他模型強一些。
例如下面這道題中,正確答案應當是C,大模型們的作答是這樣的:
豆包:C;Gemini:C;Claude:D;O3:D;DeepSeek:D。
最后在文綜方面,大模型的地域差別就顯現(xiàn)得比較明顯,國外的大模型做政治、歷史題時,經(jīng)常搞不懂題目在考啥,對中國的知識點不太 “感冒”。
而對于地理題,最頭疼的便是分析統(tǒng)計圖和地形圖,得從圖里精準提取信息再分析。
以上就是對于本次評測的全面分析了。
除了今年國內的高考之外,這幾位“參賽選手”還參加了印度理工學院的第二階段入學考試——JEE Advanced。
這場考試每年有數(shù)百萬人參與第一階段考試,其中前25萬考生可晉級第二階段。它分為兩場,每場時長3小時,同時對數(shù)學、物理、化學三科進行考察。
題目以圖片形式呈現(xiàn),重點考查模型的多模態(tài)處理能力與推理泛化能力。所有題目均為客觀題,每道題進行5次采樣,并嚴格按照JEE考試規(guī)則評分——答對得分、答錯扣分,不涉及格式評分標準。
與全印度人類考生成績對比顯示,第一名得分332分,第十名得分317分。
值得注意的是,豆包與Gemini已具備進入全印度前10的實力:Gemini在物理和化學科目中表現(xiàn)突出,而豆包在數(shù)學科目5次采樣中實現(xiàn)全對。
怎么做到的?
相比去年一本線上下的水平,整體來看,大模型們在今年高考題上的表現(xiàn)均有明顯的進步。
那么它們到底是如何提升能力的?我們不妨以拿下單科第一最多的豆包為例來了解一下。
豆包大模型1.6系列,是字節(jié)跳動Seed團隊推出的兼具多模態(tài)能力與深度推理的新一代通用模型。
團隊讓它能力提升的技術亮點,我們可以歸結為三招。
第一招:多模態(tài)融合與256K長上下文能力構建
Seed1.6延續(xù)了Seed1.5在稀疏MoE(混合專家模型)領域的技術積累,采用23B激活參數(shù)與230B總參數(shù)規(guī)模進行預訓練。其預訓練過程通過三個階段實現(xiàn)多模態(tài)能力融合與長上下文支持:
第一階段:純文本預訓練以網(wǎng)頁、書籍、論文、代碼等數(shù)據(jù)為訓練基礎,通過規(guī)則與模型結合的數(shù)據(jù)清洗、過濾、去重及采樣策略,提升數(shù)據(jù)質量與知識密度。
第二階段:多模態(tài)混合持續(xù)訓練(MMCT)進一步強化文本數(shù)據(jù)的知識與推理密度,增加學科、代碼、推理類數(shù)據(jù)占比,同時引入視覺模態(tài)數(shù)據(jù),與高質量文本混合訓練。
第三階段:長上下文持續(xù)訓練(LongCT)通過不同長度的長文數(shù)據(jù)逐步擴展模型序列長度,將最大支持長度從32K提升至256K。
通過模型架構、訓練算法及Infra的持續(xù)優(yōu)化,Seed1.6 base模型在參數(shù)量規(guī)模接近的情況下,性能較Seed1.5 base實現(xiàn)顯著提升,為后續(xù)后訓練工作奠定基礎。
這一招的發(fā)力,就對諸如高考語文閱讀理解、英語完形填空和理科綜合應用題等的作答上起到了提高準確率的作用,因為它們往往涉及長文本且看重上下文理解。
第二招:多模態(tài)融合的深度思考能力
Seed1.6-Thinking 延續(xù)Seed1.5-Thinking的多階段RFT(強化反饋訓練)與RL(強化學習)迭代優(yōu)化方法,每輪RL以上一輪RFT為起點,通過多維度獎勵模型篩選最優(yōu)回答。相較于前代,其升級點包括:
拓展訓練算力,擴大高質量數(shù)據(jù)規(guī)模(涵蓋 Math、Code、Puzzle 等領域);提升復雜問題的思考長度,深度融合VLM能力,賦予模型清晰的視覺理解能力;引入parallel decoding技術,無需額外訓練即可擴展模型能力 —— 例如在高難度測試集Beyond AIME中,推理成績提升8分,代碼任務表現(xiàn)也顯著優(yōu)化。
這種能力直接對應高考中涉及圖表、公式的題目,如數(shù)學幾何證明、物理電路圖分析、地理等高線判讀等;可以快速定位關鍵參數(shù)并推導出解題路徑,避免因單一模態(tài)信息缺失導致的誤判。
第三招:AutoCoT解決過度思考問題
深度思考依賴Long CoT(長思維鏈)增強推理能力,但易導致 “過度思考”—— 生成大量無效token,增加推理負擔。
為此,Seed1.6-AutoCoT提出 “動態(tài)思考能力”,提供全思考、不思考、自適應思考三種模式,并通過RL訓練中引入新獎勵函數(shù)(懲罰過度思考、獎勵恰當思考),實現(xiàn)CoT長度的動態(tài)壓縮。
在實際測試中:
中等難度任務(如 MMLU、MMLU pro)中,CoT 觸發(fā)率與任務難度正相關(MMLU 觸發(fā)率37%,MMLU pro觸發(fā)率70%);復雜任務(如AIME)中,CoT觸發(fā)率達100%,效果與Seed1.6-FullCoT相當,驗證了自適應思考對Long CoT推理優(yōu)勢的保留。
以上就是豆包能夠在今年高考全科目評測中脫穎而出的原因了。
不過除此之外,還有一些影響因素值得說道說道。
正如我們剛才提到的,化學和生物的題目中讀圖題占比較大,但因非官方發(fā)布的圖片清晰度不足,會導致多數(shù)大模型的表現(xiàn)不佳;不過Gemini2.5-Pro-0605的多模態(tài)能力較突出,尤其在化學領域。
不過最近,字節(jié)Seed團隊在使用了更清晰的高考真題圖片后,以圖文結合的方式重新測試了對圖片理解要求較高的生物和化學科目,結果顯示Seed1.6-Thinking的總分提升了近30分(理科總分達676)。
△圖文交織輸入示例
這說明,全模態(tài)推理(結合文本與圖像)能顯著釋放模型潛力,是未來值得深入探索的方向。
那么你對于這次大模型們的battle結果有何看法?歡迎大家拿真題去實測后,在評論區(qū)留言你的感受~
評分明細詳情:https://bytedance.sg.larkoffice.com/sheets/QgoFs7RBjhnrUXtCBsYl0Jg2gmg
本文來源:http://www.iv82.cn/news/04d31599680.html
版權聲明:本文內容由互聯(lián)網(wǎng)用戶自發(fā)貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權/違法違規(guī)的內容,請發(fā)送郵件舉報,一經(jīng)查實,本站將立刻刪除。