這兩天啊,各地高考的成績終于是陸續公布了。
現在,也是時候揭曉全球第一梯隊的大模型們的 " 高考成績 " 了——
我們先來看下整體的情況(該測試由字節跳動 Seed 團隊官方發布):
再來看下各個細分科目的成績情況:
不過其它 AI 選手的表現也是比較不錯,可以說是達到了優秀學生的水準。
比較遺憾的選手就要屬 O3,因為它在語文寫作上跑了題,因此語文成績僅 95 分,拉低了整體的分數。
若是從填報志愿角度來看,因為這套測試采用的是山東省的試卷,根據過往經驗判斷,3 門自選科目的賦分相比原始分會有一定程度的提高,尤其是在化學、物理等難度較大的科目上。本次除化學成績相對稍低外,豆包的其余科目組合的賦分成績最高能超過 690 分,有望沖刺清華、北大。
(賦分規則:將考生選考科目的原始成績按照一定比例劃分等級,然后將等級轉換為等級分計入高考總分)
好,那現在的豆包面臨的抉擇是:上清華還是上北大?
在看完成績之后,或許很多小伙伴都有疑惑,這個評測成績到底是怎么來的。
別急,我們這就對評測標準逐條解析。
首先在卷子的選擇上,由于目前網絡流出的高考真題都是非官方的,而山東是少數傳出全套考卷的高考大省;因此主科(即語文、數學、英語)采用的是今年的全國一卷,副科采用的則是山東卷,滿分共計 750 分。
其次在評測方式上,都是通過 API 測試,不會聯網查詢,評分過程也是參考高考判卷方式,就是為了檢驗模型自身的泛化能力:
選擇題、填空題
采用機評(自動評估)加人工質檢的方式;
開放題
實行雙評制,由兩位具有聯考閱卷經驗的重點高中教師匿名評閱,并設置多輪質檢環節。
在給模型打分的時候,采用的是 "3 門主科(語文數學英語)+3 門綜合科(理綜或文綜)" 的總分計算方式,給五個模型排了個名次。
值得一提的是,整個評測過程中,模型們并沒有用任何提示詞優化技巧來提高模型的表現,例如要求某個模型回答得更詳細一些,或者刻意說明是高考等等。
最后,就是在這樣一個公平公正的環境之下,從剛才我們展示的結果來看,Gemini、豆包相對其他 AI 來說取得了較優的成績。
細分科目表現分析
了解完評測標準之后,我們繼續深入解讀一下 AI 選手們在各個科目上的表現。
由于深度思考的大火,大模型們在數學這樣強推理科目上的能力明顯要比去年好很多(此前大部分均不及格),基本上都能達到 140 分的成績。
不過在一道不算難的單選題(全國一卷第 6 題)上,國內外的大模型們卻都栽了跟頭:
豆包:C;Gemini:B;Claude:C;O3:C;DeepSeek:C。
但這道題的正解應該是 A,因此大模型們在此全軍覆沒。
之所如此,主要是因為題目里有方框、虛線、箭頭和漢字混在一起的圖,模型認不準圖像,說明它們在 " 看圖說話 " 這塊還有進步空間。
以及在更難的壓軸大題上,很多大模型也沒完全拿下,經常漏寫證明過程,或者推導不嚴謹被扣分,說明在細節上還需加強。
到做語文選擇題和閱讀題這兩個版塊,大模型們幾乎是 " 學霸本霸 ",得分率超高。
不過在作文寫作過程也暴露出了一些問題,例如寫作過于刻板、文字冰冷,文章字數不達標(不足 800 字或超過 1200 字)、立意不對,形式上還經常會出現慣用的小標題。
對于理綜,遇到帶圖的題目大模型們還是會犯難,不過豆包和 Gemini 這倆模型在看圖像和理解圖的能力上會比其他模型強一些。
例如下面這道題中,正確答案應當是 C,大模型們的作答是這樣的:
豆包:C;Gemini:C;Claude:D;O3:D;DeepSeek:D。
而對于地理題,最頭疼的便是分析統計圖和地形圖,得從圖里精準提取信息再分析。
以上就是對于本次評測的全面分析了。
除了今年國內的高考之外,這幾位 " 參賽選手 " 還參加了印度理工學院的第二階段入學考試——JEE Advanced。
這場考試每年有數百萬人參與第一階段考試,其中前 25 萬考生可晉級第二階段。它分為兩場,每場時長 3 小時,同時對數學、物理、化學三科進行考察。
題目以圖片形式呈現,重點考查模型的多模態處理能力與推理泛化能力。所有題目均為客觀題,每道題進行 5 次采樣,并嚴格按照 JEE 考試規則評分——答對得分、答錯扣分,不涉及格式評分標準。
與全印度人類考生成績對比顯示,第一名得分 332 分,第十名得分 317 分。
值得注意的是,豆包與 Gemini 已具備進入全印度前 10 的實力:Gemini 在物理和化學科目中表現突出,而豆包在數學科目 5 次采樣中實現全對。
相比去年一本線上下的水平,整體來看,大模型們在今年高考題上的表現均有明顯的進步。
那么它們到底是如何提升能力的?我們不妨以拿下單科第一最多的豆包為例來了解一下。
豆包大模型 1.6 系列,是字節跳動 Seed 團隊推出的兼具多模態能力與深度推理的新一代通用模型。
團隊讓它能力提升的技術亮點,我們可以歸結為三招。
第一招:多模態融合與 256K 長上下文能力構建
Seed1.6 延續了 Seed1.5 在稀疏 MoE(混合專家模型)領域的技術積累,采用 23B 激活參數與 230B 總參數規模進行預訓練。其預訓練過程通過三個階段實現多模態能力融合與長上下文支持:
第一階段:純文本預訓練
以網頁、書籍、論文、代碼等數據為訓練基礎,通過規則與模型結合的數據清洗、過濾、去重及采樣策略,提升數據質量與知識密度。
第二階段:多模態混合持續訓練(MMCT)
進一步強化文本數據的知識與推理密度,增加學科、代碼、推理類數據占比,同時引入視覺模態數據,與高質量文本混合訓練。
第三階段:長上下文持續訓練(LongCT)
通過不同長度的長文數據逐步擴展模型序列長度,將最大支持長度從 32K 提升至 256K。
通過模型架構、訓練算法及 Infra 的持續優化,Seed1.6 base 模型在參數量規模接近的情況下,性能較 Seed1.5 base 實現顯著提升,為后續后訓練工作奠定基礎。
這一招的發力,就對諸如高考語文閱讀理解、英語完形填空和理科綜合應用題等的作答上起到了提高準確率的作用,因為它們往往涉及長文本且看重上下文理解。
第二招:多模態融合的深度思考能力
Seed1.6-Thinking 延續 Seed1.5-Thinking 的多階段 RFT(強化反饋訓練)與 RL(強化學習)迭代優化方法,每輪 RL 以上一輪 RFT 為起點,通過多維度獎勵模型篩選最優回答。相較于前代,其升級點包括:
拓展訓練算力,擴大高質量數據規模(涵蓋 Math、Code、Puzzle 等領域);
提升復雜問題的思考長度,深度融合 VLM 能力,賦予模型清晰的視覺理解能力;
引入 parallel decoding 技術,無需額外訓練即可擴展模型能力 —— 例如在高難度測試集 Beyond AIME 中,推理成績提升 8 分,代碼任務表現也顯著優化。
這種能力直接對應高考中涉及圖表、公式的題目,如數學幾何證明、物理電路圖分析、地理等高線判讀等;可以快速定位關鍵參數并推導出解題路徑,避免因單一模態信息缺失導致的誤判。
第三招:AutoCoT 解決過度思考問題
深度思考依賴 Long CoT(長思維鏈)增強推理能力,但易導致 " 過度思考 " —— 生成大量無效 token,增加推理負擔。
為此,Seed1.6-AutoCoT 提出 " 動態思考能力 ",提供全思考、不思考、自適應思考三種模式,并通過 RL 訓練中引入新獎勵函數(懲罰過度思考、獎勵恰當思考),實現 CoT 長度的動態壓縮。
在實際測試中:
中等難度任務(如 MMLU、MMLU pro)中,CoT 觸發率與任務難度正相關(MMLU 觸發率 37%,MMLU pro 觸發率 70%);
復雜任務(如 AIME)中,CoT 觸發率達 100%,效果與 Seed1.6-FullCoT 相當,驗證了自適應思考對 Long CoT 推理優勢的保留。
以上就是豆包能夠在今年高考全科目評測中脫穎而出的原因了。
不過除此之外,還有一些影響因素值得說道說道。
正如我們剛才提到的,化學和生物的題目中讀圖題占比較大,但因非官方發布的圖片清晰度不足,會導致多數大模型的表現不佳;不過 Gemini2.5-Pro-0605 的多模態能力較突出,尤其在化學領域。
不過最近,字節 Seed 團隊在使用了更清晰的高考真題圖片后,以圖文結合的方式重新測試了對圖片理解要求較高的生物和化學科目,結果顯示 Seed1.6-Thinking 的總分提升了近 30 分(理科總分達 676)。
這說明,全模態推理(結合文本與圖像)能顯著釋放模型潛力,是未來值得深入探索的方向。
那么你對于這次大模型們的 battle 結果有何看法?歡迎大家拿真題去實測后,在評論區留言你的感受 ~
評分明細詳情:
https://bytedance.sg.larkoffice.com/sheets/QgoFs7RBjhnrUXtCBsYl0Jg2gmg
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
點亮星標
科技前沿進展每日見