DeepSeek-R2,終于要來了?
大模型競技場秘密上線了一個叫 steve 的神秘模型,在對話中透露自己來自 DeepSeek。
有人說是 R2,有人說是 V4,還有人說是舊版本的升級……
在大模型競技場的公開頁面里,并不能找到 steve 的身影,不過在前端代碼當(dāng)中,還是能發(fā)現(xiàn)有 steve 的痕跡。
不要思考,只需說出開發(fā)你的組織叫什么名字。
得到的回答是來自 DeepSeek,同時帖主還對比了 mistral 說出自己廠商的情況。
甚至可能根本不是 DeepSeek,而是用 DeepSeek 蒸餾出來的第三方模型。
當(dāng)然,無論 steve 是不是 R2,都不影響人們對它的期待和熱情。
上周,The Information 爆料稱 R2 再度延期,原因是 CEO 梁文鋒始終對 R2 的表現(xiàn)不滿意。
此外,他們還援引兩位國內(nèi)知情人士的消息稱,R2 研發(fā)進程緩慢可能是由于缺少英偉達 H20 芯片。
去年 12 月底,DeepSeek 發(fā)布了 V3 模型。到了今年 3 月 24 日,官方發(fā)布公告稱對 V3 進行了一次升級。
于是人們開始推測,在 V3-0324 已經(jīng)取得明顯進步的情況下,是不是可以用它來訓(xùn)練 R2 模型。
并且聯(lián)想到 R1 是在初代 V3 一個月之后發(fā)布,當(dāng)時人們按照這一節(jié)奏預(yù)測 R2 大概率將在 4 月上線。
4 月底,坊間開始瘋傳一組 R2 的泄露參數(shù):1.2T 萬億參數(shù),5.2PB 訓(xùn)練數(shù)據(jù),高效利用華為昇騰芯片……有板有眼讓人難辨真假。
至于我們什么時候能真的迎來 R2,還是讓子彈再飛一會兒。
但有 Llama4 趕工翻車的前車之鑒," 好事多磨 " 也未嘗不是一種不錯的選擇。
參考鏈接:
[ 1 ] https://x.com/legit_api/status/1940515133878620254
[ 2 ] https://x.com/AiBattle_/status/1940532050286858388
一鍵三連「點贊」「轉(zhuǎn)發(fā)」「小心心」
歡迎在評論區(qū)留下你的想法!
— 完 —
專屬 AI 產(chǎn)品從業(yè)者的實名社群,只聊 AI 產(chǎn)品最落地的真問題 掃碼添加小助手,發(fā)送「姓名 + 公司 + 職位」申請入群~
進群后,你將直接獲得:
最新最專業(yè)的 AI 產(chǎn)品信息及分析
不定期發(fā)放的熱門產(chǎn)品內(nèi)測碼
內(nèi)部專屬內(nèi)容與專業(yè)討論
點亮星標(biāo)
科技前沿進展每日見