成人网站在线浏览|久久精品久久依人|摸BBB揉BBB|粉嫩精品AV导航|欧美日本在线综合|欧美在线视频导航|超碰中文国产一区|咸人欧美一区二区|五月天色播AV网|玖草在线观看视频

美團開源大模型性能超越DeepSeek-V3.1,編程能力對標Claude4 Sonnet

近日,美團正式發(fā)布并開源其最新大模型 LongCat-Flash-Chat,該模型在多項基準測試中展現(xiàn)出卓越性能,尤其在通用知識理解與智能體任務方面表現(xiàn)突出,綜合能力超越 DeepSeek-V3.1,并在編程任務中接近 Claude4 Sonnet 的水平。

LongCat-Flash 采用混合專家模型(Mixture-of-Experts, MoE)架構,總參數(shù)量達到 560B,但通過創(chuàng)新的“零計算專家”機制,每個 token 僅激活 18.6B 至 31.3B 參數(shù),平均激活參數(shù)量約為 27B。這一設計顯著提升了計算效率,在保證模型性能的同時,大幅降低了推理階段的資源消耗。

在 ArenaHard-V2 基準測試中,LongCat-Flash 取得 86.50 的得分,位列所有評估模型中的第二名,超過 DeepSeek-V3.1。在智能體相關任務中,其表現(xiàn)也優(yōu)于 DeepSeek-V3.1、Qwen3 MoE-2507,甚至在某些方面超過閉源模型 Claude4 Sonnet。這一成績表明,LongCat-Flash 在復雜任務處理和指令遵循方面具備顯著優(yōu)勢。

編程能力方面,LongCat-Flash 在 TerminalBench 基準測試中獲得 39.51 分,僅次于 Claude4 Sonnet 的 40.7 分,顯示出其在命令行任務和代碼生成方面的強勁實力。盡管與“編程之王”仍存在微小差距,但其表現(xiàn)已處于行業(yè)領先水平。

美團在模型訓練過程中采用了多項技術創(chuàng)新。通過 PID 控制器實時調節(jié)專家偏置,有效控制激活參數(shù)量,提升訓練穩(wěn)定性??鐚油ǖ赖囊雽崿F(xiàn)了 MoE 結構中通信與計算的高效并行,進一步加速訓練與推理過程。配合底層系統(tǒng)優(yōu)化,該模型在 30 天內完成訓練,并在 H800 硬件上實現(xiàn)每秒 100+ token 的生成速度,推理成本低至每百萬 token 5 元。

針對智能體能力的優(yōu)化,LongCat-Flash 通過自建評測集指導數(shù)據(jù)策略,并采用多智能體方法生成多樣化、高質量的軌跡數(shù)據(jù),全面提升了模型在復雜交互與任務執(zhí)行中的表現(xiàn)。

綜合來看,LongCat-Flash 不僅在性能上媲美甚至超越當前主流大模型,更在效率與成本控制方面實現(xiàn)顯著突破。其開源發(fā)布將為學術界和工業(yè)界提供一個新的高性能基礎模型選擇,推動大模型技術在更多實際場景中的應用。

目前,LongCat-Flash-Chat 已在 GitHub 和 Hugging Face 平臺開源,用戶可訪問其官方網(wǎng)站進行體驗。

(注:本文在資料搜集、框架搭建及部分段落初稿撰寫階段使用了 AI 工具,最終內容經(jīng)人類編輯核實事實、調整邏輯、優(yōu)化表達后完成。)

免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產(chǎn)權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2025-09-01
美團開源大模型性能超越DeepSeek-V3.1,編程能力對標Claude4 Sonnet
近日,美團正式發(fā)布并開源其最新大模型 LongCat-Flash-Chat,該模型在多項基準測試中展現(xiàn)出卓越性能,尤其在通用知識理解與智能體任務方面...

長按掃碼 閱讀全文