階躍星辰于9月1日正式發(fā)布開源端到端語(yǔ)音大模型 Step-Audio 2 mini,該模型在多項(xiàng)國(guó)際權(quán)威評(píng)測(cè)中取得領(lǐng)先成績(jī),現(xiàn)已通過階躍星辰開放平臺(tái)對(duì)外提供。
根據(jù)官方介紹,Step-Audio 2 mini 實(shí)現(xiàn)了語(yǔ)音理解、音頻推理與生成的統(tǒng)一建模,并率先支持語(yǔ)音原生的 Tool Calling 能力,可執(zhí)行聯(lián)網(wǎng)搜索等復(fù)雜操作。該模型在音頻理解、語(yǔ)音識(shí)別、翻譯及對(duì)話等多個(gè)核心任務(wù)中表現(xiàn)優(yōu)異,綜合性能超越包括 Qwen-Omni、Kimi-Audio 在內(nèi)的主流開源語(yǔ)音模型,并在多項(xiàng)任務(wù)中優(yōu)于 GPT-4o Audio。
在具體評(píng)測(cè)表現(xiàn)方面,Step-Audio 2 mini 在通用多模態(tài)音頻理解測(cè)試集 MMAU 上以73.2的分?jǐn)?shù)位列開源語(yǔ)音模型首位;在衡量口語(yǔ)對(duì)話能力的 URO Bench 評(píng)測(cè)中,其于基礎(chǔ)與專業(yè)賽道均取得開源模型最高分,顯示出優(yōu)秀的語(yǔ)義理解與表達(dá)水平。此外,該模型在中英互譯任務(wù)中優(yōu)勢(shì)顯著,在 CoVoST 2 和 CVSS 評(píng)測(cè)集上分別達(dá)到39.3和29.1的分?jǐn)?shù),明顯領(lǐng)先于同類模型。語(yǔ)音識(shí)別任務(wù)方面,Step-Audio 2 mini 在多語(yǔ)言及多方言評(píng)測(cè)中均排名第一,其中中文語(yǔ)音識(shí)別平均 CER 為3.19,英語(yǔ)識(shí)別平均 WER 為3.50,領(lǐng)先其他開源模型15%以上。
傳統(tǒng)語(yǔ)音模型常因知識(shí)儲(chǔ)備不足、推理能力有限,以及對(duì)語(yǔ)氣、情緒等非語(yǔ)義信息理解較弱而受到詬病。Step-Audio 2 mini 通過多項(xiàng)技術(shù)創(chuàng)新有效緩解了這些問題。其采用真端到端多模態(tài)架構(gòu),摒棄了傳統(tǒng) ASR+LLM+TTS 三級(jí)處理流程,實(shí)現(xiàn)了從原始音頻輸入到語(yǔ)音響應(yīng)的直接映射,顯著降低推理延遲,并增強(qiáng)了對(duì)副語(yǔ)言信息及非人聲信號(hào)的理解能力。
此外,該模型首次在端到端語(yǔ)音架構(gòu)中引入鏈?zhǔn)剿季S推理(Chain-of-Thought, CoT)與強(qiáng)化學(xué)習(xí)聯(lián)合優(yōu)化機(jī)制,能夠?qū)φZ(yǔ)調(diào)、情緒、音樂等非語(yǔ)義內(nèi)容進(jìn)行精細(xì)識(shí)別與回應(yīng)。模型還支持外部工具調(diào)用,如網(wǎng)絡(luò)檢索,以增強(qiáng)知識(shí)實(shí)時(shí)性,減少幻覺現(xiàn)象,并擴(kuò)展其在多場(chǎng)景下的應(yīng)用能力。
Step-Audio 2 mini 已公開發(fā)布于 GitHub、Hugging Face 及 ModelScope 等平臺(tái),供研究者和開發(fā)者下載使用。該模型的推出,為語(yǔ)音處理領(lǐng)域提供了新的技術(shù)路徑與性能基準(zhǔn),進(jìn)一步推動(dòng)了端到端語(yǔ)音大模型的發(fā)展與應(yīng)用。
(注:本文在資料搜集、框架搭建及部分段落初稿撰寫階段使用了 AI 工具,最終內(nèi)容經(jīng)人類編輯核實(shí)事實(shí)、調(diào)整邏輯、優(yōu)化表達(dá)后完成。)
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )