騰訊混元Voyager 3D發(fā)布,長距離場景生成能力引關注
2024年9月2日,騰訊正式發(fā)布混元3D世界模型系列的最新成員——HunyuanWorld-Voyager(簡稱混元Voyager)。該模型被官方定位為業(yè)界首個支持原生3D重建的超長漫游世界模型,標志著人工智能在空間智能領域的重要進展。
混元Voyager的核心突破在于其能夠生成具有高度空間一致性的長距離漫游場景,并支持將視頻直接導出為3D格式。這一能力使其在虛擬現(xiàn)實、物理仿真和游戲開發(fā)等領域具有廣泛的應用潛力。傳統(tǒng)視頻生成模型在空間一致性和探索范圍上存在明顯局限,而混元Voyager通過引入場景深度預測技術,將視頻生成與3D建模優(yōu)勢相融合,實現(xiàn)了基于相機可控的RGB-D視頻合成。
該模型的技術框架創(chuàng)新性地結合了空間與特征記憶機制,支持原生的3D記憶和場景重建,避免了傳統(tǒng)后處理帶來的延遲與精度損失。用戶可通過鍵盤或搖桿控制生成對應的視頻畫面,系統(tǒng)通過3D空間記憶保持畫面高度一致性,并可實現(xiàn)與Genie3等可交互視頻模型類似的功能。同時,混元Voyager支持將生成視頻無損導出為3D點云,無需依賴COLMAP等額外重建工具,顯著提升了應用效率。
在性能表現(xiàn)方面,混元Voyager在斯坦福大學李飛飛團隊發(fā)布的世界模型基準測試WorldScore中位居綜合能力首位,在視頻生成和3D重建任務上均優(yōu)于現(xiàn)有開源方法。其重建的3D高斯散射(3DGS)場景在精確度上表現(xiàn)突出,進一步驗證了模型的有效性。
混元Voyager與此前已開源的混元世界模型1.0高度適配,能夠擴展1.0模型的漫游范圍,提升復雜場景的生成質量,并支持對生成場景的風格化控制和編輯。此外,該模型還具備視頻場景重建、3D物體紋理生成、視頻風格定制化生成和深度估計等多種功能,展現(xiàn)出其在3D理解與生成方面的綜合能力。
騰訊混元團隊在3D世界模型領域的開源進程正在加速。今年7月,混元3D世界模型1.0發(fā)布并開源,成為業(yè)界首個兼容傳統(tǒng)計算機圖形管線的可漫游世界生成模型;8月,團隊進一步推出1.0 Lite版本,降低顯存需求以支持消費級顯卡部署;而Voyager的發(fā)布則針對1.0版本在遮擋視圖和探索范圍上的限制進行了優(yōu)化,實現(xiàn)了超長漫游能力的提升。
騰訊混元系列模型在開源社區(qū)的影響力持續(xù)擴大。截至目前,其文生圖、視頻生成和3D生成等相關模型下載量已位居開源社區(qū)榜首。在基礎模型方面,騰訊還開源了混元large、Hunyuan-A13B等多個模型,覆蓋從端側小參數模型到大規(guī)模MoE架構的多樣化需求。
混元Voyager的發(fā)布不僅體現(xiàn)了騰訊在人工智能,尤其是3D生成與空間智能領域的技術積累,也為行業(yè)提供了新的工具和可能性。隨著虛擬現(xiàn)實、仿真技術和交互式內容需求的增長,此類模型有望在多個垂直領域發(fā)揮重要作用。
目前,混元Voyager的相關技術報告已公開,源代碼在GitHub和Hugging Face平臺上免費開放,供研究者和開發(fā)者進一步探索與應用。
(注:本文在資料搜集、框架搭建及部分段落初稿撰寫階段使用了 AI 工具,最終內容經人類編輯核實事實、調整邏輯、優(yōu)化表達后完成。)
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )