熟女久久中文,黄91久久久人妻,日本黄五区,青青久久久,色999日韩,欧美熟女草逼,99国内精品久久,色天使亚洲,人妻丰满精品一区二

正在閱讀:美團正式發(fā)布LongCat-Flash-Omni

美團正式發(fā)布LongCat-Flash-Omni

2025-11-04 11:51:09來源:“美團Meituan”微信公眾號 關(guān)鍵詞:美團LongCat-Flash-Omni大模型閱讀量:29976

導(dǎo)讀:綜合評估結(jié)果表明,LongCat-Flash-Omni 在全模態(tài)基準測試中達到開源最先進水平(SOTA),同時在文本、圖像、視頻理解及語音感知與生成等關(guān)鍵單模態(tài)任務(wù)中,均展現(xiàn)出極強的競爭力。
  自9月1日,美團正式發(fā)布 LongCat-Flash 系列模型,現(xiàn)已開源 LongCat-Flash-Chat 和 LongCat-Flash-Thinking 兩大版本,獲得了開發(fā)者的關(guān)注。今天 LongCat-Flash 系列再升級,正式發(fā)布全新家族成員——LongCat-Flash-Omni。
 
  LongCat-Flash-Omni 以 LongCat-Flash 系列的高效架構(gòu)設(shè)計為基礎(chǔ)( Shortcut-Connected MoE,含零計算專家),同時創(chuàng)新性集成了高效多模態(tài)感知模塊與語音重建模塊。即便在總參數(shù) 5600 億(激活參數(shù) 270 億)的龐大參數(shù)規(guī)模下,仍實現(xiàn)了低延遲的實時音視頻交互能力,為開發(fā)者的多模態(tài)應(yīng)用場景提供了更高效的技術(shù)選擇。
 
  綜合評估結(jié)果表明,LongCat-Flash-Omni 在全模態(tài)基準測試中達到開源最先進水平(SOTA),同時在文本、圖像、視頻理解及語音感知與生成等關(guān)鍵單模態(tài)任務(wù)中,均展現(xiàn)出極強的競爭力。LongCat-Flash-Omni 是業(yè)界首個實現(xiàn)“全模態(tài)覆蓋、端到端架構(gòu)、大參數(shù)量高效推理”于一體的開源大語言模型,首次在開源范疇內(nèi)實現(xiàn)了全模態(tài)能力對閉源模型的對標,并憑借創(chuàng)新的架構(gòu)設(shè)計與工程優(yōu)化,讓大參數(shù)模型在多模態(tài)任務(wù)中也能實現(xiàn)毫秒級響應(yīng),解決了行業(yè)內(nèi)推理延遲的痛點。
 
  ?  模型已同步開源,歡迎體驗:
 
  極致性能的一體化全模態(tài)架構(gòu)
 
  LongCat-Flash-Omni 是一款擁有極致性能的開源全模態(tài)模型,在一體化框架中整合了離線多模態(tài)理解與實時音視頻交互能力。該模型采用完全端到端的設(shè)計,以視覺與音頻編碼器作為多模態(tài)感知器,由 LLM 直接處理輸入并生成文本與語音token,再通過輕量級音頻解碼器重建為自然語音波形,實現(xiàn)低延遲的實時交互。所有模塊均基于高效流式推理設(shè)計,視覺編碼器、音頻編解碼器均為輕量級組件,參數(shù)量均約為6億,延續(xù)了 LongCat-Flash 系列的創(chuàng)新型高效架構(gòu)設(shè)計,實現(xiàn)了性能與推理效率間的最優(yōu)平衡。
 
  大規(guī)模、低延遲的音視頻交互能力
 
  LongCat-Flash-Omni 突破 “大參數(shù)規(guī)模與低延遲交互難以兼顧” 的瓶頸,在大規(guī)模架構(gòu)基礎(chǔ)上實現(xiàn)高效實時音視頻交互。該模型總參數(shù)達 5600 億(激活參數(shù) 270 億),卻依托 LongCat-Flash 系列創(chuàng)新的 ScMoE 架構(gòu)(含零計算專家)作為 LLM 骨干,結(jié)合高效多模態(tài)編解碼器和“分塊式音視頻特征交織機制”,最終實現(xiàn)低延遲、高質(zhì)量的音視頻處理與流式語音生成。模型支持 128K tokens 上下文窗口及超 8 分鐘音視頻交互,在多模態(tài)長時記憶、多輪對話、時序推理等能力上具備顯著優(yōu)勢。
 
  漸進式早期多模融合訓練策略
 
  全模態(tài)模型訓練的核心挑戰(zhàn)之一是 “不同模態(tài)的數(shù)據(jù)分布存在顯著異質(zhì)性”,LongCat-Flash-Omni 采用漸進式早期多模融合訓練策略,在平衡數(shù)據(jù)策略與早期融合訓練范式下,逐步融入文本、音頻、視頻等模態(tài),確保全模態(tài)性能強勁且無任何單模態(tài)性能退化。
 
  預(yù)訓練階段
 
  階段 0:大規(guī)模文本預(yù)訓練,利用成熟穩(wěn)定的大語言模型為后續(xù)多模態(tài)學習奠定堅實基礎(chǔ);
 
  階段 1:引入與文本結(jié)構(gòu)更接近的語音數(shù)據(jù),實現(xiàn)聲學表征與語言模型特征空間的對齊,有效整合副語言信息;
 
  階段 2:在 文本 - 語音對齊基礎(chǔ)上,融入大規(guī)模圖像 - 描述對與視覺 - 語言交織語料,實現(xiàn)視覺 - 語言對齊,豐富模型視覺知識;
 
  階段 3:引入最復(fù)雜的視頻數(shù)據(jù),實現(xiàn)時空推理,同時整合更高質(zhì)量、更多樣化的圖像數(shù)據(jù)集以增強視覺理解;
 
  階段 4:將模型上下文窗口從 8K 擴展至 128K tokens,進一步支持長上下文推理與多輪交互;
 
  階段 5:為緩解離散語音 tokens 的信息丟失,進行音頻編碼器對齊訓練,使模型能直接處理連續(xù)音頻特征,提升下游語音任務(wù)的保真度與穩(wěn)健性。
 
  經(jīng)過全面的綜合評估顯示:LongCat-Flash-Omni 不僅在綜合性的全模態(tài)基準測試(如Omni-Bench, WorldSense)上達到了開源最先進水平(SOTA),其在文本、圖像、音頻、視頻等各項模態(tài)的能力均位居開源模型前列,真正實現(xiàn)了“全模態(tài)不降智”。
 
  LongCat-Flash-Omni 的基準測試性能
 
  文本:LongCat-Flash-Omni 延續(xù)了該系列卓越的文本基礎(chǔ)能力,且在多領(lǐng)域均呈現(xiàn)領(lǐng)先性能。相較于 LongCat-Flash 系列早期版本,該模型不僅未出現(xiàn)文本能力的衰減,反而在部分領(lǐng)域?qū)崿F(xiàn)了性能提升。這一結(jié)果不僅印證了我們訓練策略的有效性,更凸顯出全模態(tài)模型訓練中不同模態(tài)間的潛在協(xié)同價值。
 
  圖像理解:LongCat-Flash-Omni 的性能(RealWorldQA 74.8分)與閉源全模態(tài)模型 Gemini-2.5-Pro 相當,且優(yōu)于開源模型 Qwen3-Omni;多圖像任務(wù)優(yōu)勢尤為顯著,核心得益于高質(zhì)量交織圖文、多圖像及視頻數(shù)據(jù)集上的訓練成果。
 
  音頻能力:從自動語音識別(ASR)、文本到語音(TTS)、語音續(xù)寫維度進行評估,Instruct Model 層面表現(xiàn)突出:ASR 在 LibriSpeech、AISHELL-1 等數(shù)據(jù)集上優(yōu)于 Gemini-2.5-Pro;語音到文本翻譯(S2TT)在 CoVost2 表現(xiàn)強勁;音頻理解在 TUT2017、Nonspeech7k 等任務(wù)達當前最優(yōu);音頻到文本對話在 OpenAudioBench、VoiceBench 表現(xiàn)優(yōu)異,實時音視頻交互評分接近閉源模型,類人性指標優(yōu)于 GPT-4o,實現(xiàn)基礎(chǔ)能力到實用交互的高效轉(zhuǎn)化。
 
  視頻理解:LongCat-Flash-Omni 視頻到文本任務(wù)性能達當前最優(yōu),短視頻理解大幅優(yōu)于現(xiàn)有參評模型,長視頻理解比肩 Gemini-2.5-Pro 與 Qwen3-VL,這得益于動態(tài)幀采樣、分層令牌聚合的視頻處理策略,及高效骨干網(wǎng)絡(luò)對長上下文的支持。
 
  跨模態(tài)理解:性能優(yōu)于 Gemini-2.5-Flash(非思考模式),比肩 Gemini-2.5-Pro(非思考模式);尤其在真實世界音視頻理解WorldSense 基準測試上,相較其他開源全模態(tài)模型展現(xiàn)出顯著的性能優(yōu)勢,印證其高效的多模態(tài)融合能力,是當前綜合能力領(lǐng)先的開源全模態(tài)模型。
 
  端到端交互:由于目前行業(yè)內(nèi)尚未有成熟的實時多模態(tài)交互評估體系,LongCat 團隊構(gòu)建了一套專屬的端到端評測方案,該方案由定量用戶評分(250 名用戶評分)與定性專家分析(10 名專家,200 個對話樣本)組成。定量結(jié)果顯示:圍繞端到端交互的自然度與流暢度,LongCat-Flash-Omni 在開源模型中展現(xiàn)出顯著優(yōu)勢 —— 其評分比當前最優(yōu)開源模型 Qwen3-Omni 高出 0.56 分;定性結(jié)果顯示:LongCat-Flash-Omni 在副語言理解、相關(guān)性與記憶能力三個維度與頂級模型持平,但是在實時性、類人性與準確性三個維度仍存在差距,也將在未來工作中進一步優(yōu)化。
 
  快來跟LongCat語音吧!
 
  另外,我們非常激動的告訴大家,LongCat 官方 App 現(xiàn)已正式發(fā)布,支持聯(lián)網(wǎng)搜索,還可以發(fā)起語音通話(視頻通話功能敬請期待)。
 
  iOS用戶可直接在APP Store中搜索“LongCat”獲取。
 
  LongCat-Flash-Omni 在開源平臺已上線,歡迎開發(fā)者們探索和使用。
 
  我們期待聽到您的反饋。
 
  原標題:LongCat-Flash-Omni 正式發(fā)布并開源:開啟全模態(tài)實時交互時代
我要評論
文明上網(wǎng),理性發(fā)言。(您還可以輸入200個字符)

所有評論僅代表網(wǎng)友意見,與本站立場無關(guān)。

  • “Token詞元經(jīng)濟”崛起 中國日均調(diào)用量已突破140萬億

    當日均百萬億級的調(diào)用量成為常態(tài),Token已不再是簡單的計費單元,而是構(gòu)建AI產(chǎn)業(yè)化閉環(huán)的關(guān)鍵基石。Token“詞元”不僅是智能時代的價值錨點,更是連接技術(shù)供給與商業(yè)需求的“結(jié)算單位”,為商業(yè)模式的落地提供了可量化的可能。
    Token詞元經(jīng)濟大模型
    2026-03-25 14:19:43
  • 中科曙光:開放算力,夯實中國大模型Token出海底氣

    大模型運營成本中電力與算力占比超70%,中國綠電優(yōu)勢的充分釋放,亟需可規(guī)?;?、高性價比的算力底座。中科曙光秉持開放普惠理念,搭建高效算力平臺,助力更多國產(chǎn)大模型依托經(jīng)濟高效穩(wěn)定的算力,實現(xiàn)用戶高速增長和Token出海。
    中科曙光算力大模型
    2026-03-09 10:43:30
  • 總金額超80億元 近期投融資事件盤點

    近日,不少智慧城市領(lǐng)域企業(yè)宣布完成數(shù)千萬元融資,小編在本文中整理了近期融資的科技企業(yè)。
    機器人大模型投融資事件
    2026-01-29 09:20:43
  • 2025年度山東省人工智能產(chǎn)業(yè)高質(zhì)量發(fā)展十大亮點

    為系統(tǒng)呈現(xiàn)一年來全省在人工智能領(lǐng)域取得的突破性成果與標志性進展,經(jīng)過公開征集、多部門會商和專家評審,凝練形成2025年度山東省人工智能產(chǎn)業(yè)高質(zhì)量發(fā)展十大亮點。
    人工智能大模型
    2026-01-28 09:47:08
  • 千問被發(fā)射“上天”!全球首次實現(xiàn)大模型太空在軌部署

    2025年11月,國星宇航成功將千問3(Qwen3)大模型部署至“星算”計劃01組太空計算中心。這是全球首次將通用大模型從地面上注至在軌運行的衛(wèi)星,實現(xiàn)在軌部署。
    國星宇航大模型
    2026-01-27 13:06:06
  • 推進張江人工智能創(chuàng)新小鎮(zhèn)建設(shè),浦東出臺工作方案

    為推進張江人工智能創(chuàng)新小鎮(zhèn)加速打造世界級人工智能應(yīng)用創(chuàng)新集聚區(qū),構(gòu)建世界級人工智能產(chǎn)業(yè)集群,浦東出臺了《浦東新區(qū)推進張江人工智能創(chuàng)新小鎮(zhèn)建設(shè)工作方案》。
    人工智能大模型
    2026-01-22 09:30:23
版權(quán)與免責聲明:

凡本站注明“來源:智能制造網(wǎng)”的所有作品,均為浙江興旺寶明通網(wǎng)絡(luò)有限公司-智能制造網(wǎng)合法擁有版權(quán)或有權(quán)使用的作品,未經(jīng)本站授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的,應(yīng)在授權(quán)范圍內(nèi)使用,并注明“來源:智能制造網(wǎng)”。違反上述聲明者,本站將追究其相關(guān)法律責任。

本站轉(zhuǎn)載并注明自其它來源(非智能制造網(wǎng))的作品,目的在于傳遞更多信息,并不代表本站贊同其觀點或和對其真實性負責,不承擔此類作品侵權(quán)行為的直接責任及連帶責任。如其他媒體、平臺或個人從本站轉(zhuǎn)載時,必須保留本站注明的作品第一來源,并自負版權(quán)等法律責任。如擅自篡改為“稿件來源:智能制造網(wǎng)”,本站將依法追究責任。

鑒于本站稿件來源廣泛、數(shù)量較多,如涉及作品內(nèi)容、版權(quán)等問題,請與本站聯(lián)系并提供相關(guān)證明材料:聯(lián)系電話:0571-89719789;郵箱:1271141964@qq.com。

不想錯過行業(yè)資訊?

訂閱 智能制造網(wǎng)APP

一鍵篩選來訂閱

信息更豐富

推薦產(chǎn)品/PRODUCT 更多
智造商城:

PLC工控機嵌入式系統(tǒng)工業(yè)以太網(wǎng)工業(yè)軟件金屬加工機械包裝機械工程機械倉儲物流環(huán)保設(shè)備化工設(shè)備分析儀器工業(yè)機器人3D打印設(shè)備生物識別傳感器電機電線電纜輸配電設(shè)備電子元器件更多

我要投稿
  • 投稿請發(fā)送郵件至:(郵件標題請備注“投稿”)1271141964.qq.com
  • 聯(lián)系電話0571-89719789
工業(yè)4.0時代智能制造領(lǐng)域“互聯(lián)網(wǎng)+”服務(wù)平臺
智能制造網(wǎng)APP

功能豐富 實時交流

智能制造網(wǎng)小程序

訂閱獲取更多服務(wù)

微信公眾號

關(guān)注我們

抖音

智能制造網(wǎng)

抖音號:gkzhan

打開抖音 搜索頁掃一掃

視頻號

智能制造網(wǎng)

公眾號:智能制造網(wǎng)

打開微信掃碼關(guān)注視頻號

快手

智能制造網(wǎng)

快手ID:gkzhan2006

打開快手 掃一掃關(guān)注
意見反饋
我要投稿
我知道了
鸡东县| 东乌珠穆沁旗| 保定市| 视频| 宁武县| 普安县| 西和县| 呼图壁县| 二连浩特市| 吴堡县| 淄博市| 泰安市| 舞钢市| 青岛市| 馆陶县| 乌恰县| 磐石市| 九龙城区| 荔波县| 汝南县| 永嘉县| 清水河县| 静宁县| 米易县| 克山县| 津南区| 连州市| 关岭| 新密市| 忻州市| 若尔盖县| 湖南省| 两当县| 泰来县| 绥宁县| 罗甸县| 富裕县| 丽水市| 黑山县| 浏阳市| 宣威市|