近日,快手可靈全球視覺(jué)AI領(lǐng)域的大技年度盛會(huì)CVPR 2025在美國(guó)田納西州納什維爾召開(kāi),快手可靈AI事業(yè)部萬(wàn)鵬飛博士在備受矚目的術(shù)方世界“From Video Generation to World Model” Tutorial(《從視頻生成到世界模型》專題講座)上,發(fā)表了題為An Introduction to Kling and 向布Our Research towards More Powerful Video Genaration Models的報(bào)告,從模型架構(gòu)與生成算法、局視互動(dòng)與可控能力、頻生效果評(píng)估與對(duì)齊機(jī)制、成及多模態(tài)理解和推理四大技術(shù)方向介紹了可靈AI團(tuán)隊(duì)在視頻生成及世界模型領(lǐng)域的模型最新進(jìn)展與思考。
先進(jìn)的快手可靈模型結(jié)構(gòu)與生成算法(Advanced Model Architectures and Generation Algorithms)
Scaling laws在大語(yǔ)言模型中已經(jīng)有眾多研究工作和實(shí)際應(yīng)用,但視頻生成領(lǐng)域缺乏精準(zhǔn)好用的大技scaling laws公式??伸`團(tuán)隊(duì)通過(guò)嚴(yán)謹(jǐn)?shù)男g(shù)方世界實(shí)驗(yàn)與分析,首次建立了超參數(shù)、向布模型規(guī)模與計(jì)算預(yù)算之間的局視精確數(shù)學(xué)關(guān)系。這個(gè)成果讓我們可以更科學(xué)地設(shè)置模型參數(shù)規(guī)模和關(guān)鍵參數(shù),頻生從而更充分的成及發(fā)揮算力和數(shù)據(jù)資源的價(jià)值,達(dá)成更優(yōu)的模型效果。參考論文:Towards Precise Scaling Laws For Video Diffusion Transformers
可靈團(tuán)隊(duì)還推出了面向擴(kuò)散模型的混合專家(MoE)架構(gòu)DiffMoE?;谌址秶膖oken選擇機(jī)制和配套的推理策略,DiffMoE可根據(jù)擴(kuò)散模型在不同生成階段的異構(gòu)特性,更合理地分配計(jì)算資源。在圖像生成中,僅需激活1倍的參數(shù)量,便能達(dá)到3倍規(guī)模的密集模型的生成性能。參考論文:DiffMoE: Dynamic Token Selection For Scalable Diffusion Transformers
強(qiáng)大的交互與可控能力(Powerful Interaction and Control Capacities)
可靈團(tuán)隊(duì)提出了一個(gè)多任務(wù)視頻生成模型框架FullDiT,將所有時(shí)空條件作為上下文無(wú)縫融合到一個(gè)統(tǒng)一的Diffusion Transformer架構(gòu)中。FullDiT不需要針對(duì)不同任務(wù)更改模型結(jié)構(gòu),降低了各種不同控制條件之間的沖突,且展示出了優(yōu)秀的可擴(kuò)展性甚至涌現(xiàn)能力。參考論文:FullDiT: Multi-Task Video Generative Foundation Model with Full Attention
在交互式視頻生成方向,可靈團(tuán)隊(duì)提出了GameFactory框架,只需少量帶有動(dòng)作控制信息的視頻訓(xùn)練數(shù)據(jù),即可支持可泛化到不同游戲場(chǎng)景的連續(xù)(如鼠標(biāo))和離散(如鍵盤)的動(dòng)作控制能力。參考論文:GameFactory: Creating New Games with Generative Interactive Videos
準(zhǔn)確的評(píng)估和對(duì)齊機(jī)制(Accurate Evaluation and Alignment Mechanisms)
可靈團(tuán)隊(duì)構(gòu)建了一套基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)的視頻生成框架,包括多維偏好數(shù)據(jù)構(gòu)造、基于VLM的Reward模型,以及多種對(duì)齊算法。該框架是最早的系統(tǒng)性闡述如何應(yīng)用RLHF到視頻生成任務(wù)的工作之一。參考論文:Improving Video Generation with Human Feedback
此外,面向圖像和視頻生成領(lǐng)域主流的流匹配(Flow Matching)生成算法,團(tuán)隊(duì)通過(guò)ODE-to-SDE(常微分方程轉(zhuǎn)換到對(duì)應(yīng)的隨機(jī)微分方程)等方案,有效解決了流匹配缺乏隨機(jī)性以及多步生成計(jì)算效率低的問(wèn)題,提出了首個(gè)將GRPO引入流匹配模型的在線強(qiáng)化學(xué)習(xí)(RL)算法Flow-GRPO,并證明了其在圖像生成任務(wù)中的有效性。參考論文:Flow-GRPO: Training Flow Matching Models via Online RL
多模態(tài)感知與推理(Multimodal Perception and Reasoning)
視頻captioner(視頻內(nèi)容的文本描述模型)對(duì)最終的視頻生成效果非常關(guān)鍵,但行業(yè)中缺乏好的效果評(píng)估的方法??伸`團(tuán)隊(duì)提出一個(gè)視頻captioner評(píng)估框架VideoCapBench,具備穩(wěn)定性和可靠性更高、以及與最終視頻生成效果相關(guān)性強(qiáng)的優(yōu)點(diǎn)。參考論文: VidCapBench: A Comprehensive Benchmark of Video Captioning for Controllable Text-to-Video Generation
面向用戶意圖理解,可靈團(tuán)隊(duì)提出的Any2Caption按照一種統(tǒng)一的方式理解多模態(tài)用戶輸入信息,進(jìn)而生成語(yǔ)義豐富的結(jié)構(gòu)化描述,可顯著提升視頻生成的成功率。參考論文:Any2Caption: Interpreting Any Condition to Caption for Controllable Video Generation
除tutorial報(bào)告外,本屆CVPR上可靈共有7篇論文入選,涵蓋視頻模型scaling law、視頻數(shù)據(jù)集、可控生成、人像生成、高清生成、4D生成等多個(gè)方向。
本文來(lái)源:http://www.iv82.cn/news/97a31999583.html
版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容,請(qǐng)發(fā)送郵件舉報(bào),一經(jīng)查實(shí),本站將立刻刪除。