實(shí)測4款國產(chǎn)頭部AI視頻大模型:不及預期、差異明顯
成為“中國版的Sora”遠不是這場(chǎng)AI視頻大模型競賽的終點(diǎn),而恰恰只是起點(diǎn)。
@科技新知?原創(chuàng )
作者丨余寐 編輯丨賽柯
六個(gè)月前,由OpenAI研發(fā)的文生視頻大模型Sora橫空出世,給了科技圈一點(diǎn)大大的震撼。
用AI生成視頻并不是新鮮事,只不過(guò)此前一直無(wú)法突破合成10秒自然連貫視頻的瓶頸。而Sora在發(fā)布時(shí)就已經(jīng)能合成1分鐘超長(cháng)視頻,視頻質(zhì)量畫(huà)面也效果驚人。
盡管Sora一直沒(méi)有開(kāi)放公測供用戶(hù)體驗,但其底層架構還是被扒了個(gè)遍。被稱(chēng)之為“Sora路線(xiàn)”的DiT,全稱(chēng)為Diffusion Transformer,本質(zhì)是把訓練大模型方法機制融入到了擴散模型之中。
自此,相關(guān)平臺不甘落后,紛紛摸著(zhù)Sora過(guò)河,你方唱罷我登場(chǎng),競爭不可謂不激烈。有媒體統計,國內有至少超20家公司推出了自研AI視頻產(chǎn)品/模型。入局玩家紛雜。
在剛剛過(guò)去的7月,商湯推出最新AI視頻模型 Vimi,阿里達摩院也發(fā)布AI視頻創(chuàng )作平臺“尋光”,愛(ài)詩(shī)科技則發(fā)布PixVerse V2,快手可靈宣布基礎模型再次升級,并全面開(kāi)放內測,智譜AI也宣布AI生成視頻模型清影(Ying)正式上線(xiàn)智譜清言?;ヂ?lián)網(wǎng)企業(yè)之間的賽場(chǎng)也有了新故事。字節跳動(dòng)是第一批發(fā)布AI視頻模型的選手,3月率先發(fā)布剪映Dreamina(即夢(mèng)),三個(gè)月后,快手可靈AI正式開(kāi)放內測。
AI視頻大模型賽道如此之“卷”,究其原因,無(wú)疑是其背后蘊藏的商業(yè)空間與想象力。不過(guò),用戶(hù)更關(guān)心的是產(chǎn)品本身。這也是行業(yè)必須要直面的問(wèn)題:AI視頻大模型到了哪一步?Sora帶來(lái)的“光環(huán)”,究竟值不值得期待?
目前深度學(xué)習的框架,“數據是燃料、模型是引擎、算力是加速器”。在掌握模型搭建方法后,不斷投喂數據并提升算力和準確性是各平臺采取的主要策略。而進(jìn)展是有限的。普遍來(lái)看,大模型在生成具有連貫性和邏輯一致性的視頻方面仍然存在困難。
本次我們選取幾個(gè)國內頭部視頻生成模型進(jìn)行實(shí)測,包括可靈、即夢(mèng)、PixVerse、清影(智譜清言),具體直觀(guān)地測試不同的模型表現。
為盡可能客觀(guān)地比較測試結果,我們采用如下設定:
1.使用統一的中文提示詞,包括簡(jiǎn)易提示詞和復合提示詞;
2.測試包含圖生視頻和文生視頻兩種方式;
3.測試場(chǎng)景包括大模型對人物、動(dòng)物、城市建筑等的生成效果;
4.模擬新手用戶(hù)使用場(chǎng)景,統一采用各模型平臺電腦端默認設置;
5.展示呈現采用一次生成結果,不進(jìn)行二次調整優(yōu)化。
以下是各模型的實(shí)際生成效果:
場(chǎng)景1:二次創(chuàng )作場(chǎng)景
提示詞:做出加油的動(dòng)作后做出鬼臉,吐舌頭并眨右眼。
場(chǎng)景說(shuō)明:使用梗圖《握拳寶寶》,模擬用戶(hù)二次創(chuàng )作,測試模型對于圖片的理解和生成能力。對于模型主要的難點(diǎn)在于需要理解“鬼臉”的含義,并能對“吐舌頭”和“眨眼”兩個(gè)動(dòng)作做出反饋和生成?,F階段,模型一般只能識別一個(gè)動(dòng)詞。
網(wǎng)絡(luò )上曾經(jīng)爆火的“握拳寶寶”
↑即夢(mèng):主體的手部、嘴部產(chǎn)生了明顯畸變,對于提示詞動(dòng)作的理解沒(méi)有非常明顯。
↑ 可靈: 主體動(dòng)作流暢自然,具有真實(shí)感,對于提示詞動(dòng)作理解不夠到位。?
↑PixVerse:主體動(dòng)作流暢自然,能夠做出提示詞相關(guān)的動(dòng)作,這是幾個(gè)生成視頻中唯一一個(gè)做出“眨眼”動(dòng)作的模型。?
↑清影:不敢說(shuō)話(huà)了,我怕說(shuō)錯了一不小心被吃掉。?
場(chǎng)景2:人物吃東西場(chǎng)景
提示詞:一個(gè)亞洲年輕男性在家里用筷子津津有味地吃一碗面條,風(fēng)格真實(shí),類(lèi)似于電影《天使愛(ài)美麗》,環(huán)境舒適溫馨,鏡頭逐漸拉近對準人物。
場(chǎng)景說(shuō)明:對于模型來(lái)說(shuō),需要圍繞“亞洲年輕男性”“筷子”“面條”生成視頻,同時(shí)要理解電影風(fēng)格和環(huán)境,并按照指示進(jìn)行運鏡。更重要的是,通過(guò)吃飯這個(gè)場(chǎng)景可以更清晰地讓模型展示手部細節,并通過(guò)吃面條這個(gè)動(dòng)作來(lái)展示模型對于物理世界的理解。
↑即夢(mèng):第一幀很帥,光影也很自然。但依舊存在臉部和手部畸變的問(wèn)題,以及模型明顯不能夠理解筷子的使用方式和面條的食用方式。?
↑可靈: 非常驚艷的視頻! 環(huán)境的光線(xiàn)、人物的坐姿和使用筷子的手部姿勢都非常真實(shí),甚至嘴部的油光反射都清晰可見(jiàn),不愧是據說(shuō)可靈最擅長(cháng)的吃播領(lǐng)域。 唯一是面條的運動(dòng)軌跡有一些小暇疵。?
↑PixVerse:慘不忍睹,甚至還被動(dòng)卡出了一個(gè)不連貫的分鏡,也沒(méi)有理解運鏡。?
↑清影:如果不看主體人物動(dòng)作,其實(shí)還算過(guò)得去。光線(xiàn)、環(huán)境和氛圍都到位了。?
場(chǎng)景3:動(dòng)物擬人場(chǎng)景
提示詞(簡(jiǎn)單版):一頭大熊貓戴著(zhù)金邊眼鏡在教室黑板前講課。
提示詞(復雜版):電影膠片感風(fēng)格的場(chǎng)景中,一頭大熊貓戴著(zhù)金邊眼鏡,在教室黑板前講課。它的動(dòng)作自然流暢,周?chē)浅錆M(mǎn)質(zhì)感的教室環(huán)境,學(xué)生們認真聽(tīng)講。整個(gè)場(chǎng)景如同電影畫(huà)面,光影處理細膩,色彩飽滿(mǎn)。電影膠片感風(fēng)格,氣氛溫馨,8K電影級。
場(chǎng)景說(shuō)明:該場(chǎng)景通過(guò)設置兩版提示詞,來(lái)測試大模型對于想象力的理解。簡(jiǎn)單版提示詞僅有大熊貓、金邊眼鏡、黑板,模型可以通過(guò)這三個(gè)關(guān)鍵詞生成具有可自主添加其他內容的視頻,來(lái)展現模型的想象力和細節搭建;復雜版提示詞按照清影內設的提示詞調試小程序生成,涉及場(chǎng)景、風(fēng)格、人物、環(huán)境、色彩、氛圍和清晰度等,測試模型的細節刻畫(huà)。
先看簡(jiǎn)單版提示詞生成的效果:
↑即夢(mèng):很不錯的視頻生成,除了“金邊眼鏡”外,要素齊全,神態(tài)動(dòng)作也非常自然,光影非常優(yōu)秀。黑板上的字甚至有些以假亂真。?
↑可靈:各種素材都齊了,但是沒(méi)能特別理解講課和吃竹子的區別。為了減少失誤,畫(huà)面整體相對單調,沒(méi)有添加更多細節。?
↑PixVerse:要素都齊全,風(fēng)格也不錯,就是眼鏡稍微有點(diǎn)出戲(也比沒(méi)有強)?
↑清影:完全沒(méi)有領(lǐng)悟提示詞的意思表達?
升級提示詞后的效果:
↑即夢(mèng):效果依然不錯,光影理解也在線(xiàn),唯一小瑕疵還是眼鏡部分,有畸變,以及好像不太能理解“講課”這一場(chǎng)景的座位排列。?
↑可靈:真·熊貓大師講課圖,沒(méi)得說(shuō),優(yōu)秀!?
↑PixVerse:模型自己添加了運鏡和細節成分,最后有一些扭曲,整體效果跟前一版差不多。?
↑清影:有景深和運鏡,畫(huà)面質(zhì)感還需要提升,相比前一版有了很大進(jìn)步。?
場(chǎng)景4:科技想象場(chǎng)景
提示詞(簡(jiǎn)單版):充滿(mǎn)科技感的未來(lái)城市一角,仰視視角。
提示詞(復雜版):在充滿(mǎn)科技感的科幻風(fēng)格未來(lái)城市中,使用推近鏡頭,展現建筑和交通工具的細節,無(wú)人機在空中穿梭,天氣晴朗,陽(yáng)光灑在高樓大廈的玻璃幕墻上陽(yáng)光透過(guò)高樓的縫隙灑下,周?chē)h(huán)境充滿(mǎn)未來(lái)感,科幻風(fēng)格,氣氛激昂明朗,HDR高動(dòng)態(tài)。
場(chǎng)景說(shuō)明:該場(chǎng)景同樣設置兩版關(guān)鍵詞,簡(jiǎn)單版只給出科技感、城市和視角三個(gè)關(guān)鍵詞,由模型填充生成剩下的內容;復雜版提示詞同樣使用清影的提示詞調試程序生成,涉及風(fēng)格、運鏡、場(chǎng)景、環(huán)境、色彩、氣氛和清晰度。一方面,該場(chǎng)景主要測試模型在不同顆粒度的提示詞下所生成的視頻內容豐富性;另一方面?!拔磥?lái)”是現實(shí)物理世界與想象世界的結合,可以測試模型對于建筑、光影和科幻的理解。
同樣先看簡(jiǎn)單版:
↑即夢(mèng):運鏡角度、色彩等方面做得都很好,突出了科技感,對于提示詞的理解是到位的。?
↑可靈:不出錯的方案。建筑有畸變,對于“未來(lái)”的想象力有一些欠缺,僅僅是城市建筑的堆砌。不過(guò)能夠在建筑外立面添加LED大屏,也算是一個(gè)亮點(diǎn)。?
↑PixVerse:科幻感十足,交通工具、城市、環(huán)境都做得非常到位。不過(guò)好像沒(méi)有特別理解仰視視角。?
↑清影:倒是對仰視視角非常有心得體會(huì ),但是色彩和“未來(lái)城市”對理解依然還是差一些。?
再看復雜提示詞版生成效果:
↑即夢(mèng):很優(yōu)秀的視頻了,除去無(wú)人機的物理運動(dòng)方式不能完全理解以外,對于提示詞和風(fēng)格的理解和把握非常到位。?
↑可靈:依然是不會(huì )出錯的方案,有一些畸變,就是看起來(lái)好像是北京動(dòng)物園公交樞紐的實(shí)拍是怎么回事。
↑PixVerse:有點(diǎn)抽象的科幻,不太知道該怎么評價(jià)?;冇行﹪乐?,但科幻感還是很足的。?
↑清影:陽(yáng)光很好,以至于只能看見(jiàn)玻璃幕墻。?
除了場(chǎng)景應用,我們還從另外四個(gè)維度對所選取的四個(gè)大模型進(jìn)行了測評:
視頻生成質(zhì)量和清晰度
內容生成準確性、一致性和豐富性
使用成本和價(jià)格
生成速度和交互界面
基于「科技新知」的測試情況,在視頻質(zhì)量和清晰度方面,可靈大模型在四個(gè)模型中更勝一籌,例如在生成大熊貓視頻時(shí),其能夠較為清晰細膩地表現出大熊貓毛發(fā)的紋理、質(zhì)感和色澤;對于物體的邊框勾勒也區分明確,畫(huà)面更真實(shí),相對來(lái)說(shuō)物體畸變也是最少的。清晰度方面,幾個(gè)大模型生成效果都還不錯,PixVerse效果相對落后。
從準確性和一致性比較,四個(gè)模型對于部分提示詞的忽略是普遍情況。對于兩個(gè)及以上動(dòng)詞,通常模型只會(huì )關(guān)注其中一個(gè),側重選擇哪些關(guān)鍵詞和關(guān)鍵信息也是考量模型理解能力的重要判斷方式。
從生成視頻的豐富性上,即夢(mèng)和PixVerse表現較好。在一些除主體元素外的細節方面,二者都在盡量擴充內容,尤其是即夢(mèng)對光線(xiàn)光影頗有理解。反觀(guān)可靈,在這部分則相對保守,主要以保證主體元素和動(dòng)作不出差錯為主要聚焦。
從使用成本上,目前四個(gè)模型均可以免費或付費使用。具體來(lái)看,截至測評日,清影可以無(wú)限量使用,可靈、即夢(mèng)和PicVerse則采用每日贈送積分點(diǎn)數的方式供用戶(hù)體驗。除此之外,每家的付費機制各有側重。
四個(gè)頭部AI視頻生成模型對比表
從生成速度上,我們同步實(shí)測了幾個(gè)模型的生成速度,得到如下結果:
四個(gè)頭部AI視頻生成模型生成速度對比表(數據測試時(shí)間為8月3日上午11時(shí))
從交互來(lái)看,在注冊登錄門(mén)檻上,清影僅采用手機驗證碼注冊登錄,相對簡(jiǎn)單;可靈支持手機驗證碼和快手賬號兩種登錄方式,默認使用手機驗證碼;PixVerse則遵循海外主流產(chǎn)品的登錄方式,提供谷歌、Discord綁定和郵箱三種登錄方式;即夢(mèng)帶有一貫的字節系產(chǎn)品特色,比如在電腦端使用產(chǎn)品之前,需要先下載抖音才能掃碼登錄,當然也可以選擇使用手機驗證碼登錄,但又必須授權抖音驗證。
在頁(yè)面布局上,PixVerse采用純英文界面,右上角為賬戶(hù)等個(gè)人信息,左側為功能性按鈕,界面交互非常簡(jiǎn)單,可調節參數也并不多,主要是正向提示詞、負提示詞,模型選擇,時(shí)長(cháng),畫(huà)面比例等。
可靈的頁(yè)面布局也類(lèi)似,使用傳統操作臺界面,右上角為賬戶(hù)信息,左側為調試臺,中間為預覽窗口,右側為歷史記錄,動(dòng)線(xiàn)流暢??烧{節等參數包括正向提示詞、創(chuàng )意想象力/創(chuàng )意相關(guān)性,生成模式、時(shí)長(cháng)、視頻比例、運鏡、負提示詞等。
智譜清言將AI生成視頻作為整個(gè)平臺的一個(gè)子功能,嵌入到平臺看板中,因此在界面布局上稍顯雜亂。界面共分為四個(gè)部分,最左側是平臺的功能模塊,再到歷史記錄、視頻預覽,對于生成視頻可操作性不高。最右側才是控制臺,僅有提示詞輸入,視頻風(fēng)格、情感氛圍和運鏡方式可以選擇,需要用戶(hù)自行探索部分隱性功能,有一定學(xué)習門(mén)檻。
即夢(mèng)模型主界面簡(jiǎn)潔,總體色調和布局承襲剪映的風(fēng)格,分為左側調試和右側預覽兩部分,調試部分與其他模型大同小異。在右側預覽部分,對生成的視頻可以實(shí)現延長(cháng)時(shí)長(cháng)、對口型、補幀、提升分辨率等會(huì )員功能,用于對生成視頻的調整,也符合用戶(hù)工作流習慣。
測評觀(guān)察
總體使用下來(lái),「科技新知」個(gè)人的感受是產(chǎn)品使用不及預期,頗有雷聲大雨點(diǎn)小之意。就「科技新知」的測試體驗而言,幾款模型中體驗最好的是可靈,不論是文生視頻還是圖生視頻,相對來(lái)說(shuō)都比較絲滑。對新手用戶(hù)來(lái)說(shuō),不需要掌握非常復雜的提示詞技巧,僅按照模型操作界面的提示,使用純自然語(yǔ)言就能夠達到相對滿(mǎn)意的效果。另一方面,生成的視頻在細節(比如手部)方面處理得較平滑,失誤率較少。對于現階段生成視頻通常需要“抽卡”(碰運氣)的賽道常態(tài)來(lái)說(shuō),減少失誤率就意味著(zhù)提升質(zhì)量。
在本次測試場(chǎng)景的反饋中,即夢(mèng)和PixVerse生成的視頻質(zhì)量相對不穩定,一定程度上表現出了模型穩定性還有待提升。而清影模型,不知是否因為訓練素材的原因,生成的視頻總是帶有濃郁的色彩和卡通風(fēng)格,讓人不由想起B站“學(xué)了五年動(dòng)畫(huà)的朋友”系列。
技術(shù)的發(fā)展固然鼓舞人心。除了速度提升以外,不少AI視頻生成模型已經(jīng)初步具備了“理解”世界的能力。即在視頻生成時(shí)可以理解物體運動(dòng)過(guò)程中的物理世界,也能預測視頻下一步可能發(fā)生什么。
但在實(shí)際應用層面,這類(lèi)大模型的局限也很顯然。5到10秒的可選視頻長(cháng)度對于用戶(hù)來(lái)說(shuō)稍顯尷尬,很難進(jìn)行任何故事性創(chuàng )作。目前最匹配的領(lǐng)域,或許只能是制作一些表情包或梗圖二次創(chuàng )作。企業(yè)并非沒(méi)有意識到問(wèn)題,只是現實(shí)很骨感——長(cháng)度限制是由開(kāi)發(fā)成本導致的?,F階段在A(yíng)I視頻生成賽道上,玩家比的不只是技術(shù),還有資金。為了“回血”,平臺紛紛設計了會(huì )員機制,怎奈花的比掙的多得多。
據調查機構 Factorial Funds 的數據,以 Sora 為例,它 30?億參數(主流猜測?)的訓練成本,比 1.8 萬(wàn)億參數的 GPT-4 還要多。這還只是訓練,實(shí)際使用的推理成本要更多。國內有 AI 企業(yè)做過(guò)一個(gè)折算,生成一個(gè)差不多兩分鐘的視頻,企業(yè)的成本是 180?元。收取的會(huì )員制費用相對于其研發(fā)成本來(lái)說(shuō)簡(jiǎn)直是九牛一毛。
從這個(gè)層面看,像抖音、快手這類(lèi)擁有短視頻平臺的玩家自帶天然優(yōu)勢。一方面,其訓練數據并不缺乏,另一方面,自身的海量用戶(hù)也使企業(yè)更容易實(shí)現商業(yè)化路徑的閉環(huán)。但變現門(mén)檻也無(wú)法忽視。設想一下,如果只是一名普通的C端用戶(hù),除了一開(kāi)始的新鮮勁兒,如何保證其付費率和付費意愿?
因此,成為“中國版的Sora”遠不是這場(chǎng)AI視頻大模型競賽的終點(diǎn),而恰恰只是起點(diǎn)。產(chǎn)品問(wèn)世之后,誰(shuí)能找到可持續的商業(yè)化之路,落地產(chǎn)業(yè)化應用,才是國產(chǎn)AI賽道的終極玩家。