文生視頻大模型,短視頻的過(guò)彎點(diǎn)?
摘要:這次,快手又先字節一步。
來(lái)源 | 伯虎財經(jīng)(bohuFN)
作者 | 楷楷
隨著(zhù)今年初Sora的橫空出世,這個(gè)可以創(chuàng )建長(cháng)達一分鐘視頻的文生視頻模型就成為了國內廠(chǎng)商追逐的焦點(diǎn)。
6月初,快手自研的視頻生成大模型“可靈”正式上線(xiàn)??伸`AI采用了與Sora相似的技術(shù)路線(xiàn),能夠生成具有合理運動(dòng)和模擬物理世界特性的視頻。
截至目前,已有超百萬(wàn)人排隊申請內測資格,其中超30萬(wàn)人已獲得試用資格,累計生成超700萬(wàn)條短視頻。近日,可靈AI終于宣布全面開(kāi)放內測,同時(shí)上線(xiàn)付費會(huì )員體系。
其他廠(chǎng)商也在迅速跟進(jìn)。7月,智譜AI 推出AI生成視頻模型智譜清言,用戶(hù)可在30秒內免費生成6秒視頻。
目前來(lái)看,被稱(chēng)為“國產(chǎn)版Sora”的可靈AI不僅熱度頗高,用戶(hù)對其評價(jià)也不錯,在Sora橫空出世卻遲遲未有完善產(chǎn)品落地的背景下,可靈AI甚至被視為“業(yè)內最佳”。
文生視頻大模型目前效果如何?為什么廠(chǎng)商們紛紛開(kāi)始卷文生視頻大模型?對于短視頻的競爭格局會(huì )有哪些影響?
01 劍走偏鋒,“可靈”大力出奇跡
可靈AI上線(xiàn)至今還不夠兩個(gè)月,已經(jīng)經(jīng)歷了三次迭代更新,從最開(kāi)始的文生視頻,到現在已可支持圖生視頻、視頻續寫(xiě)、多尺寸選擇,在生成細節、構圖、運鏡美觀(guān)性、光影方面都有很大改善。
據快手視覺(jué)生成與互動(dòng)中心負責人萬(wàn)鵬飛表示,?可靈AI生成的視頻分辨率高達1080p,時(shí)長(cháng)最高可達2分鐘(幀率30fps),單次文生視頻時(shí)長(cháng)已增至10秒,這一指標已超越了目前市場(chǎng)上大多數視頻生成工具。
當下,布局文生視頻賽道的大廠(chǎng)和創(chuàng )業(yè)公司并不少,不過(guò)大部分都沒(méi)有公布文生視頻模型的參數量級,快手也表示“不便透露”。因此,各企業(yè)均主要圍繞生成視頻的時(shí)長(cháng)、視頻的分辨率等指標展開(kāi)比拼。
?
目前來(lái)看,能實(shí)現“分鐘級”內容生產(chǎn)能力的,之前僅有Sora一顆獨苗,能夠生成長(cháng)達60秒的高清視頻,現在可靈AI則刷新了這一指標,將生成視頻時(shí)長(cháng)拉長(cháng)至2分鐘。
縱觀(guān)其它同類(lèi)競品,騰訊宣布旗下文生視頻模型生成時(shí)長(cháng)達到了16秒,預計在三季度達到20秒;字節旗“即夢(mèng)”最長(cháng)支持生成12秒視頻;美國創(chuàng )企Runway支持生成10秒左右的視頻,最多可延長(cháng)至18秒,但大部分文生視頻產(chǎn)品的生成時(shí)長(cháng)都在10秒左右。
所以,光看“時(shí)長(cháng)”這一點(diǎn),可靈AI確實(shí)暫時(shí)處于領(lǐng)先狀態(tài);而從“生成內容”這點(diǎn)來(lái)看,大部分用戶(hù)的評價(jià)均是“遠超預期”。
比如跟Runway的Gen-3相比,其只有文生視頻功能,但沒(méi)有圖生視頻功能;而可靈AI通過(guò)迭代新增的運鏡控制、首尾幀自定義等功能,也獲得了用戶(hù)的一致好評。
當然,可靈AI也還稱(chēng)不上“完美”,有用戶(hù)認為其對藝術(shù)風(fēng)格、攝影語(yǔ)言容易把握不準確,但在“吃東西”這一領(lǐng)域,可靈AI的表現要比其他產(chǎn)品更優(yōu)秀,這可能也跟快手短視頻更擅長(cháng)真實(shí)畫(huà)風(fēng)有關(guān)。
雖然,目前還不能說(shuō)可靈AI已經(jīng)能在業(yè)內“一騎絕塵”,但至少已做到了“一鳴驚人”,這樣的成績(jì)背后,則是快手版的“大力出奇跡”。
程序員出身的快手CEO程一笑,早在去年初快手就啟動(dòng)新的AI戰略,聚焦大語(yǔ)言模型、視覺(jué)生成模型、多模態(tài)模型等方向。
去年10月,快手重啟了一個(gè)名為“噗嘰”的項目,是一款將靜態(tài)圖片生成Gif表情包的工具軟件,這也是可靈AI的前身。
真正的變量則是今年初Sora的重磅發(fā)布,這讓萬(wàn)鵬看到了DiT(新型視頻生成架構)的可行性,快手才開(kāi)始探索打造“中國版Sora”。
據自媒體“硅星人Pro”報道,可靈項目開(kāi)始后不到一個(gè)月,就獲得了程一笑的支持,上升為公司戰略級項目??伸`團隊也很清楚,項目就是要趕在前面,搶先市場(chǎng),否則就沒(méi)有意義。
可靈AI從3月立項到6月上線(xiàn),僅僅花了3個(gè)月的時(shí)間,除了快手內部的資金、資源向其傾斜之外,技術(shù)大牛的加入也加速了可靈項目的研發(fā)創(chuàng )新,比如曾任騰訊AI實(shí)驗室高級研究員的王鑫濤加入了快手視覺(jué)生成與互動(dòng)中心。
引用知乎用戶(hù)“小林不加班”的回答,可靈AI采用了類(lèi)Sora的技術(shù)路線(xiàn),并結合了多項自研創(chuàng )新技術(shù),對視頻處理、生成能力以及空間壓縮,這三個(gè)問(wèn)題進(jìn)行優(yōu)化,使得模型效率和性能提高、能夠捕捉到更寬廣的特征范圍,模型對細節的識別能力也隨之增強。
02 大廠(chǎng)加速,押注下一個(gè)爆款
想做“中國版Sora”的可不止快手,據晚點(diǎn)LatePost報道,今年一季度,字節 AI 研發(fā)團隊將視頻生成模型的優(yōu)先級排在了前面;百度在年初推出的視頻生成模型UniVG,也被業(yè)內視為與Runway Gen-2相當。
另外,文生視頻領(lǐng)域開(kāi)源產(chǎn)品的能力也在提升。今年3月,潞晨科技開(kāi)源了旗下Open-Sora 1.0視頻生成模型,目前能單次生成大概20秒的視頻,隨著(zhù)開(kāi)源平臺的普及和能力提升,未來(lái)或許還會(huì )有更多文生視頻應用落地。當然,還有業(yè)內公認最強的對手Sora。
廠(chǎng)商們之所以紛紛下注,一方面是因為行業(yè)內確實(shí)存在海量的需求。相比于語(yǔ)言,視頻和圖片更接近文字,國內一些企業(yè)包括美圖等,早已支持“一鍵AI美顏”的功能。
另一方面,隨著(zhù)“百模大戰”逐漸退燒,當下的大模型企業(yè)已經(jīng)不再盲目追求通用大模型的規模,而是更傾向將大模型集成到產(chǎn)品和服務(wù),解決實(shí)際問(wèn)題并創(chuàng )造真正的商業(yè)價(jià)值。
而快手之所以能夠先拔頭籌,首先是因為快手作為頭部短視頻平臺,積累了大量的視頻內容,同時(shí)還通過(guò)智能算法對這些內容進(jìn)行細致的分類(lèi)和標注,這些視頻數據已經(jīng)被“清洗干凈”,可以直接供可靈AI使用。
而在硬件儲備方面,一直以來(lái),快手與英偉達就基于視頻處理有著(zhù)深度合作。早在2019年,快手便聯(lián)手英偉達部署GPU計算基礎架構,能讓業(yè)務(wù)性能平均增長(cháng)了2倍,成本較之前節省了 30% 以上??焓衷谒懔Ψ矫娴奈从昃I繆,也為可靈項目的快速推進(jìn)打下了基礎。
最后,當然是快手給了可靈項目最大的資源協(xié)調,有別于字節、阿里、騰訊等大廠(chǎng),它們不僅要投入通用大模型的研發(fā),旗下也有不止一個(gè)AIGC項目,“桃子”那么多,哪個(gè)最先成熟,似乎還得看時(shí)機。
不過(guò),即便可靈AI已經(jīng)“先跑一步”,也并不意味著(zhù)其就能安枕無(wú)憂(yōu)。一來(lái),目前在文生視頻領(lǐng)域并不存在斷層式的技術(shù)領(lǐng)先。
愛(ài)詩(shī)科技創(chuàng )始人王長(cháng)虎表示,Sora最重要的貢獻是驗證了視頻生成的規模定律。今年以來(lái),文生視頻領(lǐng)域之所以能夠快速發(fā)展,正是因為Sora的出現驗證出了一條技術(shù)可行性的道路。
但既然文生視頻在技術(shù)上沒(méi)有秘密,接下來(lái)類(lèi)似產(chǎn)品拼的無(wú)非是算力規模、訓練數據等。業(yè)內人士預計,目前各家大模型廠(chǎng)商都具備了視頻生成能力,只是礙于算力成本以及視頻效果而未有全面鋪開(kāi),但這也不過(guò)是時(shí)間的問(wèn)題。
二來(lái),若只論算力,快手在國內只算是第二梯隊。中信證券曾簡(jiǎn)單估算,生成一個(gè)60幀的視頻(約6至8秒),Sora要生成至少約120萬(wàn)個(gè)token,推理算力需求遠大于文生文。
如果可靈AI持續迭代,將會(huì )對快手提出更高的算力要求,在全面公測以后,快手還能否繼續向用戶(hù)增加生成視頻的時(shí)間,等待時(shí)間會(huì )否越來(lái)越長(cháng),其算力“天花板”到底在哪里,恐怕只有快手自己知道了。
事實(shí)上,包括快手在內,國內同行在文生視頻領(lǐng)域均采取較為現實(shí)的推進(jìn)方式,即保持研發(fā)進(jìn)度,階段性地產(chǎn)出落地。簡(jiǎn)單來(lái)說(shuō),就是先做產(chǎn)品再優(yōu)化,趕進(jìn)度先拿下市場(chǎng)。
03 快手試水商業(yè)化,意在生態(tài)
Similarweb數據顯示,可靈AI在6月初開(kāi)放之后,網(wǎng)站用戶(hù)流量呈現上升態(tài)勢,7月用戶(hù)峰值接近10萬(wàn)DAU水平。月狐iApp數據顯示,接入可靈AI的快影App,7月后周均DAU較6月初提升了100萬(wàn)左右。
可靈AI用戶(hù)快速增長(cháng)背后,一方面是因為用戶(hù)對文生視頻的“好奇”。月狐數據對與可靈AI相關(guān)的社交媒體用戶(hù)評論數據進(jìn)行了分析,用戶(hù)情緒主要表現為好奇、興奮、期待和滿(mǎn)意。
另一方面也少不了快手的助推。比如在快手平臺中,帶#可靈#相關(guān)話(huà)題標簽的作品會(huì )獲得更多流量扶持;可靈AI也推出了AI相關(guān)的內容創(chuàng )作活動(dòng),包括可靈AI x 快影視頻創(chuàng )作大賽、復活古畫(huà)定向話(huà)題投稿活動(dòng)。
用戶(hù)規模是產(chǎn)品商業(yè)化的土壤,基于此,外界對于可靈商業(yè)化的想象空間也被進(jìn)一步打開(kāi)。目前,可靈AI已經(jīng)上線(xiàn)了付費會(huì )員體系,分為黃金、鉑金、鉆石三個(gè)級別,月卡價(jià)格分別為66元、266元和666元,對應生成約66個(gè)、300個(gè)或800個(gè)標準視頻。
對比Runway Gen-3 Alpha最低12美元/月;Luma Dream Machine標準版29.99 美元/120次的價(jià)格,可靈AI的定價(jià)并不算高。而且,據接近快手人士透露,可靈AI暫無(wú)商業(yè)化計劃。
這就意味著(zhù)通過(guò)會(huì )員模式來(lái)盈利,還不是可靈的首要目的。萬(wàn)鵬曾公開(kāi)表示,(可靈出現以后),視頻創(chuàng )作的門(mén)檻和效果的ROI大幅度提升,視頻創(chuàng )作者和消費者界限逐漸模糊,越來(lái)越多消費者變成創(chuàng )作者,對于視頻創(chuàng )作生態(tài)的繁榮是非常有價(jià)值的。
以最近的《山海奇鏡之劈波斬浪》和《三星堆:未來(lái)啟示錄》為例,前者是抖音和博納合作的AI科幻短劇,后者則是快手原創(chuàng )的AI奇幻短劇。毫無(wú)疑問(wèn),AI技術(shù)可以極大程度的豐富平臺內容。
因此,爭奪更多內容創(chuàng )作者,繁榮快手平臺生態(tài),才是可靈AI的當務(wù)之急。據快手2024年一季度財報顯示,快手實(shí)際月活人數為6.97億,較上一季度環(huán)比下降0.4%,呈現流失趨勢。
通過(guò)引入可靈AI,不僅能幫助創(chuàng )作者降低創(chuàng )作門(mén)檻,提升短視頻制作質(zhì)量和效率,也能為快手的內容生態(tài)注入新鮮能量。比如在B站等內容平臺中,用AI二創(chuàng )視頻就成為了熱門(mén)話(huà)題,在快手平臺也有不少關(guān)于影視的梗圖創(chuàng )作。
但在幫助內容創(chuàng )作者變現的同時(shí),快手也打好了“提前量”。今年6月,快手電商發(fā)布了使用AIGC能力直播的倡議公告,鼓勵商家/達人和老鐵們進(jìn)行良好互動(dòng),但對于使用AIGC能力輔助創(chuàng )作的內容相較于其他實(shí)時(shí)直播內容,平臺不會(huì )給予特殊的流量扶持,避免商家濫用AIGC帶來(lái)大量低質(zhì)量視頻內容。
或許,可靈AI不是快手內容生態(tài)的“靈丹妙藥”,但有噱頭就有熱度,目前快手需要的正是這份“繁榮”。
近年,快手的直播收入出現了下滑的趨勢,但今年一季度其廣告、電商業(yè)務(wù)都有雙位數的增長(cháng),這意味著(zhù)快手從去年底開(kāi)始放開(kāi)泛貨架場(chǎng)景流量入口的策略已經(jīng)起效。但貨架電商的核心是搜索,這就驅使快手不得不將內容繁榮放在第一位,只有更多的人氣,才會(huì )有更多的搜索。
接下來(lái),探索新的內容形態(tài)將會(huì )是AIGC時(shí)代下的短視頻發(fā)展的必經(jīng)之路,而快手的“一小步”,將是整個(gè)短視頻行業(yè)的“起步”。
雖然快手似乎無(wú)意加速商業(yè)化,但可靈AI卻一定需要商業(yè)化,畢竟燒錢(qián)以?xún)|級起算的大模型是個(gè)無(wú)底洞的吞金猛獸,快手也不能無(wú)限地提供子彈。
將目光從C端轉移到B端或更有可能,據內部人士透露,可靈AI將部分內測名額給了電商合作比較頻繁的MCN機構如遙望科技和大品牌,或許也有測試電商行業(yè)素材的考慮。
有業(yè)內人士表示,拍攝一條高質(zhì)量3D動(dòng)畫(huà)視頻,成本要按秒來(lái)計算,幾十萬(wàn)成本也下不來(lái),而可靈、Sora的出現可以起到增強作用,比如視頻某個(gè)鏡頭不行就用AI視頻來(lái)填充。
當然,要實(shí)現這樣的效果,整個(gè)視頻生產(chǎn)大模型行業(yè)還需要持續進(jìn)化,但對于“可靈們”來(lái)說(shuō),這樣的路徑才更為現實(shí),不僅能夠改變短視頻生態(tài),還可以賦能產(chǎn)業(yè)端,比如通過(guò)學(xué)習爆款視頻的文本結構,一鍵生成與商家產(chǎn)品素材匹配的視頻。
目前,各大廠(chǎng)都在卷大模型,但誠如百度李彥宏所言,應用才是大模型落地的根本?!翱伸`們”的第一步是繁榮內容生態(tài),但更關(guān)鍵的卻是第二步,如何讓大模型賦能生態(tài),為平臺帶來(lái)增量效益,才是“可靈們”要思考的問(wèn)題。
*文章封面首圖及配圖,版權歸版權所有人所有。若版權者認為其作品不宜供大家瀏覽或不應無(wú)償使用,請及時(shí)聯(lián)系我們,本平臺將立即更正。