深度丨 OpenAI掀翻視頻格局 AGI真的不遠(yuǎn)了?

2024年02月16日 21:56   21世紀(jì)經(jīng)濟報道 21財經(jīng)APP   孔海麗
技術(shù)革命。

21世紀(jì)經(jīng)濟報道記者孔海麗 北京報道

視頻領(lǐng)域的“GPT時刻”也來了。

北京時間2月16日凌晨,OpenAI推出了新的文生視頻模型Sora,可以把簡短的文本描述轉(zhuǎn)換為長達(dá)60秒的高清視頻,繼文本、圖片的革命之后,繼續(xù)顛覆視頻領(lǐng)域。

文本輸入提示:中國龍的中國農(nóng)歷新年慶祝視頻。

OpenAI一口氣放出的48個示例視頻中,既有對現(xiàn)實世界的高度還原,也有動畫或科幻大片,角色與場景交互復(fù)雜、運動軌跡清晰、情感生動、細(xì)節(jié)逼真,一鏡到底和多機位統(tǒng)統(tǒng)不在話下。

更重要的是,Sora初步實現(xiàn)了對真實世界的洞察與學(xué)習(xí),已經(jīng)能夠理解角色在物理世界中的存在方式并預(yù)判運行軌跡。

盡管目前Sora仍難以準(zhǔn)確模擬復(fù)雜場景的物理特性,并且可能無法理解因果關(guān)系,比如人物吹蠟燭之后,燭火并未搖曳或熄滅。但這種趨勢已經(jīng)擺上了臺面,OpenAI開辟了一個全新的賽道,并讓其他仍困在幾秒視頻時長的AI視頻模型創(chuàng)業(yè)公司,遭受降維式輾軋。一位AI大模型從業(yè)者感慨:“要卷死一堆文生視頻公司了,秒殺……”

一個能夠理解、感知、創(chuàng)造內(nèi)容的AI視頻模型,將撕開無限可能。OpenAI扔下的這枚重磅炸彈,商業(yè)落地場景非常豐富,戰(zhàn)栗的將不只是影視行業(yè),整個內(nèi)容創(chuàng)作行業(yè)或都將被動搖。

在實際應(yīng)用層,Sora可能會為短視頻創(chuàng)作、游戲呈現(xiàn)效果、機器人具身智能、自動駕駛等,帶來巨大的影響與突破。假以時日,真實世界與視頻虛擬世界的區(qū)隔,或許也將被削弱,大洋彼岸已經(jīng)在擔(dān)心AI視頻會影響總統(tǒng)大選了,正在采取行動應(yīng)對AI生成的深度偽造。

對于Sora模型的意義,OpenAI官方如此表述:“能夠理解和模擬現(xiàn)實世界的模型的基礎(chǔ),我們相信這一能力將是實現(xiàn)AGI的重要里程碑”。

上難度:理解真實世界

與現(xiàn)有文生視頻技術(shù)相比,OpenAI的Sora幾乎將AI視頻的競爭,從冷兵器時代推進(jìn)到了現(xiàn)代化戰(zhàn)爭階段,時長、效果、互動性,都秒殺現(xiàn)有技術(shù)。

視頻生成領(lǐng)域面對的一個重要挑戰(zhàn)就是,在生成的較長視頻中保持時空連貫性和一致性。市面上現(xiàn)有的AI視頻產(chǎn)品,時長一旦超出幾秒,將無法正確呈現(xiàn)物體之間的互動關(guān)系,逐漸“離譜”。

因為AI對視頻的學(xué)習(xí),依賴大量的訓(xùn)練數(shù)據(jù),如果訓(xùn)練數(shù)據(jù)中沒有涵蓋某種特定的過渡效果或動作,AI就很難學(xué)會如何在生成視頻時應(yīng)用這些效果。也就是說,時長一旦變長,現(xiàn)有AI的能力就會“露餡”。

更根本的原因在于,現(xiàn)有AI無法理解物理世界的運行法則,也就無法預(yù)測物體和角色在時間線上的運動軌跡。

但OpenAI做到了。Sora直接將時長提升到了60秒,且效果高清,細(xì)節(jié)豐富。

OpenAI官網(wǎng)呈現(xiàn)的一則60秒視頻顯示,女主與周圍的街道、人群、燈光、都非常清晰自然,完全沒有AI視頻常見的“掉幀”問題,甚至肢體動作、面部表情、水中倒影、墨鏡折射畫面都很連貫。

文本輸入提示:一位時尚的女人走在東京的街道上,街道上到處都是溫暖的發(fā)光霓虹燈和動畫城市標(biāo)志。她身穿黑色皮夾克,紅色長裙,黑色靴子,背著一個黑色錢包。她戴著墨鏡,涂著紅色口紅。她走得自信而隨意。街道潮濕而反光,營造出五顏六色的燈光的鏡面效果。許多行人四處走動。

另一則視頻中,穿過東京郊區(qū)的火車車窗倒影,不僅顯示了車窗外掠過的建筑,近距離經(jīng)過的另一節(jié)車廂甚至加深了車內(nèi)燈光、人物的折射清晰度,非常符合常理,并且流暢自然。

文本輸入提示:提示:穿過東京郊區(qū)的火車車窗中的倒影。

Sora經(jīng)常能夠為短期和長期物體間的依賴關(guān)系建模。例如,在生成的視頻中,人物、動物和物體即使在被遮擋或離開畫面后,仍能被準(zhǔn)確地保存和呈現(xiàn)。并且,Sora能夠在單個樣本中生成同一角色的多個鏡頭,并在整個視頻中保持其外觀的一致性。

一則太空人科幻視頻中,同時呈現(xiàn)了近景、遠(yuǎn)景中的主角,被太空船內(nèi)部場景切分開的人物鏡頭,分別處于凝視、行走、思考等不同的狀態(tài),人物一致、行為連貫。

文本輸入提示:電影預(yù)告片,講述了 30 歲的太空人戴著紅色羊毛針織摩托車頭盔的冒險經(jīng)歷,藍(lán)天,鹽沙漠,電影風(fēng)格,用 35 毫米膠片拍攝,色彩鮮艷。

據(jù)OpenAI官網(wǎng)介紹,Sora是一種擴散模型,相較其他模型,看起來具備了“理解”和“思考”能力。

與AI視頻明星創(chuàng)業(yè)公司Runway所使用的Gen模型相比,Sora模型不僅了解用戶在提示中要求的內(nèi)容,還了解這些角色在物理世界中的存在方式,能夠理解和模擬運動中的物理世界,能夠生成具有多個角色、特定類型的運動,以及主題和背景的準(zhǔn)確細(xì)節(jié)的復(fù)雜場景。

與GPT模型類似,Sora使用的是transformer架構(gòu),該架構(gòu)對視頻的時空序列包和圖像潛在編碼進(jìn)行操作,能夠主動填補視頻中的“缺失幀”,從而看起來具備“預(yù)測性”,使得AI視頻模型不再那么“被動”。

一位AI大模型從業(yè)人士對21世紀(jì)經(jīng)濟報道記者表示,OpenAI又一次改寫了游戲規(guī)則,把文生視頻推高到了“理解真實世界”的維度。

這也正是世界模型的特點——讓機器能夠像人類一樣對真實世界有一個全面而準(zhǔn)確的認(rèn)知。世界模型不僅包括對事物的描述和分類,還包括對事物的關(guān)系、規(guī)律、原因和結(jié)果的理解和預(yù)測,從而進(jìn)行推理和決策。

英偉達(dá)人工智能研究院Jim Fan表示:“如果你還是把Sora當(dāng)做DALLE那樣的生成式玩具,還是好好想想吧,這是一個數(shù)據(jù)驅(qū)動的物理引擎?!?strong>有技術(shù)人員告訴21世紀(jì)經(jīng)濟報道記者,Jim Fan的言外之意在于,不能忽略Sora所折射的“世界模型”的更進(jìn)一步——AI已經(jīng)可以讀懂物理規(guī)律。

隨著訓(xùn)練的繼續(xù)推進(jìn),AGI的實現(xiàn)或許不再是紙上談兵。

打擊力:顛覆現(xiàn)實世界

OpenAI推出Sora之后,互聯(lián)網(wǎng)世界除了感嘆,還有一片哀嚎。

在OpenAI的推文下面,不少評論打出“gg 皮克斯”、“gg好萊塢”(注:gg是競技游戲禮貌用語,good game的縮寫,用于表達(dá)“打得好,我認(rèn)輸”),馬斯克更是在X上發(fā)表評論,稱“gg 人類”。

有不少網(wǎng)友感慨自己“要失業(yè)了”,視頻行業(yè)將被徹底顛覆。

有來自電影制作行業(yè)的從業(yè)人士告訴21世紀(jì)經(jīng)濟報道記者,如果Sora繼續(xù)進(jìn)化下去,取代一部分傳統(tǒng)視頻制作方式是必然的,就像AI繪畫取代畫師、設(shè)計師一樣,這是趨勢。

“短視頻、概念視頻、廣告、微短劇、甚至是長視頻里,都會大量使用AI生成視頻?!痹撊耸勘硎荆骸安贿^傳統(tǒng)影視劇該怎么拍還得拍?!?/p>

觀點普遍認(rèn)為,AI視頻模型將改變電影工業(yè)的生產(chǎn)方式,雖然不能完全取代現(xiàn)有人力,但將會成為新的生產(chǎn)工具,影視行業(yè)從業(yè)人士需要盡快把工具“為我所用”。

一位影視編劇提出了另一種想法,她認(rèn)為,Sora這類AI視頻模型大大降低了精美視頻的制作門檻,以后編劇的奇思妙想將有更大的呈現(xiàn)空間,“技術(shù)不到位”、“經(jīng)費不夠”的掣肘都將減小很多。

比如,OpenAI的一則視頻中,巨大的猛犸象緩緩走來,形象逼真,身后騰起了雪霧,遠(yuǎn)處被白雪覆蓋的樹林與山脈清晰可見。而眾所周知,動畫《冰川時代》的實際制作費用達(dá)到8000萬美元之高,耗時4年之久。

文本輸入提示:幾只巨大的毛茸茸的猛犸象踩著白雪皚皚的草地走近,它們長長的毛茸茸的毛毛在風(fēng)中輕輕吹拂,遠(yuǎn)處白雪皚皚的樹木和壯觀的白雪皚皚的山脈,午后的光線與薄薄的云層和遠(yuǎn)處高高的太陽營造出溫暖的光芒,低相機視角令人驚嘆,用美麗的攝影捕捉了大型毛茸茸的哺乳動物,景深。

“那些有才華但苦于缺少投資的導(dǎo)演們,可能會借力Sora創(chuàng)造出許多驚人的作品。”她補充說。

目前,Sora尚未對公眾開放,OpenAI正在與一些視覺藝術(shù)家、設(shè)計師和電影制作人合作,以探索如何讓Sora對創(chuàng)意專業(yè)人士提供有效幫助。

而雙刃劍的另一面,是AI視頻模型給現(xiàn)實世界帶來的虛假信息威脅也將大大增加。

近期,AI合成的泰勒·斯威夫特不雅照曾引起過軒然大波,就連白宮方面也呼吁國會“應(yīng)立刻采取行動”,而美國政壇和民眾也對背后凸顯的技術(shù)、法律漏洞感到擔(dān)憂。

AI生成“惡性視頻”對現(xiàn)實世界造成的困擾,將數(shù)倍于圖片效果。為此,美國聯(lián)邦貿(mào)易委員會將致力于利用工具來檢測、阻止相關(guān)冒充欺詐行為。

為此,OpenAI表示,將在提供Sora之前采取幾個重要的安全措施,與錯誤信息、仇恨內(nèi)容和偏見等領(lǐng)域的專家進(jìn)行合作,對模型進(jìn)行對抗性測試;OpenAI也在構(gòu)建工具來檢測誤導(dǎo)性內(nèi)容,例如檢測分類器,可以判斷視頻何時由Sora生成。

除了開發(fā)新技術(shù)為Sora保障安全性,現(xiàn)有的安全方法也適用于Sora模型,例如那些請求極端暴力、色情內(nèi)容、仇恨圖像、名人肖像或他人IP的提示將被模型拒絕,也開發(fā)了強大的圖像分類器,用于查看生成的每個視頻的幀數(shù),以確保在向用戶顯示視頻之前遵守OpenAI的使用政策。

但OpenAI也承認(rèn),無法預(yù)測人們使用Sora的所有有益方式,也無法預(yù)測人們?yōu)E用它的所有方式。

不過,目前Sora還有其局限性,比如可能難以準(zhǔn)確模擬復(fù)雜場景的物理特性,并且可能無法理解因果關(guān)系的具體實例。例如,一個人咬一口餅干之后,餅干可能沒有咬痕。該模型還可能混淆提示的空間細(xì)節(jié),例如,左右混淆,人類在朝著跑步機的尾部跑步。也可能難以精確描述隨時間推移發(fā)生的事件,例如,五只灰狼幼崽嬉戲的畫面中,幼崽數(shù)量可能忽多忽少,有的幼崽會憑空出現(xiàn)或消失。

文本輸入提示:五只灰狼幼崽在一條偏遠(yuǎn)的碎石路上嬉戲和追逐,周圍環(huán)繞著草地。幼崽們奔跑跳躍,互相追逐,互相啃咬,玩耍。

隨著技術(shù)進(jìn)步,或許未來,如何判定視頻真假,也將成為一門學(xué)問。

壓迫感:巨頭步步碾壓

另一廂,谷歌也于同一日發(fā)布了Gemini 1.5版本,在文本的長度上實現(xiàn)了大幅突破。但終究被OpenAI的視頻模型搶盡了風(fēng)頭。

一批AI視頻模型創(chuàng)業(yè)公司也將命懸一線。

文生視頻的生成模型最早出現(xiàn)在2022年底,Pika lab、Runway都分別貢獻(xiàn)過AI生成視頻的話題。早期,就連Meta和谷歌的AI視頻都有著“一眼AI”的問題,清晰度、邏輯性有明顯缺陷。

經(jīng)過不懈努力,Runway在2023年11月發(fā)布了AI視頻生成工具Gen-2,修復(fù)了視頻畫質(zhì),也克服了不連貫、閃爍變形以及低清等問題,但生成的視頻時長最多只能達(dá)到18秒。

眼下,OpenAI一舉把AI視頻生成時長拉到了60秒,并且運鏡復(fù)雜、場景多變、人物還能夠表達(dá)豐富的情感色彩,簡直斷了其他小公司未來的路。

業(yè)內(nèi)分析人士表示,如果其他AI視頻模型創(chuàng)業(yè)公司無法盡快追趕OpenAI,恐怕將直接失去生存空間。

但這種追趕并不容易。前述AI大模型從業(yè)者向21世紀(jì)經(jīng)濟報道記者表示,僅就公開信息而言,其他公司與OpenAI在技術(shù)能力、訓(xùn)練量、耗資程度方面,都有著代際差異。

“如果長期關(guān)注AI文生視頻的進(jìn)展,就會知道OpenAI的Sora有多強大,是專業(yè)拳手暴打小白的差距?!?、“AI真的分成兩種,OpenAI和其他AI”……相關(guān)評論也是層出不窮。

一位關(guān)注AI大模型的投資人向21世紀(jì)經(jīng)濟報道記者透露,小型公司跑出來的概率變得更渺茫了,尤其是這么燒錢的領(lǐng)域,很難在巨頭的陰影下做出亮點。

從文本大模型、圖像大模型,再到如今的視頻大模型,OpenAI深刻詮釋了“一步先、步步先”的殘酷性。

實際上,Sora之所以能這么出色,也與OpenAI之前的領(lǐng)先優(yōu)勢有關(guān)。

OpenAI放出的技術(shù)報告透露,Sora模型對語言有深刻的理解,使其能夠準(zhǔn)確地解釋提示并生成表達(dá)生動情感的引人注目的角色。這背后有GPT的功勞,OpenAI會先利用GPT將簡短的用戶提示轉(zhuǎn)換為更長的詳細(xì)內(nèi)容,再發(fā)送到視頻模型。

他們還為視頻生成調(diào)用了DALL·E3(OpenAI的圖像生成模型)中的re-captioning技術(shù),為視覺訓(xùn)練數(shù)據(jù)生成高度描述性的文本,使得模型能夠更忠實地遵循用戶指令。

除了能夠以文本生成視頻,Sora模型還能夠獲取現(xiàn)有的靜止圖像并從中生成視頻,提高視頻的準(zhǔn)確性及細(xì)節(jié)顆粒度,還可以對現(xiàn)有視頻進(jìn)行擴展或填充“缺失幀”。

也就是說,Sora是站在OpenAI的大語言模型GPT以及圖片大模型DALL·E的肩膀上,并且跑出了加速度。

 一位硅谷AI行業(yè)創(chuàng)業(yè)人士感慨說:“創(chuàng)業(yè)之路,離天堂太遠(yuǎn),離巨頭太近,如果又沒有自己的壁壘,實在太容易被淘汰了?!?/strong>

而其他落后于OpenAI的科技巨頭,在AI大模型這條路上,也要時時接受來自先行者的壓迫感。

關(guān)注我們