Runway發(fā)布新一代視頻生成模型，行業(yè)還有哪些難題待解？

陳振芳2024-06-23 08:56

美東時間6月17日，Runway發(fā)布新一代視頻生成模型Gen-3Alpha，視頻生成賽道上再添“大將”。

Runway是一家視頻、媒體和藝術(shù)的生成式AI公司，在美國紐約于2018年成立，為電影和視頻制作中的內(nèi)容生成構(gòu)建基礎(chǔ)多模式AI模型。目前該公司已經(jīng)完成C輪融資，累計融資金額達2.36億美元，估值達15億美元，投資者包括谷歌、Nvidia和Salesforce。

2023年2月，該公司連續(xù)發(fā)布生成式AI系統(tǒng)Gen-1以及多模態(tài)AI系統(tǒng)Gen-2，該模型能夠通過圖像或文本提示生成視頻。

該公司表示，Gen-3Alpha是對此前Gen-2模型在保真度、一致性和運動性有了重大改進。

在細粒度時間控制上，Gen-3Alpha具有高度描述性、時間密集的字幕，能夠?qū)崿F(xiàn)豐富的過渡和場景中元素的精確關(guān)鍵幀。Gen-3Alpha擅長通過各種動作、手勢和情感產(chǎn)生富有表現(xiàn)力的人類角色。

Runway在官網(wǎng)表示，Gen-3Alpha在視頻和圖像方面接受聯(lián)合訓練，將為Runway的文本到視頻、圖像到視頻和文本到圖像工具、運動刷、高級相機控制、導演模式等現(xiàn)有控制模式以及即將推出的工具提供動力，以更精細地控制結(jié)構(gòu)、風格和運動。

另一方面，該公司稱Gen-3Alpha將發(fā)布一套新的保障措施，包括內(nèi)部視覺審核系統(tǒng)和C2PA來源標準。

該公司創(chuàng)始人Germanidis接受TechCrunch采訪時表示：“Gen-3Alpha模型在處理復雜的角色和物體交互時可能會遇到困難，生成過程并不總是嚴格遵循物理定律。首次推出的版本將支持5秒和10秒的高分辨率生成，生成時間明顯快于Gen-2。生成一段5秒的視頻需要45秒，生成一段10秒的視頻則需要90秒。”

值得一提的是，Runway并未在相關(guān)消息及采訪中透露訓練數(shù)據(jù)來源。而這也是目前生成式模型最容易遭遇挑戰(zhàn)的部分——版權(quán)問題。此前，360創(chuàng)始人、董事長兼CEO周鴻祎發(fā)布該公司新產(chǎn)品——360AI時，被藝術(shù)家創(chuàng)作者指責竊取其作品，雙方“隔空喊話”，版權(quán)爭議一直是行業(yè)頑疾。

“我們正在與藝術(shù)家密切合作，找出解決這一問題的最佳方法，”Germanidis告訴TechCrunch，“我們正在探索各種數(shù)據(jù)合作伙伴關(guān)系，以便進一步發(fā)展和構(gòu)建下一代模型。”

Germanidis還聲稱，其全新改進的內(nèi)部視覺和文本審核系統(tǒng)采用自動監(jiān)督來過濾掉不適當或有害的內(nèi)容。C2PA身份驗證可驗證使用所有Gen-3模型創(chuàng)建的媒體的出處和真實性。隨著模型功能和生成高保真內(nèi)容的能力不斷提高，公司將繼續(xù)在協(xié)調(diào)和安全工作上投入大量資金。

當前，生成式模型賽道上擠滿了對手，包括Sora、pika、Vidu、Luma AI等，競爭愈發(fā)激烈。

Runway在博客上表示，Gen-3Alpha也是朝著構(gòu)建通用世界模型邁出的一步。這與中國公司的同行們判斷一致。

近日，生數(shù)科技CTO鮑凡在智源大會的視覺大模型論壇上表示，從Vidu4D的工作里面看到，這種視頻大模型有作為世界模型的潛力，把世界上各種物理規(guī)律都給模擬出來，后續(xù)再結(jié)合3D或者4D的技術(shù)進行開發(fā)。

他認為，要通往世界模型有兩條路。一是通過大語言模型，先把抽象的知識構(gòu)建好，再拓展成世界模型。第二條是把物理規(guī)律構(gòu)建好，拓展成世界模型，這兩條道路目前都是探索狀態(tài)。

與此同時，生成視頻的成本問題也備受關(guān)注。愛詩科技創(chuàng)始人王長虎在智源大會上透露，現(xiàn)在生成一個三五秒鐘的視頻需要耗時幾十秒。如果采用RTX 4090芯片，用時40秒鐘，或者60秒鐘的成本大概1、2美元左右，未來成本還會進一步下降。

他指出，AI視頻生成產(chǎn)品能用的也就是3秒-5秒，生成視頻越長，誤差隨之會更大，這是接下來行業(yè)要解決的問題。

王長虎表示，目前生成視頻還存在以下三個問題。第一，生成視頻往往是單鏡頭的，真正的視頻是由多個鏡頭組合，多鏡頭的內(nèi)容是未來AI視頻生成要解決的問題。其次，當前等待時長比較長，普通用戶很難玩起來。第三，推理成本高，也是行業(yè)亟待解決的問題。

來源：界面新聞作者：陳振芳

版權(quán)與免責：以上作品（包括文、圖、音視頻）版權(quán)歸發(fā)布者【陳振芳】所有。本App為發(fā)布者提供信息發(fā)布平臺服務(wù)，不代表經(jīng)觀的觀點和構(gòu)成投資等建議