OpenAI 推出文本到視(shì)頻人(rén)工智能模型 Sora-南京原馬亮家網絡科技有限公司

根據 OpenAI 的介紹博文，Sora 能夠創建"具有(yǒu)多(duō)個(gè)角色、特定運動類型以及主體(tǐ)和(hé)背景準确細節的複雜場(chǎng)景"。該公司還(hái)指出，該模型能夠理(lǐ)解物體(tǐ)"在物理(lǐ)世界中的存在方式"，還(hái)能"準确解釋道(dào)具并生(shēng)成表達生(shēng)動情感的引人(rén)注目的角色"。

該模型還(hái)能根據靜态圖像生(shēng)成視(shì)頻，以及在現有(yǒu)視(shì)頻中填充缺失的幀或擴展視(shì)頻。OpenAI 的博文中包含的 Sora 生(shēng)成的演示包括淘金熱時(shí)期加利福尼亞州的空(kōng)中場(chǎng)景、從東京火(huǒ)車(chē)內(nèi)部拍攝的視(shì)頻等。許多(duō)演示都有(yǒu)人(rén)工智能的痕迹--比如在一段博物館的視(shì)頻中，地闆疑似在移動。OpenAI 表示，該模型"可(kě)能難以準确模拟複雜場(chǎng)景的物理(lǐ)現象"，但(dàn)總體(tǐ)而言，演示結果令人(rén)印象深刻。

幾年前，像 Midjourney 這樣的文本到圖像生(shēng)成器(qì)在模型将文字轉化為(wèi)圖像的能力方面處于領先地位。但(dàn)最近，視(shì)頻技(jì)術(shù)開(kāi)始飛速進步：Runway 和(hé) Pika 等公司都展示了自己令人(rén)印象深刻的文字轉視(shì)頻模型，而Google的 Lumiere 也将成為(wèi) OpenAI 在這一領域的主要競争對手之一。與 Sora 類似，Lumiere 也為(wèi)用戶提供了文字轉換視(shì)頻的工具，還(hái)能讓用戶通(tōng)過靜态圖像創建視(shì)頻。

Sora 目前隻對"紅隊"人(rén)員開(kāi)放，他們負責評估模型的潛在危害和(hé)風險。OpenAI 還(hái)向一些(xiē)視(shì)覺藝術(shù)家(jiā)、設計(jì)師(shī)和(hé)電(diàn)影(yǐng)制(zhì)片人(rén)提供訪問權限，以獲得(de)反饋意見。它指出，現有(yǒu)模型可(kě)能無法準确模拟複雜場(chǎng)景的物理(lǐ)現象，也可(kě)能無法正确解釋某些(xiē)因果關系。本月早些(xiē)時(shí)候，OpenAI 宣布将在其文本到圖像工具 DALL-E 3 中添加水(shuǐ)印，但(dàn)指出這些(xiē)水(shuǐ)印"很(hěn)容易去除"。與其他人(rén)工智能産品一樣，OpenAI 将不得(de)不面對人(rén)工智能逼真視(shì)頻被誤認為(wèi)是真實視(shì)頻的後果。

新聞資訊

行(xíng)業新聞