經濟導報記者 劉勇
這個春節假期什么最火?那肯定是Sora!OpenAI發布的人工智能文字生成視頻大模型。
美國當地時間2024年2月15日,OpenAI正式發布文生視頻模型Sora,并發布了48個文生視頻案例和技術報告,正式入局視頻生成領域。
Sora能夠根據提示詞可以快速制作最長一分鐘、準確反映用戶提示、可一鏡到底的視頻,視頻中可包含多個角色、特定的動作、主題和背景,在單個視頻中Sora還可創建多個鏡頭,多角度保留角色和視覺的風格。“碾軋”了行業目前大概只有平均“4s”的視頻生成長度。
此外,還可以使用Sora連接兩個輸入視頻,在具有完全不同主題和場景組成的視頻之間實現無縫過渡。

百度百科的解釋是,Sora繼承了DALL-E 3的畫質和遵循指令能力,可以根據用戶的文本提示創建逼真的視頻。該模型可以深度模擬真實物理世界,能生成具有多個角色、包含特定運動的復雜場景,能理解用戶在提示中提出的要求,還了解這些物體在物理世界中的存在方式。
Sora對于需要制作視頻的藝術家、電影制片人或學生帶來無限可能,其是OpenAI“教AI理解和模擬運動中的物理世界”計劃的其中一步,也標志著人工智能在理解真實世界場景并與之互動的能力方面實現飛躍。
針對此次Sora所帶來的討論,360創始人周鴻祎在社交網絡上也分享了自己的看法。他認為,Sora的誕生意味著AGI(通用人工智能)實現可能從10年縮短至一兩年。
談到Sora最大的優勢,周鴻祎表示,以往文字視頻軟件都是在2D平面上對圖形元素進行操作,可以把視頻看成多個真實圖片的組合,并沒有真正掌握這個世界的知識。但Sora產生的視頻里,它能像人一樣理解坦克是有巨大沖擊力的,坦克能撞毀汽車,而不會出現汽車撞毀坦克這樣的情況,“一旦人工智能接上攝像頭,把所有的電影都看一遍,把各視頻平臺的視頻都看一遍,對世界的理解將遠遠超過文字學習。一幅圖勝過千言萬語,而視頻傳遞的信息量又遠遠超過一張圖,這就離AGI真的不遠了,不是10年20年的問題,可能一兩年很快就可以實現。”
而在業內專家看來,認為AGI能在一兩年內實現的觀點過于樂觀。中國人工智能產業聯盟安全治理委員會專委會副主委、浙江大學教授潘恩榮認為,AGI在一兩年內實現不能作為一種真實的預測。“因為我們講的通用人工智能往往指的是‘人’作為主體所作用的能力,然而現在人工智能能實現的事情,更像是‘物’的能力。”
不過也有人擔心,Sora大面積使用,AGI的實現也是必然,只是時間長短的問題。那么一旦AGI到來,是否會真的出現電腦的自我意識覺醒?畢竟人類是通過視覺感知認知世界,才能把一個具體的世界(畫面)和大腦里的文字等抽象概念進行連接的。也就是說畫面視頻和文字是互相對應的。而sora已經解決了抽象到具體表象,也能表象到抽象!這是什么意思?它已經能理解人類世界了。這就是他自我意識的覺醒。
那么問題來了,一旦AGI實現,真的會出現電影中的情景——人工智能的自我意識覺醒嗎?
