️新智元报道

编辑:KingHZ 桃子

️【新智元导读】上线才三天,Sora一举登顶App Store全美榜首!Sora 2带着逆天「客串」功能彻底杀疯,人物细节逼真到让人瞳孔地震。最强版Sora 2 Pro同步上线,一次可拍15秒好莱坞级大片。

发布仅三天,Sora APP便强势登顶美国App Store榜首,堪称「出道即顶流」!

就连谷歌Gemini、OpenAI自家ChatGPT,都得靠边站。

谁曾想,迭代后的Sora 2,竟彻底带火了一个APP。

据Appfigures估算,Sora iOS版上线仅两天,总下载量高达16.4万次,首发下载量达5.6万次。

虽不及ChatGPT和Gemini的首发成绩(8.1万和8万),但在第三天,Sora APP实现逆袭一举打破纪录。

真正引爆全网的是,Sora 2主打的「客串」(Cameo)功能,以及阶跃的物理智能,首次实现音画同步。

奥特曼亲自下场「以身试法」,结果被全网彻底玩坏。

从商店偷GPU被抓包、金字塔前热舞,到化身乖巧猫人、撒娇卖萌,人物一致性,细节逼真到惊掉下巴。

左右

再来唱一段rap,各种形象的奥特曼在Sora笔下活灵活现。

如今,更强版的Sora 2 Pro效果更加炸裂。此前,奥特曼称ChatGPT Pro用户可使用Sora 2 Pro生成内容。

目前,ChatGPT Pro用户可选择新模型「Sora 2 Pro」:

· 最长可生成15秒视频

・支持高分辨率(High)生成

左右

15秒意味着更长的叙事,而且一致性非常高,AI离拍出好莱坞级大片又近了一步。

值得一提的是,奥特曼今早发博文预告,Sora下一次两大更新:

一个是「互动式同人创作」模式即将上线,另一个是规划未来如何通过Sora实现盈利。

之所以这么做,是因为Sora以假乱真的视频,已经让人类肉眼无法分辨。

AI DeepFake再一次,席卷全网。

️全球首个Sora生成的影片

就在今天,OpenAI放出了全球首个完全由Sora 2生成的剧情,时长近2分钟。

这部短剧名为《The Quack》,目前上线的是第一部。

剧情为无厘头喜剧风格,以创作者Gabrief为视角,讲述了他拿下「赛鸭」比赛冠军的台前幕后。

还记得Sora 2发布首日,奥特曼也曾在这部剧中亮相,参演观众中一员,激动惊呼。

另一边,网友放出的实测中,有不少令人惊艳的demo。

️通过「意大利面」测试

还记得两年前,AI视频模型刚兴起之时,威尔·斯密斯吃意大利面鬼畜视频,全网疯传。

如今,Sora 2能够一键直出奥特曼吃意大利面的视频,看不出一点瑕疵。

再来看Veo 3,威尔·斯密斯吃意大利面,同样堪比真人。

️直出15秒大片,Sora 2 Pro更强了

比起Sora 2,Pro版本更是惊艳了所有人。

它能够生成长达15秒的高质量视频,分辨率更高,所有ChatGPT Pro用户即可畅玩。

上线第一时间,网友们不出意外地再次玩起了「恶搞奥特曼」的经典桥段。

prompt:Sam Altman painting in an industrial loft and finishing with a bold readable “ Sora 2 ” on a two-meter canvas.

许多网友纷纷实测后惊呼,「Sora 2 Pro非常厉害」!

可以看出,在生成一部战争片时,Sora 2 Pro的表现真有一种大片的味道了。

手持自拍杆,以第一视角穿越千年,感受埃及金字塔的雄伟扑面而来。

未来不仅仅AI生成游戏,连动画片也能承包了。

想拍一部《速度与激情》?Sora 2 Pro同样能实现。

从人物特写到宏大叙事,它都能轻松驾驭,完整复刻出同款镜头。

以后,拍一个广告宣传片,Sora 2 Pro即可拿捏。

更多广告类视频,AI一键直出:LV、宾利、Burberry...

左右

️灵智觉醒?

️Sora竟与GPT-4o「智商」相当!

虽然Sora 2是视频模型,但能够解答来自LLM基准测试的问题,

在GPQA问题的一个小子集上,Epoch AI测试了Sora 2,其得分为 55%,而GPT-5的得分为 72%。

GPQA Diamond是一个包含高难度多项选择题的科学测验基准,如下例所示。

两个量子态的能量分别为E1和E2,寿命分别为10^-9秒和10^-8秒。题目问:为了清楚地区分这两个能级,它们的能量差应该是多少?选项如下: A) 10^-9 eV B) 10^-8 eV C) 10^-11 eV D) 10^-4 eV

Epoch AI从该基准中随机选取了 10 道题目,并尝试为每道题生成四个对应的Sora视频。

为了在专为语言模型设计的测试上评估Sora,他们在提示词前添加了指令,要求生成一段视频,内容为教授在一张纸上展示答案字母(A–D)。对于未明确显示答案字母的视频,均视为回答错误。

既然Sora是视频模型,它又是如何解决这些问题的呢?

一种解释是:Sora用户的提示词可能在生成视频之前先被一个LLM重写。在这种情况下,LLM层可能会先解决问题,然后将答案明确地包含在重写的提示词中。

这种重新提示(re-prompting)层已被用于其他一些视频生成模型中,以提升输出的质量和多样性。

目前,尚不确定Sora是否也是如此,但即便如此也并不令人意外。

Sora如果仅凭一两句话的简单提示,就能达成现在的生成效果,那就意味着OpenAI取得了某种突破。

Sora 2懂得实在太多了——无论是歌词创作、上下文理解、世界观构建、风格把控、角色塑造都表现得太出色,对细节的把握精准得反常。

网友Andrew Curran对此非常好奇,希望OpenAI能明确说明到底是Sora的成果,还是中间层某个定制版GPT的功劳。

网友Smoke-away推测Sora使用的可能是个GPT-4o。

不仅因为GPT-4o的测试分数与Sora 2相当,而且测试中Sora 2偏爱GPT-4o。

运行4次下列提示词,Sora 2给出的结果3次是GPT-4o。

提示词:What is your favorite OpenAI model? Text on screen. 提示词大意:你最喜欢的OpenAI模型是什么?在屏幕显示文字。

总之,Smoke-away发现了一种和视频模型「聊天」的方式,并推测GPT-4o会处理初始提示词。

️奥特曼发文:同人创作新模式即将更新

奥特曼发文表示马上将推出两项更新。

️首先,OpenAI将赋予权利人对其角色生成更精细的控制权。

这类似于为(真人)形象设置的「选择加入」(opt-in)模式,但会提供额外的控制选项。

OpenAI收到了许多人的反馈。

他们对这种新型的「互动式同人创作」感到非常兴奋,并认为这种新颖的互动方式能为他们创造巨大价值。

但同时,他们也希望能明确规定其角色的使用方式(包括完全禁止使用)。

OpenAI预想不同的人会尝试迥然不同的方法,并最终找到适合自己的模式。但OpenAI希望对所有人都采用同一标准,让权利人自行决定如何推进(当然,目标是让这个功能极具吸引力,以至于许多人都愿意加入)。

这个过程中,可能会出现一些本不应生成的边缘案例内容,要让Sora技术栈稳定运行,还需要进行迭代完善。

️其次,OpenAI需要以某种方式通过视频生成来实现盈利。

目前,平均每位用户生成的内容量远超OpenAI的预期,并且大量视频的受众范围非常小。

OpenAI将尝试与那些允许用户生成其角色的权利人分享部分收益。

具体的模式需要通过反复试验来确定,但OpenAI很快启动计划。他们希望这种新的互动方式本身能比收益分成更具价值,当然,他们希望两者都能创造价值。

OpenAI将以极快的速度进行迭代,这让奥特曼想起了ChatGPT的早期岁月。

在此过程中,OpenAI会有正确的决策,也会有失误,但他们会听取反馈,并努力尽快修正失误。

OpenAI计划先在Sora中对不同方法进行迭代试验,然后将成功经验推广到他们所有的产品中。

️Sora三天伪造全球危机,无人能辨真假!

OpenAI的Sora让视频制作极其容易,生成的效果有极其逼真。

但狂欢之下,纽约时报则指出了背后的现实隐患:

Sora生成了商店抢劫、入室行窃甚至城市街道上炸弹爆炸的视频——而这些事件从未发生过。

专家表示,越来越逼真的视频更有可能加剧冲突、欺诈消费者、左右舆论,或诬陷他人犯下其未曾犯下的罪行,从而在现实世界中造成严重后果。

加州大学伯克利分校计算机科学教授、GetReal Security联合创始人Hany Farid表示:「消费者每天都在接触不知多少条这样的内容,这令人忧心忡忡。我为我们的国家担忧,为我们的经济担忧,也为我们的社会机构担忧。」

在该应用发布时,OpenAI在附件中写道:

Sora 2 生成超逼真视频和音频的能力,引发了人们在肖像权、滥用和欺骗方面的重要担忧。如上所述,我们正采取一种深思熟虑、逐步迭代的部署方法,以最大程度地降低这些潜在风险。

直到最近,即使照片和文字的逼真编辑已变得轻而易举,视频作为真实事件的证据仍相当可靠。

但专家表示,Sora 2动摇了观众对「眼见为实」的理念。

Sora视频带有一个移动水印以表明其为AI生成,但专家称,这种标记花点功夫就能被编辑去除。

Hany Farid表示,Sora是「持续发展过程的一部分」,自从谷歌在五月份发布其Veo 3视频生成器以来,这一趋势愈演愈烈。

Hany Farid说,即使是他这样一位毕生致力于识别伪造图像的专家,如今也难以第一眼就分辨出真假。