槽边往事: 这回轮到影视人焦虑了

去年和前年，当AI可以用文字生成图片时，让广大画师感到焦虑。2024年刚开春，就在7个小时之前，世界AI领域目前最为领先的OpenAI 公司宣布，他们名为Sora的新AI，可以通过直接输入文字生成最长达到60秒的视频。

OpenAI宣称：“Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. ” 翻译过来就是：“Sora可以制作长达60秒的视频，展示高度详细的场景，复杂的摄像机运动，以及具有生动情感的多个角色。”

我用黄色高亮标记的部分，每一点都有具体所指，每一点都会让影视人震撼不已，魂飞魄散。在我们看正式的视频小样之前，让我们看一看一年之前以文字生成视频的真实效果是什么样子，它就是网络上著名的威尔史密斯吃意大利面：

如果不是强调AI制作，你估计会认为这是一部恐怖片吧？去年，当影视行业的人看到这段视频时，除了捧腹大笑之外，应该还有一种如释重负的感觉吧？觉得自己的行业依然是AI无法攻陷的坚固城堡。好的，我们现在来看看最新的Sora能做到什么程度：

这段17秒的视频，内容是雪后的东京。它通过这样的一段咒语（prompt）生成：“Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.”

翻译为中文是：美丽、白雪皑皑的东京城很繁华。镜头穿过熙熙攘攘的城市街道，跟随几个人享受美丽的雪天并在附近的摊位购物。美丽的樱花花瓣随着雪花在风中飞舞。

现在，你可以对照文字和视频，看看视频在多大程度上实现了文字中的要求。说实话，我第一次看到的时候感觉相当震撼。虽然我知道这是AI生成的视频，并不存在一台真正的摄影机，但是当我看到镜头从空中下滑，跟随在人物背后，进入街巷的时候，还是忍不住去想吊臂如何操作摄影机从空中一路下降，一路捕捉建筑、樱花、街道、店面，最后还不忘记拍摄空中纷纷扬扬的雪花。

高度详细的场景---OpenAI做到了。没有吊臂，没有一群工作人员，没有清理街道维护秩序，没有等到云开雾散阳光正好，它就直接那么生成了出来。

这是OpenAI释出的所有视频片中最长的一个，长达59秒，证明它们60秒的说法真实不虚。目前，AI视频界的流行长度是16秒，Sora上来就提升到60秒。

它的看点是什么呢？粗看一遍，你会发现它运用到了不同的镜头，一开始是时尚女性走在楼宇之间，但是到了最后却变成了面部特写---镜头随着演员的动作有变化。从交待环境地点，转变为描述人物。

如果你再仔细看，会注意到随着镜头移动，地面上积水的倒影会随着镜头移动而移动。你还会注意到女主角走过街道到第25秒的时候，她的头遮盖住了街边一个蓝色的指示牌，等她继续前进，指示牌又重新显露了出来。最后，当出现她的面部特写时，墨镜上的倒影随着她头部的转动，从街灯变成了斑马线。

高度详细的场景，复杂的摄像机运动---OpenAI做到了，第二个视频的镜头要比第一个复杂得多，是一系列镜头的组合。而所有这一切只是出自一段文字：“A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually. the street is damp and reflective, creating a mirror effect of the colorful lights. many pedestrians walk about.”

翻译成中文是：一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子，拎着黑色钱包。她戴着太阳镜，涂着红色口红。她走路自信而随意。街道潮湿且反光，在彩色灯光的照射下形成镜面效果。很多行人走来走去。

我看完之后长叹一声，心想，咒语里就差一句话：以王家卫风格拍摄。随着镜头和角度以及颜色的变化，这59秒可以立即变成一部文艺片。

最后这一段是17秒的视频，以35毫米镜头的摄影机讲述一群宇航员的故事。按照咒语的说法，这是一段电影先导宣传片。前面两个视频你在震惊之余，会隐约觉得有些沉闷无趣。原因是镜头少，给出的信息也少，镜头运行轨迹也很单调，导致画面缺乏故事性。所以，影视人看到我今天的标题点进来，看完头两个视频之后，一边破口大骂我标题党，一边会在脸上露出自信的微笑。

但是，看完这段17秒的视频之后，他们的笑容可能就已经凝固了。如果说前面两个视频让人感觉AI填满60秒视频内容还很吃力的话，这段17秒的视频里有快速的镜头切换，有大量的人物特写和动作，以及在动作和多个人物表情、多个场景之间的对应关系。摄影、导演、剪辑三个工种的活，AI一个人全干了，代价就是一点电费。第一段视频是纪录片，第二段视频是广告片，那么第三段视频毫无疑问就是电影。

复杂的摄像机运动，以及具有生动情感的多个角色---OpenAI做到了。

去年12月5日，我写过一篇文章：《准备拍你的电影》。当时阅读量并不高，读者们看了将信将疑，觉得距离自己很遥远。现在，你可以点开这篇文章，重读一遍，重新感受一下，尤其是最后一段话---我甚至在四个字母里猜对了头两个。

---

槽边往事

2024-02-16

这回轮到影视人焦虑了

没有评论:

发表评论

近期热门博文

链接

网页浏览总次数