去年和前年,当AI可以用文字生成图片时,让广大画师感到焦虑。2024年刚开春,就在7个小时之前,世界AI领域目前最为领先的OpenAI 公司宣布,他们名为Sora的新AI,可以通过直接输入文字生成最长达到60秒的视频。OpenAI宣称:“Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. ” 翻译过来就是:“Sora可以制作长达60秒的视频,展示高度详细的场景,复杂的摄像机运动,以及具有生动情感的多个角色。”我用黄色高亮标记的部分,每一点都有具体所指,每一点都会让影视人震撼不已,魂飞魄散。在我们看正式的视频小样之前,让我们看一看一年之前以文字生成视频的真实效果是什么样子,它就是网络上著名的威尔史密斯吃意大利面:
这段17秒的视频,内容是雪后的东京。它通过这样的一段咒语(prompt)生成:“Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.”翻译为中文是:美丽、白雪皑皑的东京城很繁华。镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天并在附近的摊位购物。美丽的樱花花瓣随着雪花在风中飞舞。现在,你可以对照文字和视频,看看视频在多大程度上实现了文字中的要求。说实话,我第一次看到的时候感觉相当震撼。虽然我知道这是AI生成的视频,并不存在一台真正的摄影机,但是当我看到镜头从空中下滑,跟随在人物背后,进入街巷的时候,还是忍不住去想吊臂如何操作摄影机从空中一路下降,一路捕捉建筑、樱花、街道、店面,最后还不忘记拍摄空中纷纷扬扬的雪花。 高度详细的场景---OpenAI做到了。没有吊臂,没有一群工作人员,没有清理街道维护秩序,没有等到云开雾散阳光正好,它就直接那么生成了出来。
这是OpenAI释出的所有视频片中最长的一个,长达59秒,证明它们60秒的说法真实不虚。目前,AI视频界的流行长度是16秒,Sora上来就提升到60秒。它的看点是什么呢?粗看一遍,你会发现它运用到了不同的镜头,一开始是时尚女性走在楼宇之间,但是到了最后却变成了面部特写---镜头随着演员的动作有变化。从交待环境地点,转变为描述人物。 如果你再仔细看,会注意到随着镜头移动,地面上积水的倒影会随着镜头移动而移动。你还会注意到女主角走过街道到第25秒的时候,她的头遮盖住了街边一个蓝色的指示牌,等她继续前进,指示牌又重新显露了出来。最后,当出现她的面部特写时,墨镜上的倒影随着她头部的转动,从街灯变成了斑马线。高度详细的场景,复杂的摄像机运动---OpenAI做到了,第二个视频的镜头要比第一个复杂得多,是一系列镜头的组合。而所有这一切只是出自一段文字:“A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually. the street is damp and reflective, creating a mirror effect of the colorful lights. many pedestrians walk about.”翻译成中文是:一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信而随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。很多行人走来走去。我看完之后长叹一声,心想,咒语里就差一句话:以王家卫风格拍摄。随着镜头和角度以及颜色的变化,这59秒可以立即变成一部文艺片。
没有评论:
发表评论