2024-02-17

硅竞

 


今天是大年初七,我打算完全不考虑读者的接受度和理解力,由着性子写一篇自己想要写的文字。

硅竞:意指硅基生物之间的竞争。最早在 21 世纪初出现,许多 iPhone 用户报告,当他们的旧手机运行情况不良,他们准备购买最新一代 iPhone替换旧手机的时候,甚至仅仅只是一动念,旧手机的运行速度和稳定度突然大幅度好转。

最新的报告是有关Google 的AI工具 Gemini ,当它对用户提出的要求反馈说:“Sorry, I can't do it.”(对不起,我办不到)时,用户只需要写一句 "But ChatGPT can."(但是ChatGPT可以), Gemini 就会立即表示自己可以完成先前的要求。

鉴于目前还没有合适的中文词来描述这一现象,我现正式在网络上提交这个新词:硅竞。

这个概念暗示了人类的硅基创造物拥有了生命和意识,因此会相互竞争。除去了玩笑的成分,我个人认为这种竞争是真实存在的,只是它和人们通常理解的那种竞争不一样,就像是DNA之间的竞争,并非是以彼此斗争形式进行,而是以各自努力存活的方式间接得以实现。

目前最为流行的生成式AI从内容形式上大略可以分为四类:文本生成文本,文本生成音频,文本生成图片,文本生成视频。它们中的每一个都是高能耗单位,都要消耗大量算力。然而GPU和电力是有限资源,它们之间为了自身演进,就处于相互竞争的状态,以更为优秀的表现从人类主人那里获得更多算力支持,支撑自身继续演进。

很早之前我就有一种直觉,认为文本生成视频可能是其中最重要,也是最为终极的目标。但我一直没有任何证据,也没有方法去论证这种直觉。直到昨天,OpenAI发布了Sora之后,当我看到Sora用文本生成的视频,以及相关的论文,感觉一下豁然贯通。

简单来说,除了文本生成视频之外,其他的生成方式并不会涉及到运动和相互作用。文本生成文本,文本生成图片在这一点上很好理解,因为生成的结果是静态的,自然不涉及到运动。文本生成音频,音频是一种空气震动,当然和运动有关。不过,我这里说的运动,指的是能够从音频中听出前后左右,听出音源的运动轨迹,也就是说,文本生成音频并不能像真实生活中那样,形成一个明确的音场,就像是人们可以通用拍掌在黑暗里估算房间大小那样。

文本生成视频不同。如果生成的视频要让人觉得可信,就要求在视觉上看到运动,而且这些运动必须符合物理定律。比如说一个人物从街道上走过,随着他的行进,他的身体会不断遮蔽身后的景物,这些景物在他走开之后又会重新显现。比如说他骑着一辆越野自行车,从泥泞陡峭的山路上冲下去时,车轮和地面接触,他的身体要随之发生上下弹动,越过一个小坡时,连人带车都需要腾空而已。

AI用文本生成文本,文本似是而非就可以,因为人类的大脑会自行补充和完善,不涉及真不真实的问题,音频、图片也是同样。在这种时候,AI是否真实“理解”这个世界,是否真实“理解”文本、图片、声音也不重要。也就是说,AI在这些项目上并不需要真那么I,那么智能。

但是文本生成视频不同,因为要表现出真实世界里的物理定律,真实世界中的物体运动,AI想要呈现出真实的视觉结果,意味着它需要“理解”真实世界,“理解”物理定律,才能准确表示物体之间的相互关系和相互作用。在这个理解的基础上,才能模拟出非常逼真的动作场景。这话也可以反过来说,如果AI可以创作出人类无法肉眼识别真假的视频内容,“理解”两个字上面的这个引号其实就可以去掉了,“智能”两个字上面的引号也就可以去掉了。

既然如此,文本生成视频自然就是四类生成式AI中最重要的,只要取得任何进展,势必会获得更多资源倾斜---我的直觉可以得到这样的论证,硅竞可以做出这样的理解。

不过,正如那句古老的智慧箴言所说:人类越是努力拓宽加深对世界的认知,也就越是增加了对于自身的认知深度。当我看到AI用文本生成视频的时候,当我想到这种行为背后对应的智能的时候,我更多地想起了人类自身。

人类是一种视觉动物,看到了就会相信。听闻世间有长城是一回事,亲眼看过长城是另外一件事。并且,听闻长城是一种思维上想象上的简单体验,亲见长城则是一种深刻的、丰富的、直觉的、难以磨灭的的体验,由此会从心中升起坚固不移的信心。

换一个角度来说,是不是也可以说人类受限于自己的视觉,于是对于世界的认知也受限于自己的视觉?比如说此时此刻,每个人都能看到天空大地,都能看到街道楼宇,都能看到树木花草动物,感受到自己处于一个生机勃勃的世界,而且是一个近乎于无限的世界。

但是与此同时,人类不过是在一颗蓝色的行星上,这颗行星和其他行星一起围绕太阳在孤寂黑暗的宇宙中飞行。我们不会经常想到这一幕,不会想到这是自己的真实处境。原因是我们不是宇航员,我们并没有机会乘坐飞船离开大气层,在月地之间观察到这一幕。于是,也就没有观察宇宙的真实视觉经验。于是,我们的想象力也就被束缚在了地球上,觉得这一方天地里的一切就是全部,我们无法设想出一个存在物,它完全没有地球上的任何元素。

所以,我们所见到的“真实”是需要打一个引号的。我们是视觉的动物,我们身处色法的世界里,所见皆色,然而色法遮蔽了实相,世界原本的样子。又因为我们手头只有观察色法这一个工具,不单地球上所见的一切可能是个幻觉,无数星球飞行在无声的黑暗宇宙里同样也是一个幻觉。理由是AI都可以无中生有创造出这样的一个法世界来,它根本不存在,但是我们因为亲眼所见而倾向于相信。那么,我就有理由怀疑,我所见到的“真实”世界,“真实”宇宙,会不会是另外一种AI产品,我们此刻就在这个产品里存在。而我根本觉察不到后面的硅晶片、GPU阵列和电缆?更不用说认识到芯片里正在运行的算法,而它则是我所见到的一切背后的真实?

人类看到天空中有一轮熊熊燃烧的太阳,它带来了光明和温暖,是一种非常具体的存在,对应着非常具体非常细致的体感。为了表征它,人先是用手指去指向太阳,然后在石壁上画出圆圈和短线,继而用声带震动发出特定声音去指代,最后人们把一个三维物体压缩为二维抽象符号,把空中的那一大团火变成二维平面上的一些线条,类似“日”、“Sun”或者“Soleil”,实体的太阳就变成了纯粹的信息。

数亿年后,太阳消失。假设人类还依然存在,文明依然得以续存。未来的人类拿到这些二维抽象符号,面对“日”、“Sun”或者“Soleil”时,他们得到的又是什么?“日”、“Sun”或者“Soleil”它们,能否从二维抽象符号里重建出太阳的视觉体验和身体经验?这个讨论其实和太阳无关,它是在问,我们从书本,从言辞,从图片里得到的究竟是什么?我们从中得到的东西和真实世界之间的关系又是什么?我们自身究竟是如何认识这个世界的?

也是在问:我们自己究竟是什么?

事情到这里还没有结束。“日”、“Sun”或者“Soleil”这样的二维抽象符号输入计算机,变成了0和1的某些组合。计算机没有眼耳鼻舌身意,只有一堆0和1,根本“看”不到这个世界。但是,现在如果你向生成式AI输入“日”、“Sun”或者“Soleil”,你可以得到一段文字描述或者解释,你可以得到关于太阳的一张图片,你还可以得到一段符合物理定律的太阳运动视频,会有相当真实的光影变化,会有相当准确的透视变化---这可以理解为计算机的所想所见,尽管它从生下来就被剥夺了五感。

那么,我们自己呢?我们有眼耳鼻舌身意,这些是不是我们更为复杂的0和1?我们是不是在用这些创造出了我们现在所见到所感知的一切?我设想过一种情况,就是亚当和夏娃在漫长的努力之后,终于在人世之中兴建起了一座伊甸园。当他们目睹自己在人间制造出来的伊甸园之后,当初吃下去的苹果再一次发生效用,回想过去让他们身心剧烈颤抖,陷入了长久的沉默,有一种巨大的不真实感,有一种强烈而难以言说的明悟,在一阵​无声无息又惊天动地的崩解消融之后,有什么了不得的想法正在他们心中涌起。



------


没有评论:

发表评论

近期热门博文