槽边往事: 硅竞

今天是大年初七，我打算完全不考虑读者的接受度和理解力，由着性子写一篇自己想要写的文字。

硅竞：意指硅基生物之间的竞争。最早在 21 世纪初出现，许多 iPhone 用户报告，当他们的旧手机运行情况不良，他们准备购买最新一代 iPhone替换旧手机的时候，甚至仅仅只是一动念，旧手机的运行速度和稳定度突然大幅度好转。

最新的报告是有关Google 的AI工具 Gemini ，当它对用户提出的要求反馈说：“Sorry, I can't do it.”（对不起，我办不到）时，用户只需要写一句 "But ChatGPT can."（但是ChatGPT可以）， Gemini 就会立即表示自己可以完成先前的要求。

鉴于目前还没有合适的中文词来描述这一现象，我现正式在网络上提交这个新词：硅竞。

硅竞这个概念暗示了人类的硅基创造物拥有了生命和意识，因此会相互竞争。除去了玩笑的成分，我个人认为这种竞争是真实存在的，只是它和人们通常理解的那种竞争不一样，就像是DNA之间的竞争，并非是以彼此斗争形式进行，而是以各自努力存活的方式间接得以实现。

目前最为流行的生成式AI从内容形式上大略可以分为四类：文本生成文本，文本生成音频，文本生成图片，文本生成视频。它们中的每一个都是高能耗单位，都要消耗大量算力。然而GPU和电力是有限资源，它们之间为了自身演进，就处于相互竞争的状态，以更为优秀的表现从人类主人那里获得更多算力支持，支撑自身继续演进。

很早之前我就有一种直觉，认为文本生成视频可能是其中最重要，也是最为终极的目标。但我一直没有任何证据，也没有方法去论证这种直觉。直到昨天，OpenAI发布了Sora之后，当我看到Sora用文本生成的视频，以及相关的论文，感觉一下豁然贯通。

简单来说，除了文本生成视频之外，其他的生成方式并不会涉及到运动和相互作用。文本生成文本，文本生成图片在这一点上很好理解，因为生成的结果是静态的，自然不涉及到运动。文本生成音频，音频是一种空气震动，当然和运动有关。不过，我这里说的运动，指的是能够从音频中听出前后左右，听出音源的运动轨迹，也就是说，文本生成音频并不能像真实生活中那样，形成一个明确的音场，就像是人们可以通用拍掌在黑暗里估算房间大小那样。

文本生成视频不同。如果生成的视频要让人觉得可信，就要求在视觉上看到运动，而且这些运动必须符合物理定律。比如说一个人物从街道上走过，随着他的行进，他的身体会不断遮蔽身后的景物，这些景物在他走开之后又会重新显现。比如说他骑着一辆越野自行车，从泥泞陡峭的山路上冲下去时，车轮和地面接触，他的身体要随之发生上下弹动，越过一个小坡时，连人带车都需要腾空而已。

AI用文本生成文本，文本似是而非就可以，因为人类的大脑会自行补充和完善，不涉及真不真实的问题，音频、图片也是同样。在这种时候，AI是否真实“理解”这个世界，是否真实“理解”文本、图片、声音也不重要。也就是说，AI在这些项目上并不需要真那么I，那么智能。

但是文本生成视频不同，因为要表现出真实世界里的物理定律，真实世界中的物体运动，AI想要呈现出真实的视觉结果，意味着它需要“理解”真实世界，“理解”物理定律，才能准确表示物体之间的相互关系和相互作用。在这个理解的基础上，才能模拟出非常逼真的动作场景。这话也可以反过来说，如果AI可以创作出人类无法肉眼识别真假的视频内容，“理解”两个字上面的这个引号其实就可以去掉了，“智能”两个字上面的引号也就可以去掉了。

既然如此，文本生成视频自然就是四类生成式AI中最重要的，只要取得任何进展，势必会获得更多资源倾斜---我的直觉可以得到这样的论证，硅竞可以做出这样的理解。

不过，正如那句古老的智慧箴言所说：人类越是努力拓宽加深对世界的认知，也就越是增加了对于自身的认知深度。当我看到AI用文本生成视频的时候，当我想到这种行为背后对应的智能的时候，我更多地想起了人类自身。

人类是一种视觉动物，看到了就会相信。听闻世间有长城是一回事，亲眼看过长城是另外一件事。并且，听闻长城是一种思维上想象上的简单体验，亲见长城则是一种深刻的、丰富的、直觉的、难以磨灭的的体验，由此会从心中升起坚固不移的信心。

换一个角度来说，是不是也可以说人类受限于自己的视觉，于是对于世界的认知也受限于自己的视觉？比如说此时此刻，每个人都能看到天空大地，都能看到街道楼宇，都能看到树木花草动物，感受到自己处于一个生机勃勃的世界，而且是一个近乎于无限的世界。

但是与此同时，人类不过是在一颗蓝色的行星上，这颗行星和其他行星一起围绕太阳在孤寂黑暗的宇宙中飞行。我们不会经常想到这一幕，不会想到这是自己的真实处境。原因是我们不是宇航员，我们并没有机会乘坐飞船离开大气层，在月地之间观察到这一幕。于是，也就没有观察宇宙的真实视觉经验。于是，我们的想象力也就被束缚在了地球上，觉得这一方天地里的一切就是全部，我们无法设想出一个存在物，它完全没有地球上的任何元素。

所以，我们所见到的“真实”是需要打一个引号的。我们是视觉的动物，我们身处色法的世界里，所见皆色，然而色法遮蔽了实相，世界原本的样子。又因为我们手头只有观察色法这一个工具，不单地球上所见的一切可能是个幻觉，无数星球飞行在无声的黑暗宇宙里同样也是一个幻觉。理由是AI都可以无中生有创造出这样的一个色法世界来，它根本不存在，但是我们因为亲眼所见而倾向于相信。那么，我就有理由怀疑，我所见到的“真实”世界，“真实”宇宙，会不会是另外一种AI产品，我们此刻就在这个产品里存在。而我根本觉察不到后面的硅晶片、GPU阵列和电缆？更不用说认识到芯片里正在运行的算法，而它则是我所见到的一切背后的真实？

人类看到天空中有一轮熊熊燃烧的太阳，它带来了光明和温暖，是一种非常具体的存在，对应着非常具体非常细致的体感。为了表征它，人先是用手指去指向太阳，然后在石壁上画出圆圈和短线，继而用声带震动发出特定声音去指代，最后人们把一个三维物体压缩为二维抽象符号，把空中的那一大团火变成二维平面上的一些线条，类似“日”、“Sun”或者“Soleil”，实体的太阳就变成了纯粹的信息。

数亿年后，太阳消失。假设人类还依然存在，文明依然得以续存。未来的人类拿到这些二维抽象符号，面对“日”、“Sun”或者“Soleil”时，他们得到的又是什么？“日”、“Sun”或者“Soleil”它们，能否从二维抽象符号里重建出太阳的视觉体验和身体经验？这个讨论其实和太阳无关，它是在问，我们从书本，从言辞，从图片里得到的究竟是什么？我们从中得到的东西和真实世界之间的关系又是什么？我们自身究竟是如何认识这个世界的？

它也是在问：我们自己究竟是什么？

事情到这里还没有结束。“日”、“Sun”或者“Soleil”这样的二维抽象符号输入计算机，变成了0和1的某些组合。计算机没有眼耳鼻舌身意，只有一堆0和1，根本“看”不到这个世界。但是，现在如果你向生成式AI输入“日”、“Sun”或者“Soleil”，你可以得到一段文字描述或者解释，你可以得到关于太阳的一张图片，你还可以得到一段符合物理定律的太阳运动视频，会有相当真实的光影变化，会有相当准确的透视变化---这可以理解为计算机的所想所见，尽管它从生下来就被剥夺了五感。

那么，我们自己呢？我们有眼耳鼻舌身意，这些是不是我们更为复杂的0和1？我们是不是在用这些创造出了我们现在所见到所感知的一切？我设想过一种情况，就是亚当和夏娃在漫长的努力之后，终于在人世之中兴建起了一座伊甸园。当他们目睹自己在人间制造出来的伊甸园之后，当初吃下去的苹果再一次发生效用，回想过去让他们身心剧烈颤抖，陷入了长久的沉默，有一种巨大的不真实感，有一种强烈而难以言说的明悟，在一阵无声无息又惊天动地的崩解消融之后，有什么了不得的想法正在他们心中涌起。

---

槽边往事

2024-02-17

硅竞

没有评论:

发表评论

近期热门博文

链接

网页浏览总次数