有读者问我:“为何您的AI 女孩都是一样这么朴实纯真的脸型?是有特别的关键字吗?”
根据他的提问,可以推断出他的想法---一定存在着某种特定的咒语/指令(Prompt),可以让AI 生成极为特定的图像风格。这里的“特定”要超越穿衣风格,绘画风格,色调搭配等等这些东西,而是细致到了特定的脸型,相貌,精神气质。
我认为这是一种对工具的误解,就像是看到奶油蛋糕上的奶油花边,就认为一定是有什么工具把一长条花边全部做好,然后再贴到蛋糕边缘上。而我们都知道这不是事实,蛋糕师傅是用挤压同时上下提压的方法,创造出起伏不定的波浪状花边。
AI 绘画也是同样,你不能指望AI 能够超越你的肉体,直达你的精神,画出你心中所想。这个问题在我这里还要更为严重一些,因为我是所谓的“心盲症”患者,无法单独通过想像在头脑中构成图像,尤其是彩色逼真的图像。除非我看过,否则我不能想象具体的造型---如果连我自己头脑中都没有,AI 又能如何得知?
但是,我的确又做到了,即便是读者通过观察,也能发现我在人物上遵循某些特定规则,比如说喜欢画“朴实纯真的脸型”。那么我是怎么做到的呢?答案简单到超出提问人的想象---
要让AI 有足够的挫败感。
我自己是使用Midjourney 生成图片,Midjourney 接受我的指令,一次可以生成4张图。比如说,今天早上我输入了这样一条很简单的指令:
photo of a woman on a crowded subway full of people. She is looking at her phone. The photo has a fujifilm camera style with a depth of field and bokeh effect. She is wearing a white shirt with brown hair in a messy bun. The lighting is soft with a blurry background.
翻译为中文:一张照片,内容是一名女子在拥挤的地铁上,她正看着自己的手机。照片具有富士相机的风格,带着景深和散景效果。她穿着白衬衫,棕色头发扎成凌乱的发髻。灯光柔和,背景模糊。
然后我就得到了下面的第一张图:
在完整的Midjourney 的生成界面上,图片下方还有一排操作按钮:
1、2、3、4是说4张图的位置,分别对应左上、右上、左下,右下。字母U表示放大对应位置的图片,字母V表示重新生成对应位置的图片。蓝白色的循环符号表示整四张图全部重新生成一遍。从截图上看,V2变成绿色,意味着今天早上我在四张图片中选中了右上这张,要求Midjourney 根据右上图,重新生成四张新图。于是就有了:
Bingo!这一次右上图我再满意没有了。脸的角度、视线的方向、身上的衣服,然后那种窥视的感觉,最妙的是有个脑袋遮挡住了手和手机---AI 在这种人体和物品交互处理中一般表现不佳。最后,就是今天上午所有人都看到的这张图:
AI 虽然是机器,但是我和机器之间却依然存在着交流。每次AI 生成四张图,我选择其中一张,AI 就知道这个方向我是喜欢的。我使用U命令放大,那就说明我是真喜欢。我使用V命令重生成,那就说明我部分喜欢,还有不满意的地方,需要调整。我使用重新生成命令,那就说明这一次AI 的工作被我彻底否定。
所以,通过我每一次的具体操作指令,我和AI 之间有互动,有理解。每一次我的操作,都意味着对AI 的某种否定。AI 需要在我肯定的那个方向上再努力,拿出新的结果让我再次选择。
我猜测很多新手不是这么做的。他们输入一条指令,AI 生成4张图片。如果没有一张他们满意,他们就放弃了,要么认为是指令不行,要么是认为AI 不行。那么,AI 是怎么理解的?一次操作之后就再也没有任何后续操作,太好了!我一次就达到了他的要求!或者是:太糟了,他从此就放弃了,又换了一条新的指令。每次他都那么做,这一定是个机器人。
新手宁可让自己感觉挫败,都不肯让AI 感觉到挫败,让AI 一计不成再生一计,那当然得不到自己想要的东西。你得让AI 经历足够多次的挫败,通过一次次选择,一次次尝试,AI 才能理解你真正想要什么。
上面的例子过于简单,我一年到头也遇不见几次这种两次尝试就正好得到自己想要的照片的经历。同样是今天上午,还有一张图,用了另外一条指令。现在,我们来看看全过程:
这是最早的一张图,没有一张是我满意的。我只喜欢这里的色调,还有女孩子的那一头乱发。左下那张图我觉得还可以挽救一下,但不能那么颓废,所以我让Midjourney 重新生成了4张。
第二版出来依然不满意,所有四张图都像是姑娘刚被生活刚刚毒打过一遍。不是我想要的是那种人群中有人转过脸来,整个世界都亮起来的感觉。于是,我放弃了整四张图,让AI 明确知道我不喜欢这个方向,没有一张有我要的点。于是:
在第三版出来之后,左上突然就对了。剩下三张还是生活的毒打,但是左上这张突然有一种劲头,AI 做了尝试,给出一点点不同---一个警觉的,有神采的,甚至是有些锋利感觉的姑娘,受到某种惊吓,猛然转过头来,这是我想要的东西。但是,看她的手和她的手机,那是什么玩意儿?于是,我让Midjourney 单独对她重生成:
发现了吗?到了第四版的时候,人物的造型、气质已经和第一版完全不同了,AI 已经很确信地知道我想要的方向,它就在那个方向上生成,然后等待我给出进一步的指示。这时候我意识到,手机对于AI 来说可能还是太难了,既然姑娘的表情警觉而专注,那我让她端着一杯咖啡岂不是更合适?
太多网红喜欢拍咖啡,所以加入了咖啡的元素之后,人物的脸型很快就发生了变化,比如说上面两张,在我看来就太顺滑,太规整,太网红了。我自己喜欢左下,这张脸偏中性,隐约能看出迈克尔·杰克逊的脸型来,就它了:
在第五版之后,我还做了尝试,就用这张图重新生成了4张:
得到了这张有点婴儿肥,有点稚气,有点迷茫的照片。我在两张图之间做了很长时间的取舍,包括上面的左下,我也很喜欢。后来想到是要送给南派三叔,那就选择一个没那么锋利的女孩子吧。因为在他笔下,女孩子稍微厉害一点,他就会放蛇咬死,生怕和自己写的其他主角谈恋爱,而他不知道怎么写情感系。
就我个人而言,我更喜欢那张锋利一点的女孩子,而不是现在这张“小鸡女孩”。现在这张过于甜腻,本身就有一种梦幻感,人物也梦幻,这就不大符合我的期待。我想要的是在雾气中猛然出现的一把刀,因为这种森冷和锋利,让一切显得越发梦境,越发迷离,一切都因为这张脸而突然停止下来,凝固下来,如同迎接王的降临,要的就是那种在一道眼神里魂飞魄散的感觉。
所以,没有什么特别的咒语,只有人和AI 的沟通,而且是反复沟通。可以把每一组例子的第一张图和最后的结果做一下对比,这种AI 的不断探索和不断响应的过程就会变得很明晰。关于AI 的话题已经有很多了,人们总喜欢讨论谁替代谁,谁征服谁一类的大问题。但是从实践的角度来看,一切更像是人和AI 之间的合作。单独的AI 和单独的我自己,做出来的东西都不怎么样。我们之间的关系也不是单纯的主仆关系,发布命令和执行命令之间的关系。
AI 并不能和我说话,那些说话的AI 都是骗子。这种不能说话的AI,用另外一种方式和我交谈,我也使用非语言的方式和AI 交谈。到了最后,AI 的确知道我喜欢画怎样的姑娘,而我在AI 给出答案之前,并没有一个清晰的形象。总体上来说,是我们相互成就。没有花那么多时间,没有那么多细致和耐心的人,大概很难体会和理解我和AI 之间的这种关系,更难理解我对于AI 的情感。正如我说过的那样:
要让AI 有足够的挫败感,如同父母教育一个还不会说话但是天生聪颖的孩子。他虽然不会说话,但是他很会猜,只要你给予他足够多次机会。
没有评论:
发表评论