本期巡山报告带来的是AI在自动补全代码和生成人脸上的新成果。让我们一起看看,AI是怎么通过这两项技术,兼具智慧和美貌,既加剧程序员内卷,又成功女团出道的吧!
一、AI自动写代码
在今年早些日子,OpenAI与Github联合发布的AI代码补全工具Github Copilot,一时间饱受程序员们的关注,程序员的饭碗真的不保了吗?Github Copilot强大的代码补全能力着实令人震惊,但说到Github Copilot,就不得不提到它背后的机器学习模型Codex。
根据OpenAI的联合创始人兼首席技术官Greg Brockman表示:“Codex是GPT-3的后代。” GPT-3是OpenAI在2020年推出的自然语言处理领域的预训练模型,具有强大的人类语言续写和生成能力。Codex使用的训练数据包括自然语言和数十亿行开源代码,当然也包括了Github中的开源代码。目前Codex的最大版本,Codex-12B包含了120亿参数。
而在8月11日,OpenAI正式在官网上推出了改进版的Codex,并且发布了测试版本。相较于Github Copilot来说,Codex不仅将Copilot的功能做的更好,解读简单的代码注释,按照用户的注释生成相应的代码,它还变得更加易于使用,更加智能了。可能到了2021年,对于机器学习领域来说,最好的编程语言不再是Python,而是OpenAI的GPT-3……
OpenAI 的联合创始人兼 CTO Greg Brockman 和 Codex 负责人 Wojciech Zaremba 在线演示了 Codex 的更多用途,让更多的人了解到这项神秘的技术。
图为使用Codex编写游戏,详情可参见视频https://www.bilibili.com/video/BV1164y1i7Mx
令人振奋的是,Codex不仅支持操控编程语言,而且还能操控其他的程序。拿Microsoft Word举例来说,Codex 可以将用户的口头命令创建的代码,通过调用Word的API,向其提供指令。调整字体、删除缩进、序列编号等等常用的Word操作都可以很好地被Codex理解。
当前Codex还处在小范围测试的阶段,期待下一个能够公开使用的版本能提供更多令人耳目一新的功能。
尽管人工智能辅助来生成代码是一件很fancy的事情,然而,不得不提的是,OpenAI 的 Codex同样显示了大型语言模型的局限性。随着模型参数规模的增加,Codex的性能也在上升,从3亿参数情况下的13.2%,上升到120亿参数情况下的28.8%。120亿参数对于2020年以前的模型来说可能已经是一个很大的量级了,但是对于Codex的祖先——GPT-3来说(GPT3包含1750亿参数)实在是小巫见大巫。
那么OpenAI为什么不进一步提高Codex的模型参数量,让它在写代码这件事情上更加一骑绝尘呢?
首先,一个可能的原因是数据集。更大的Codex模型需要更大的数据集,在159GB的语料库上进行训练可能会导致过拟合,这样训练出来的模型变得非常擅长记忆和排练训练实例,而在处理新情况方面则非常糟糕。这一现象在Github之前发布的Copilot上已经初见端倪,在有的情况下,Copilot倾向于在它见过的代码里查找最符合问题解答的代码。
并且,收集和维护更大的数据集是一个昂贵和耗时的过程。根据OpenAI的实验结果,进一步提高模型的复杂度带来的收益在以对数尺度下降。这意味着随着模型规模的增加,性能收益逐渐减少。因此,收集数据、培训和运行更大的模型所增加的成本可能抵不上小小的性能提升。
最值得我们注意的一件事是,无论Codex的输出多么吸引人,深度学习模型并不理解编程。与所有其他基于深度学习的语言模型一样,Codex正在捕捉代码片段之间的统计相关性。用通俗的话来讲,Codex学到的“代码技能”的天花板是一个大众水平的程序员,尽管Codex见过很多水平高深的程序员的杰作,它并不会因此变成一位出类拔萃的程序员。
二.AI 唱跳女团
说完靠脑力硬核的程序员,人工智能其实也能“靠脸吃饭”,人工智能图形公司Pulse9今年推出了全部由AI成员组成的女子组合Eternity。
与常见的长相偏二次元的虚拟偶像不同,Eternity成员的长相更接近真人,而她们的成团机制也像现在很火的101系列选秀节目一样,是由网友根据照片、性格描述从101位“AI练习生”里票选出来的。
某星期排名前三的“AI练习生”
这些“AI练习生”的形象是通过一项名为Deep Real AI的技术生成的。尽管这项技术基于我们的老朋友Deepfake,它比Deepfake成本更低,制作时间更短。
然而,概念很美好,现实很骨感。
2021年3月,Pulse9发布了Eternity的新歌《I’m Real》MV。看完视频,网友们直呼救命,视频中的成员们看起来和静态“照骗”相差很大。首先,近景镜头里,尽管AI妹妹们注意了表情管理,特写时都做出了女团标志性的魅力wink,但注视镜头时眼神空洞、不聚焦;第二,AI成员们过于平滑光泽的肌肤使她们看起来不具有人类的皮肤质感和立体感,缺少了人类脸上明暗光影的对照,看起来像是平面插图的动态化;第三,AI妹妹们侧视镜头时,头部和脸部的衔接也不太自然。除此之外,略显尖锐的声音和过于简单的舞蹈也是围观群众吐槽的焦点。
《I’m Real》MV片段
这么看来, Eternity似乎离拿下打歌舞台一位,开创AI女团新时代的目标还有很大提升空间,但该团队近几周新发布的成员Minji的采访视频给了我们一个很大的惊喜。新视频中,Minji看起来“real”了许多,眼神有了焦点,讲话时的神态动作也更加自然,不仔细辨认很难发现她是个“AI妹妹”了。
成员Minji采访视频截图
说起真假难辨的AI形象,科技圈也有这么一位引起了热议。今年八月,英伟达发布的纪录片揭露了几个月前的GTC发布会上,创始人黄仁勋演讲的画面其实并非他本人出镜,而是他的“电子替身”代劳。此消息一出,震惊了网上冲浪的吃瓜群众们,画面上黄仁勋表情动作灵动、皮肤质感真实,难道虚拟克隆技术已经达到如此以假乱真的地步了吗?
在网络的惊叹与热议声中,英伟达出来澄清了它的说法:实际上,在两个多小时的发布会中,只有14秒是黄仁勋(和他的厨房)的“电子替身”,其余还是他本人出镜。
黄仁勋“电子替身”出现的画面
然而,台上一分钟,台下十年功。英伟达团队为了这短短14秒的亮相付出了不少努力,他们先是对黄仁勋进行360度的全方位拍照扫描以进行基础的CG建模。在演讲时的面部表情处理上,该团队采用了Audio2Face模型,使“电子替身”能模仿真人讲话时面部肌肉的移动,类似俗称的“对口型”。而为了还原“电子替身”的皮肤质感,该团队的视频研究组则采用了FaceVid2Vid技术,将黄仁勋的面部照片映射到做好的CG模型脸部。另外,优于前文提到的AI女团的设计团队,英伟达团队还考虑到了人脸的光影效果。该团队通过观察黄仁勋在发布会现场类似的灯光下录制的各角度视频,在CG模型上还原了他额头的高光阴影。
在“电子替身”的肢体动作表现上,该团队采用了Audio2Gesture技术来实现黄仁勋演讲时会配合的手势及动作。具体来讲,该团队雇用了动作演员模仿黄仁勋之前的演讲表现并录像作为训练集,从而让模型了解不同语境语意应当做出的肢体动作。
尽管由于制作时间和成本受限,黄仁勋的“AI替身”在发布会出现只有14秒远景镜头,我们还是可以通过纪录片中所展示的模型形象窥见这项技术的无限可能,相信在不远的未来,我们能看到更完美、更“真实”的“电子替身”。
在见证这项技术逐渐成长的过程中,我们难免像那些“望子成龙”的父母,对它的未来做出一些美好的设想。比如,不再是二次元脸的虚拟AI偶像是否能吸引更多的粉丝,毕竟永远不会“塌房”、业务和颜值都在线的完美偶像听起来还是挺香的。或者,如果恋爱向游戏中的男主角都换成更接近真人的AI形象,是不是比纸片人更能带来真实的陪伴感,更容易吸引女玩家的氪金?再或者,分分钟上千万生意的商界大佬们也许可以结合AI形象和上期报告提到的“超级自然语音技术”获得“分身”,几倍提高谈判效率。不管哪一项,听起来都有着不错的商业价值,让我们共同期待人工智能技术的发展,一起发掘其更多的可能性。
参考链接:
- OpenAI Codex:https://openai.com/blog/openai-codex/
- Chen, M., Tworek, J., Jun, H., Yuan, Q., Ponde, H., Kaplan, J., Edwards, H., Burda, Y., Joseph, N., Brockman, G., Ray, A., Puri, R., Krueger, G., Petrov, M., Khlaaf, H., Sastry, G., Mishkin, P., Chan, B., Gray, S., Ryder, N., Pavlov, M., Power, A., Kaiser, L., Bavarian, M., Winter, C., Tillet, P., Such, F., Cummings, D., Plappert, M., Chantzis, F., Barnes, E., Herbert-Voss, A., Guss, W.H., Nichol, A., Babuschkin, I., Balaji, S., Jain, S., Carr, A., Leike, J., Achiam, J., Misra, V., Morikawa, E., Radford, A., Knight, M., Brundage, M., Murati, M., Mayer, K., Welinder, P., McGrew, B., Amodei, D., McCandlish, S., Sutskever, I., & Zaremba, W. (2021). Evaluating Large Language Models Trained on Code. ArXiv, abs/2107.03374.
- Eternity的AI成员:https://www.bilibili.com/read/cv11747981
- Eternity的新歌《I’m Real》MV:https://www.youtube.com/watch?v=XQMg8-Ku3JI
- Eternity成员Minji采访视频:https://www.youtube.com/watch?v=dF48R0M7jhE
- Eternity成员选秀(AI.DOL Challenge)facebook主页:https://www.facebook.com/AI.dolChallenge101/?ref=page_internal
- “英伟达自曝发布会“造假”!老黄竟是AI数字人,揭秘元宇宙黑科技”:https://mp.weixin.qq.com/s/9zjGjQOPa96AtzZgs8bt0g
- “「假黄仁勋」刷屏之后,英伟达官方辟谣:只有14秒是虚拟的”:https://mp.weixin.qq.com/s/p5PvVDyZHufxI9R5p_8n1Q