2021新年的第一期见知巡山报告又和大家见面了。在新年一年里我们会继续网罗AI界每月最新最热的前沿科技给大家,同时也欢迎各位的踊跃点赞和投稿。
一、用AI来匹配伴侣
“喂,能给我介绍个对象么,最好长得像新垣结衣”
要是在网上看到标题里这句话,评论区多半已经为“新垣结衣到底是谁的女朋友”打起来了,但事实上,AI真的能或多或少帮到这个人。不少科技公司陆续推出了自己的在线约会平台,旨在通过人工智能技术为人类匹配最佳伴侣。
Match就是其中一个是快速约会领域中的佼佼者,它曾表示“我们积累了丰富的个人数据,可以利用AI和数据分析来匹配人类的最佳伴侣”。Lara是该公司旗下最广为人知的一款AI聊天机器人,它通过自然语言处理和语音识别等技术,以聊天的形式获取用户信息及喜好,并为单身人士匹配约会对象。Lara 的聊天内容涉及生活习惯、星座、兴趣爱好等50多个维度。该软件是依靠用户的历史聊天信息构建用户画像,依靠推荐系统来为用户进行推荐。
而在其他方面,AI也能够帮到你。如果你对另一半的长相有比较高的要求,那么可以尝试一下在线交友平台Badoo,它的特别之处在于,可以根据AI和面部识别技术搜索与前任或某位明星长相相似的异性。据说,自该平台推出以来,演员卡戴珊(Kim Kardashian)和歌手碧昂斯(Beyonce)是搜寻次数最多的名人。
而如果你总是掌握不好与暧昧对象更近一步的时机,可以利用一款来自英国的约会软件LoveFlatter的AI分析你们聊天记录,并评估双方的感情状态,同时给出最佳建议——何时开启线下约会。更特别的是,LoveFlatter还可以为你推荐最佳约会地点,比如附近的餐馆,酒吧或俱乐部。但在使用这款软件之前最好先征得对方的同意,毕竟不是每个人都愿意将私密的聊天记录上传给陌生人,何况对方还可能会怀疑你对待这段感情是否认真。不过话说回来,告诉对方自己要使用这种软件,和直接告白有什么区别呢?
以上这些约会平台,除了使用AI发现更多潜在匹配项外,还可以根据一个人在Facebook、Twitter、Instagram等社交媒体平台发布的帖子来了解他们的性格和兴趣。有专业人士称,AI避免了婚介所带来的信息偏差,它利用互联网大数据分析提供了更高效精准地匹配,这样有助于提高线下约会的成功率。
AI技术的相关问题
目前大部分的约会平台在匹配阶段采用的都是构建用户画像+推荐系统的算法模式,大部分的社交平台都是要求用户提前填写问卷获得用户信息,而不是像前面提到的平台一样利用自然语言处理等AI技术。利用自然语言处理等技术的好处主要有两个,一是优化用户体验,避免用户因为填写冗长的问卷而感到厌烦;二是获得更精准的用户画像,用户很可能会在问卷上撒谎,但和AI进行互动中交流方式和行为都是百分百真实的,平台能从中挖掘出更多的信息。
但问题在于,人类之间的感情是十分复杂的,没有任何证据表明推荐系统式的匹配能够帮助用户找到他们的Mr./Miss Right。说到底,AI目前的功能还仅仅是作辅助的工具,真想脱单还是得看自己啊!
二、从文本到图像:OpenAI推出120亿参数语言模型
2020年9月,OpenAI推出了自然语言处理模型GPT-3,这一模型效果极其惊人,能够能够生成以假乱真的文章,还能构建令人信服的聊天机器人。而最近,5个月后,OpenAI在这一模型的基础上推出了DALL·E模型,后者可以魔法一般地按照自然语言文字描述直接生成对应图片。
比如,如果你在DALL·E中输入“穿芭蕾舞短裙、正在遛狗的萝卜宝宝”,它就可以生成这样一张图片:
DALL·E可不光能生成漫画类的图像,凭空造出十分真实的照片也在他的能力范围内,比如让DALL·E生成“带有OpenAI字样的店面”,它能产生这样的结果:
DALL·E的前世今生
DALL·E的命名来自于艺术家萨尔瓦多·达利(Salvador Dalí)和动画电影中机器人WALL·E,这寓意着该模型是对艺术和科技的有机结合。
Ta采用的是当前深度学习领域比较热门的transformer技术,目前OpenAI还没有公布相关论文,因此具体原理只能依靠推测。根据OpenAI的描述,DALL·E应该是VQ-VAE模型和GPT-3模型的结合的成果,其中GPT-3是OpenAI之前开发的语言模型,能够对输入的文字进行拆分。
而VQ-VAE模型则是一种强大的图像生成模型,它在训练时将图片编码成向量,然后再将向量进行解码,从而得到原来的图像;而在生成图片时,他通过从向量空间获得的数据进行图像的重构和解码,从而生成以假乱真的图片。
DALL·E的核心思想并不复杂,在对输入图像进行编码时,DALL·E可能是将图像分为各个像素块,并根据输入的文字,来对素材进行编码。比如面对天蓝色的格子,DALL·E如果读到“天空”的信息,会为这样的格子分配一个编码,如此在解码过程中,DALL·E会依据编码分配一系列像素来生成天空。在经过大量图像和描述的训练之后,模型就得到了一个解码器和一个只有该解码器才能看得懂的编码簿。在生成图像时,DALL·E就可以利用GPT-3对文字进行编码,再利用解码器进行解码,从而生成图像。
在DALL·E发布两天之内,就有研究者对这一成果进行了初步的复现,还取得了不错的成果。但目前的问题在于,类似的模型想要取得不错的效果,就必须采用极为庞大的数据集进行大量的运算,由于AI的训练都是在GPU上运行的
DALL·E的特性
除了简单地生成图片,DALL·E还有一些其他特性,比如DALL·E能将图像翻译成其它风格,这和语言中的翻译比较类似,比如将一张真实的“猫片”转化为草稿,DALL·E会输出这样的图像:
当然,DALL·E本身就是多面手,它精通各种绘画流派和摄影风格,甚至是浮世绘都能画得有模有样。
研究者甚至发现,DALL·E对于时间也是有概念的,它会根据年份的不同生成不同的图像,比如下面是它生成的不同时期的电话图像。不过可以看出,DALL·E作为AI,还无法获得独立思考的能力,它对未来的预测还是被限制在已有的框架之内。
DALL·E的未来
DALL·E是一次出色的尝试,它给出了一个从文本到图像的转化方案。目前看来,这项技术最有可能用来辅助设计师的工作,因为它能迅速地帮助设计师生成一个样例,比如在室内设计领域,他能将设计师的想法迅速转化为图像,从而能让设计师评估心中的方案,避免设计师浪费时间在建模上。
DALL·E的出现可能意味着深度学习领域的新趋势,越来越多的新模型聚焦于多模态融合(Multimodal Fusion),也就是将多种形式的信息融合在一起,比如视频和语言的结合、视频/图片搜索等任务。OpenAI首席科学家Ilya Sutskever最近也表示,多模态模型将在2021年成为机器学习的主要趋势。
相关文章:
https://openai.com/blog/dall-e/
https://www.leiphone.com/news/202101/fz0jsqTid2fFRlMJ.html