本期巡山报告,给大家带来三则AI的有趣应用,分别是“AI文本格式刷”、“AI视频关键帧识别”和“能带你突破信息茧房的大数据”。
一、文本格式刷?AI模仿人类笔迹
熟悉《水浒传》的朋友或许还记得,有一回,圣手书生萧让模仿太师蔡京的书信,玉臂匠金大坚模仿蔡京的印章,试图解救宋江于危难之中。虽然伪造书信最后还是失败了,但却让两位大师的“伪造能力”为后人所知晓。
在人工智能技术如火如荼的今天,AI已经具备了很强的图像识别和生成能力,那么能不能用AI来生成手写的文字呢?又或者,更具体的,能不能用AI来模仿一个人的笔迹呢?
答案是肯定的。
近日,Facebook在官网公布了一个新的AI研究[1],TextStyleBrush.这个项目翻译过来,就是我们在Word、PowerPoint等Office软件中常用的格式刷。只不过,Facebook的这个格式刷,不是简单地调节文件里文本的字体、字重等参数,而是基于一张给定的手写文字的照片,TextStyleBrush能自动学习到照片里手写文字的字迹特征,并且将这些特征运用到新的文本中去。令人惊叹的是,TextStyleBrush只需要见过一个手写单词,就可以学习到并模仿出上述字迹。
根据Facebook的实验结果[2],在价格标签、海报、路牌、塑料瓶、店牌、海报等各种风格的图片文字场景中,TextStyleBrush都能有不错的替换表现。
图1:TextStyleBrush模仿玻璃杯上的字迹替换原文字
看到这里,你是不是想到了另一个可以以假乱真的模型——GAN。没错,TextStyleBrush正是基于GAN的思路进行了改进。具体来说,Facebook在StyleGAN2的基础上进行了改进,添加了两个约束来更好地实现生成文字。首先,StyleGAN2的生成是杂乱无章的,所以TextStyleBrush限制模型必须生成用户输入文本的图像;其次,StyleGAN2的生成风格是不受限制的,而模仿字迹则涉及很多风格信息的整合。由于文字形式的变化很多,想要训练这样一个生成模型,只能使用自监督的训练方法。Facebook在训练模型时,考虑了3种不同的损失函数,分别是(1)字体分类器输出的风格损失,(2)OCR模型输出的内容损失,(3)判别器输出的对抗损失。Facebook将3个模型的损失函数通过特定的方式叠加在一起,尽可能地让自监督学习的效果变得更好。
图2:TextStyleBrush模型图
从最近几年GAN(生成对抗网络)在人脸生成、换脸等场景中的表现足以以假乱真,到TextStyleBrush惊人的模仿字迹的能力,这让人不禁感叹,在“伪造”技术如此发达的今天,人们该如何分辨信息的真假。
AI自动抓取关键帧
喜欢啃“生肉”的英美剧观众大概对油管的自动生成字幕功能并不陌生,尽管有些空耳的出现,它还是方便了不少听力困难的小伙伴们,而油管近两年上线的时间轴功能(Key Moments)则进一步提高了剧迷们爆肝刷剧的效率。
图3:谷歌搜索界面的油管视频时间轴
时间轴功能其实并不是一个全新的概念,它与书籍中目录的功能十分相似,而B站有才的up主们关于时间轴的创意也是层出不穷。时间轴功能一方面方便了带着很强目的性,想在视频里获取特定信息的观众,让他们免去了浏览整个视频才能找到所需信息的烦恼,大大提高了搜索效率;另一方面,视频里带有清晰时间线的up主也会因此更受观众的青睐,增加了其收获观众老爷们宝贵的“一键三连”的可能。
图4:B站UP主“火树三国杀”用自己的舞蹈视频做时间轴
说到这,如果你也对添加时间轴心动,但却是个“心有余而力不足“的剪辑小白,或者是个时间不够的日更博主,YouTube的这个新时间轴功能大概会是你的福音。这个新功能不仅可以在上传剪辑好的视频后,通过“Clip”手动标注关键时间点和描述标签,还能自动识别关键时间点并生成描述,进一步节省了视频创作者们的时间。
谷歌也在此功能上线后,展开了问卷调查,有进一步在其他视频平台推广此功能的计划,不知道国内的各大视频软件是否有与谷歌展开合作的想法,在平台上线类似的功能。其实,国内的视频软件对这方面的功能并非毫无关注。热门的影视剧、综艺等正片旁常常会单独附有该段视频内的精彩片段推荐,但基本上是由负责宣发的工作人员手动选择并截取片段的。如果可以把精彩片段与油管的时间轴功能相结合,也许有不少益处。第一,自动识别代替人工识别,可以帮助缩短视频制作周期,让精彩的作品更快和大家见面。第二,对于广大追剧观众来说,如果平台能在正片的时间轴上标注精彩片段的简介,观众也可以随时跳过不喜欢不想看的内容,享受更舒心的追剧时光。
三.打破信息茧房,做更懂你的AI
如今许多平台借着大数据时代的东风,打着“比你还懂你”的口号,根据用户以往的浏览记录推测用户偏好,从而推荐用户可能会感兴趣的商品或者内容。这确实是个不错的营销手段,然而长期来看,它也有可能导致“过滤气泡”,也就是说,用户会被困在自己意识形态的堡垒里,接触不到新的内容或想法。针对这个问题,音乐平台Spotify采取了几种算法,使它的“每周发现”板块不仅能想用户所想,也能让用户发现“新鲜”的歌曲。这几种算法分别是协同过滤算法、卷积神经网络和自然语言分析。他们通过分析用户间的相似性、歌曲间的相似性,结合用户收听历史,给出因人而异的每周音乐推荐。除此之外,Spotify也考虑到了用户的偏好并不是一成不变的,采用了偏好转化模型,其中考虑了不同用户在不同音乐类型之间偏好转换的概率,从而进一步优化“每周发现”的推荐歌单。
随着这类推荐的算法的不断进步,机器或平台“比你更懂你”可能不再只是一句口号。而我们在享受这类合心推荐带来的便利的同时,也不禁后背一凉。现在很多平台的登录账号都互相关联,当这些平台对你不同方向的偏好或想法都了如指掌时,就可以拼凑出一个完整的你,那时你的全部信息都将毫无保留地暴露在平台面前。“大数据下无隐私”,现如今很多人为了避免此类的信息泄露,故意点击浏览不感兴趣的内容,从而扰乱算法对其偏好的分析,得出错误的结论。在这个大数据飞速发展繁荣的时代,在享受便利的同时,我们确实也该思考如何保障自己的信息安全。
相关文章:
[1]AI can now emulate text style in images in one shot — using just a single word https://ai.facebook.com/blog/ai-can-now-emulate-text-style-in-images-in-one-shot-using-just-a-single-word/
[2]TextStyleBrush: Transfer of text aesthetics from a single example
https://ai.facebook.com/research/publications/textstylebrush-transfer-of-text-aesthetics-from-a-single-example/
[3]https://developers.google.cn/search/docs/datatypes/video#seek
[4]What is Google’s key moment feature and how it works? https://www.curvearro.com/blog/what-is-googles-key-moment-feature-and-how-it-works/
[5]New! Key Moments in Google Search: Visible Timestamps for YouTube Videos https://vidiq.com/blog/post/google-key-moments-youtube-timestamps/
[6]【火树】2021高考数学B卷选择题解析 https://www.bilibili.com/video/BV1s44y167aN?from=search&seid=7945404548921016629
[7]年轻人都在「反算法」,没想到它先站出来了 https://mp.weixin.qq.com/s/nCzADELz_04jZL1LQNp9_g