各位见知的小伙伴们,你们好!为了拓展大家的视野,满足对于神秘AI技术的好奇心,也为了未来更多先进的AI可以应用到我们的产品和开发中,AI团队准备每月为大家提供一篇这个领域的巡山报告。我们会网罗最近一月来AI领域的热点科技发展,为大家进行全面的解读,希望让各位既能感受到AI的power又能透过层层迷雾看清背后的底层逻辑让神秘不再神秘。本期巡山报告我们为大家带来上月机器学习领域新发布的三项有趣又实用的技术。
一、GPT-3
首先要给大家分享的是最近人工智能领域的顶流:GPT-3。它是OpenAI公司斥巨资打造的自然语言处理模型,拥有1750亿超大参数量,可以说是这个领域最强的AI模型了。自今年5月份首次推出以来,凭借惊人的文本生成能力,在各大媒体平台一直热度不减。
这么介绍大家可能很难get到GPT-3的强大,那就让我们来举几个例子:
比如有个叫Sharif Shameem的人就利用它开发出了一款叫Debuild的app的快速生成器,只需在输入框里写“一个西瓜按钮”,界面上就会出现一个西瓜形状的按钮,并且自动生成对应的JS代码。
也有科技爱好者用它做出了Python驱动的AI会计师的功能,输入“后三个月的房租预付了2000元”这样的自然语言,程序能自动修改资产负债表上相应的项目数值。而且一项收入/支出动作,可能会导致资产负债表多个项目的变更,可以说很聪明了!
那么看到这里你一定会感到疑惑:GPT-3为何如此强大?
GPT-3的核心原理在于先利用大量未标注的语料无监督地预训练一个语言模型,再将其迁移到其他有监督的具体自然语言任务中去。这里的监督学习就是,打个比方,让计算机去预测一道题的答案,然后不断拿我们已知的正确答案去校准计算机的预测结果,调整参数,多次迭代下来计算机就可以较准确的解答出这道题了,那么用同样的原理,我们就可以训练GPT-3去解决更多更复杂的问题了。
言归正传,所以说对于GPT-3来说,有大量的训练数据至关重要,而这也正是它强大的原因:GPT-3的模型的参数量达到了1750亿,比上一个版本扩大了116倍;同时它的数据集非常大,维基百科的600万篇文章也仅占训练数据集的0.6%。所以庞大的数据库把GPT-3培养成了一个全才。
当然这么强大的模型也会有缺点,它无法判断命题是否有意义,因此它不会拒绝回答问题。比如当被问到“太阳有多少只眼睛?”时,它会回答:“太阳只有一只眼睛。”这是因为,GPT-3的生成表现只是大数据训练的结果,它无法超越数据本身,也无法拥有组合性推理的能力。
所以我们还是要理性看待GPT-3,它最大的价值在于无监督下的自我学习能力,以及纯粹通过扩大规模实现性能提升。也就是说,数据越大,参数量越大,它的性能就会越好。至于未来它是否能成为通用人工智能,我们还需要赋予它创造性思考的能力,才能使它更接近人类智能。
二、表格自动识别
今天要给大家分享的第二块内容就和咱们的工作有很大联系了,是八月份新发布的一些AI表格识别技术。
我们知道咱们公司目前提取对账单数据的主要方法是基于大量的模版库,当模版库中的模版都核对不上时就会启用AI表格识别技术。
用通俗易懂的语言来说,这项技术可以分为两个模块,一是表格检测,就是让计算机在文件中找出哪一部分是表格。二是表格结构识别,就是分解表格的结构,识别出哪些数据处于同一行或是同一列,哪里是标题,哪里是数据单元,进一步,就可以把数据提取出来为我们所用了。
那么当前AI对账单表格识别技术遇到的难题就在于:一是表格中具有复杂的层次结构,除了存在行、列、表头结构外,还存在分割线、合并单元格等元素,导致结构划分和信息抽取的不准确。二是目前大部分的数据集都是基于英文的日用表格,从财务文档中提取表格信息的方法和标准数据集很少,中文的标准数据集就更少了。
所以最近就有很多研究致力于解决这些难题:上月我国的一个团队发布了一款名叫Fintab的数据集,共收集了1600多个财务表格,并且涵盖了各种跨页、合并单元格、多行标题的特殊情况,最终是提出了一种应用中文语言的、适用于金融领域的表格识别数据集,最终在不同表格的测试中取得了不错的结果。
另一个团队把研究重点放在表格结构的识别上,利用了表格检测和表格结构识别这两个模块之间固有的相互依赖性,先让表格检测器和表内结构检测器共享了同一个分类识别层,这样一来,在检测列结构之前先确定表格在文件中的位置和范围,就不会出现将表格外的内容识别成表格内列结构的情况了。进一步,给两个模块使用各自独立的编码器进行训练,然后就可以使用基于规则的行提取来提取出表格单元格中的数据了。
随着越来越多的表格识别方法被提出,AI表格识别在未来一定会越来越实用,并且为咱们公司的产品提供更强大的数据支持。
三、给照片穿上“隐身衣”
最后再和大家分享一个名叫Fawkes的防面部识别技术,它可以给你的照片穿上一层“隐身衣”。
随着人们越来越依赖于各类社交软件,我们的个人信息都被暴露在互联网中,而运用已经相当成熟的面部识别技术,只需一张自拍照就能够识别出姓名、联系方式、家庭住址,这对我们的个人隐私造成了严重的威胁。
于是,芝加哥的一支团队研发出了这个名叫Fawkes的防人脸识别AI软件,只需数分钟,经过它处理的图片,和原图几乎没有差别,却成功扛住了微软、亚马逊和旷视Face++这些世界上最先进的人脸识别技术。
Fawkes的核心技术在于,使用肉眼无法分辨的像素级扰动更改图像的特征空间。也就是把面部识别技术用于判断这个人是谁的图像特征轻微改变了,导致面部识别技术被照片中新的特征空间欺骗,从而把图片中的对象识别成了另一个人。
而且这个研究团队非常良心,他们开放了软件,希望更多的人可以使用Fawkes来降低隐私泄露的风险,截至目前,这款软件已经被下载超过100,000次。大家也可以点击下面的链接下载这款有趣的软件,体验一下照片“隐身衣”。
好的小伙伴们,本期的巡山报告就到这。喜欢的朋友们欢迎投币收藏点赞三连。同时也非常希望大家可以对这个新兴的节目提供宝贵的反馈意见,无论是对于报告的内容还是形式。如果你有感兴趣的AI技术想要了解的也欢迎留言告诉我们,我们会在下期进行解读,名额有限先到先得哦。