见知AI巡山报告 - 2021年07月

作者：郭晨晨 见知数据科技 (Xencio Data Technology) 机器学习与大数据分析专家。毕业于上海交通大学数学系，曾就职于大型央企参与智慧城市建设，拥有十多年计算机研发及科学计算经验。于2015年加入见知数据，负责见知数据人工智能产品解决方案。

本期巡山报告带来的是AI在分析现金流水和语音模拟上的新成果。如果你感兴趣的话，就一起看下去吧！

一、“偷师”专家分析现金流水 AI也能一学就会

从上世纪八十年代起，各大汽车厂商便提出了自动驾驶技术的概念。经过了三十年的发展，自动驾驶技术已经初步成熟，并且广泛地应用了经典的计算机领域的知识，比如CV和NLP。

使用强化学习（Reinforcement Learning）来训练自动驾驶系统也取得了不错的成果。在特定的环境下，给定一个奖励函数，让计算机不断地去模拟人类的决策，并且动态地调整决策，以期获得最大的奖励，这就是强化学习的主要思想。相对于现实情况而言，计算机模拟的各种数据有着更低的可重复性和试错成本。一个从零开始训练的自动驾驶系统，可能会经历上亿次“撞车”，才能最终学到该如何在复杂的路况下处理各种情况。

有没有什么方法能够让计算机不用从零开始学习，而是像我们人类学习知识那样，用一个精通该领域知识的资深专家，去指导计算机应该如何决策？答案是肯定的，这就是我们今天要介绍的主角：模仿学习（Imitation Learning）。

和强化学习一样，模仿学习也是当今计算机领域的热点话题，它的主要思想是用少数几次人类驾驶汽车的数据，去指导计算机模型，更好地学到该如何驾驶汽车。

更具体地来说，模仿学习是从强化学习演进而来。

在强化学习里，定义好一个能精确反映现实的奖励函数是至关重要的。然而，有的奖励函数是不太好定义的，比如给定一条企业现金流水，我们很难用一个通用的规则给这条流水加上硬性的标签或者价值判断。让资深的财务人员去判断，会耗费大量的标注成本。模仿学习很好地解决了强化学习中奖励函数不好定义的问题。在模仿学习中，我们假设专家的行为会比机器杂乱无章的行为得到更高的奖励，那么我们就可以根据专家的示范，去反推奖励函数应该是怎样，然后再用这个奖励函数去学进行新一轮的强化学习，让机器的行为更加接近专家的行为。

那么，如何将模仿学习的思路运用在现金流水业务上呢？

深入解读企业的现金流水，将企业的经营性的披露文件和现金流水分析的结果进行对比，能够带给公司股东、管理层一些有用的启示。

但是，现阶段，这部分深层次的分析工作是交给财务专家去人工进行，机器往往只能将相较而言更浅层次的数据分析流程自动化。

或许在未来，我们可以记录下少数几位专业的审计人员的对账过程，然后用这些很少量的数据，去训练一个能够比较准确地划分会计科目的人工智能。

在实现这些深度分析自动化的过程中，可能会遇到一些问题。比如，专家是精通业务的，他们给机器的示范往往是不拖泥带水的教科书式案例，那么机器就很少或者根本没有看过失败的例子，那么如果机器遇到了这种情况，就不知道该如何处理。又如，如果机器遇到人类平常不会经历的状态下，该采取怎样的决策。再如，在训练过程中，专家的个人特质其实是不需要模仿，机器不需要亦步亦趋，如果机器的学习能力不够充足，就很有可能会捡了芝麻丢了西瓜，学到人类的坏习惯，而不是分析现金流水的技巧。

二．AI还是人类声音傻傻分不清楚

说完金融领域，AI抢的第二个饭碗大概是来自声优和主播行业。都2021了，你不会还以为人工智能的声音还是一字一顿、冷冰冰、干巴巴吧？

最近，小冰团队发布了一段视频，展示了其最新的“超级自然语音技术”。在这段视频中，人工智能小冰的声音非常自然，与真人说话基本无二。

微博@小冰的头像

这段音频共分为三个部分，分别展示了“超级自然语音技术”在唱歌、说话、对话上的实现。

在唱歌的片段中，小冰和真人歌手交替演唱。当你遮住屏幕上两人分工的划分，你几乎无法准确判断出他们分别负责的片段，甚至听不出这段歌曲是由真人和人工智能共同完成的。人工智能不仅把真人歌手的音色模仿得非常完美，还考虑到了曲调、转音等音乐技巧。

而在第二段说话的片段中，小冰的叙述清楚，表达流畅。与许多机器人声音不同，小冰有着人类日常说话时抑扬顿挫的语调，和无意识经常重复的口头禅，比如“就是”、“然后”，这些特征让她更接近真人说话的状态。

音频的第三段是两个人工智能主播在直播间交谈对话。这个试验电台在在小冰的官网24小时实时直播，两位AI主播的对话永不停止。可以看出，“超级自然语音技术”不仅可以按照歌词等既定文本进行演唱、朗读，还可以在没有固定文本的情况下无限自由发挥。

小冰官网的直播电台界面，链接可以在文章结尾找到哦

在小冰团队发布“超级自然语音技术”的微博下，许多网友们感叹人工智能的迅速发展，也有不少人看好这项技术在有声书等方向替代人工语音的应用。但也有一部分人担忧这项技术会被不法分子盯上，用以辅助新的电信诈骗。视频中的人工智能对人类音色、语调的模仿相似性极高，结合虚拟号码，确实有很大迷惑性，很容易以假乱真，诱人掉入陷阱。

然而，也许能让大家放心的是，这个小冰人工智能目前看来也没有完全摆脱“人工智障”的title。尽管小冰团队宣称两位AI电台主播“周小豆”和“ 201”可以在直播间中像两个真人主播一样自由对话，实际上，大部分时间都是由“AI 201”单人叙述一段故事，“AI周小豆”则表现得像个“捧哏”，只给出一些语气词回应，并没有真正意义上的互动。

而在直播间聊天的内容上，时间轴也常常错乱。比如2021年7月某天下午的直播中，AI主播先把当前设定在2020年初疫情封城期间，讲述基层人员的辛苦付出，但接下来播报的“前几天发生的”社会新闻，又实际上发生于2015年。另外，两位AI主播在轻声词和笑声的表现上也常常露出破绽。

这样看来，这项“超级自然语音技术”离完全模拟人类语音的目标还有一段路要走。不过，它其实在一些方面已经有了不错的效果。~~比如，在翻来覆去、眼睛瞪得像铜铃的午夜三点半，不妨打开这个AI电台试试，可能是比褪黑素更不错的选择哦。~~

参考链接：

[1]模仿学习玩游戏： https://www.marktechpost.com/2021/07/03/google-ai-introduces-a-machine-learning-based-system-for-game-developers-to-quickly-and-efficiently-train-game-testing-agents/

[2]小冰发布“超级自然语音技术”的展示视频：https://t.cj.sina.com.cn/articles/view/1642720480/m61e9ece003300vw2g

[3]小冰官网，首页是正在直播的两位AI电台主播：https://www.xiaoice.com/

Post Views: 593

见知AI巡山报告 – 2021年07月

一、“偷师”专家 分析现金流水 AI也能一学就会

二．AI还是人类 声音傻傻分不清楚

Related Posts

一、“偷师”专家分析现金流水 AI也能一学就会

二．AI还是人类声音傻傻分不清楚