见知AI巡山报告 - 2024年4月

作者：郭晨晨 见知数据科技 (Xencio Data Technology) 机器学习与大数据分析专家。毕业于上海交通大学数学系，曾就职于大型央企参与智慧城市建设，拥有十多年计算机研发及科学计算经验。于2015年加入见知数据，负责见知数据人工智能产品解决方案。

“想要AI工具真正为人带来便利，安全性需要得到保障；让AI具备更像人类的流程，比如适应性遗忘，能够提升其灵活性。”

1. AI 破解 KYC

KYC 是 “Know Your Customer” 的缩写，意为“了解你的客户”。在金融服务行业中，客户被要求提供身份证明、住址证明、护照等信息进行 KYC。KYC 是金融服务行业中常用的一项合规措施，旨在防止洗钱、恐怖融资以及其他非法活动。

近日，一家名为 404 Media 的科技媒体爆料，一个名为 OnlyFake 的网站，让使用者可以利用AI神经网络技术快速生成逼真的假驾照或护照，并且售价只要15美元。OnlyFake 可以生成多达 26 个国家（包括美国、加拿大、英国、澳大利亚和多个欧盟国家）的假驾照和护照，目前已有一些人利用这个网站生成假的身份证件，从而绕过银行、加密货币交易所等金融服务要求的 KYC 身份验证，令人担忧的是这可能成为让加密货币黑客或一些恶意行为者快速绕过 KYC 的途径。

Onlyfake 用户界面，制作电影《疾速追杀》主角 John Wick 的假证件

OnlyFake的匿名所有者还向 404 Media 声称，这些假的身份证件，可以绕过 Binance、Kraken、Bybit、HTX、Coinbase、OKX 等主流加密货币交易所的 KYC 检查。据了解，在网站上产生假证件只需不到一分钟。此外，OnlyFake 还能够让用户伪造 GPS 位置、日期、时间以及设备（例如手机）等图片元数据，以骗过一些身份验证服务。

过往的巡山报告讲了很多AI给人带来的便利，但是Onlyfake的出现也给人们敲响警钟，AI工具的非法使用会带来严重问题，想要AI工具真正为人带来便利，AI的安全性需要得到保障。

2. 调整大语言模型的输出

使用大语言模型时，往往会遇到这样的问题：大语言模型的输出不符合用户的需求，例如有些输出过于简略，有些输出需要删去。这时需要告诉大语言模型需要修正的地方，再让大语言模型对原来的问题输出一次回答，或者用户手动进行修改，这两种方法都费时费力。

在上一期巡山报告中，提到了谷歌的超长上下文模型 Gemini 1.5。最近，谷歌在 Gemini 中加入了一个有趣的新功能。这个工具允许用户直接在大语言模型输出上增删改，大大提升了写作的效率，这是 AI 辅助写作的新方向。

例如询问 Gemini 关于非洲野猫（serval cat）的事实。Gemini 提到非洲野猫 “are not domesticated animals and should not be kent as nets”，即非洲野猫不适合作为家养动物，但是为什么不适合的原因没有说清楚。通过高亮了文本的这部分，点击了气泡，选择了“更长”，从而扩写高亮部分。

高亮需要扩写的部分，并选择 “Longer”

新的输出中进行了扩写，从生活习性、潜在危险和法律法规几个角度将非洲野猫不适合作为家养动物解释清楚了。

从生活习性、潜在危险、法律法规三个角度扩写

3. 遗忘是为了更快地学习

使用 Chatgpt 等大语言模型时，用户或许会将能够使用不同的语言视为理所应当。但是事实上，如果使用的语言在训练模型时没有涉及，例如想要用基于英文训练的模型处理中文，那么就需要从头开始基于中文训练模型，会耗费相当多的计算资源，在上期巡山报告中也提过，大量的计算耗能高。

神经网络是 Chatgpt 背后的重要模型。网络中的每个“神经元”都是一个数学函数，它接收来自其他神经元的信号，进行一些计算，并通过多层神经元的信号传递。最初，信息的流动或多或少是随机的，但是通过训练，网络逐渐适应训练数据，神经元之间的信息流动得到了改善。

基础的五层全连接神经网络，圆圈代表神经元，线代表输入，Chatgpt 背后的网络结构会更加复杂

为了解决从头开始训练模型问题，一种基于“遗忘”的训练方法被提出：对于已经用英文训练好的神经网络，先将神经网络的第一层储存的信息流动方式删去，对神经网络的所有其他层储存的信息流动方式不做改变，再用中文重新训练模型，网络中存储了适用于中文的信息流动方式。

尽管基于英文训练的神经网络的大部分参数没有修改就直接去基于中文训练，但是训练还是有效的，这是因为第一层存储了特定于英文使用的单词的信息，网络的更深层存储了关于人类语言背后概念的更抽象的信息，这些更抽象的信息是相似的：因为人们生活在同一个世界，语言的形状、语法不同，但都是对同样的世界进行抽象化。因此，删除第一层，保持网络的更深层不变，有助于加快模型学习第二种语言。

人脑记忆、抽象总结、遗忘

基于“遗忘”的训练方法和人类大脑的工作方式相似，有股仿生学的味道。旧金山大学的神经科学家Benjamin Levy 说：“人类记忆通常不擅长准确存储大量详细信息。相反，人类倾向于记住我们经历的大致内容，进行抽象和推断。让AI具备更像人类的流程，比如适应性遗忘，能够提升其灵活性。“

1. https://www.blocktempo.com/ai-generated-fake-passport-successfully-bypasses-kyc-of-major-crypto-exchanges/

2. https://www.xda-developers.com/google-gemini-prompt-refining-test/

3. https://www.quantamagazine.org/how-selective-forgetting-can-help-ai-learn-better-20240228/

Post Views: 83

见知AI巡山报告 – 2024年4月

1. AI 破解 KYC

2. 调整大语言模型的输出

3. 遗忘是为了更快地学习

Related Posts