端午已过,梅雨将歇。火热的夏日和毛茸茸的暑假正在向我们扑过来。让我们一起来看看近期AI届发生的有意思的事情吧!
1. LMM在基础算数测试上作弊了?
提高大语言模型的推理能力是当前研究的最重要方向之一。近期,许多模型在数学推理的基准测试中取得了非常不错的成绩。但也有越来越多的研究者担心,这或许并不意味着模型真正的推理能力的提升,而更可能是由于数据集污染(即测试用的数据泄漏到了训练用的数据中)导致的。如果训练集中包含与测试集重复或相似的题目,LLM便可能如同我们在考试前“疯狂”记忆答案以通过考试一样,只是简单记忆训练集中的答案,以一种“偷懒”的方式通过测试,而没有真正理解其中的数学原理。
在实际使用中,笔者也发现了现有的许多AI模型在涉及数学推理的问题上尝试硬套“题库”以蒙混过关。以下便是一个笔者和kimi关于“如何用5加仑的桶获取5加仑的水”的胡编乱造式问答的例子:
这里的kimi完全没有理解我们只用将5加仑的桶装满就可以获得5加仑的水,或者说,它根本没有推理5这个数字在这里的意义,只是硬套了用这两个规格的桶获取4加仑水时的解题思路。
因此,为了严格验证LLM在小学数学测试中的表现上升是不是由数据污染造成的,Scale AI 的研究人员委托制作了Grade School Math 1000(GSM1k)。这是一个包含1250个基础算数题目的数据集,完全由人工标注生成,与经典的测试集GSM8k在难易程度、解题步骤及人工解题率等多个指标上高度相似,但内容完全独立。Scale AI通过比较LLM模型在GSM1k与GSM8k上的表现差异,检测模型潜在的过拟合情况。
GSM1k和GSM8k中数据的具体样例
数据集 | 例子 |
GSM8k | James每周会给两个不同的朋友各写一封三页长的信,他一年总共会写多少页的信呢? |
GSM1k | Lee 以每股40美元的价格购买了6股D股票。如果他希望在这笔交易中赚24美元,那他应该在D股票每股多少的时候卖出? |
评估证实了有一些模型的确存在过拟合的情况。其中过拟合最严重的模型在GSM1k上的准确率比在GSM8k上下降了13%。并且,有几个模型族(例如Phi和Mistral)存在几乎所有模型尺寸的系统过拟合的情况。不过,也有许多模型(例如Gemini/GPT/Claude)几乎没有出现过拟合的情况。
进一步分析表明,过拟合的部分原因的确是模型记住了GSM8k中的样本。
此外,Scale AI还指出,过拟合的存在并不意味着模型完全失去了推理能力,这只是意味着它们的推理能力并不像它们在基准测试中表现得那样好。
为了避免 GSM1k 数据集的数据污染问题,Scale AI 目前不会公开发布该数据集。
笔者认为这项研究也提醒了我们在训练和使用AI的过程中也需要时时警觉。和人类一样,在缺乏监督的情况下,AI也会寻找一些“偷懒”的方式进行训练,以通过测试(这或许也印证了单一的测试标准可信度值得怀疑?)如何将AI的注意力集中在我们需要的部分,或许依旧是一个漫长的课题。
2. DenseAV
MIT的研究团队近期提出了一个名为DenseAV的新算法,无需人工干预和文本输入,便可以通过观看视频学习语言的含义。
麻省理工学院博士生马克·汉密尔顿是在观看电影《帝企鹅日记》时想到的这个通过音频和视频对比进行语言学习的方法的。在这个电影中,有一个场景是一只企鹅摔倒并发出呻吟声,而汉密尔顿的灵感也正来源于此:“当你观看它时,几乎可以肯定这呻吟声代表了一个四个字母的单词(笔者猜测可能是”ouch”或者“fxxk” ^^)。那一刻我们想到,也许我们需要使用音频和视频来学习语言。”
他的目标是让模型通过预测它所看到的内容来学习语言。因为如果你听到有人说“拿起那把吉他,开始弹奏吧”,你会很自然的期望能在画面中看到吉他或吉他乐手。这种将音频与视频相匹配的训练会在大量视频中反复地进行。
在之后的训练中,研究者会特别关注DenseAV在听到某个声音时,算法注意的像素上。例如,当听到“狗”这个词时,DenseAV会定位到视频中的狗狗,因此,查看算法选择哪些像素意味着你可以发现它认为的单词的含义。
(如图中,DenseAV会在听到声音后把它认为与声音关联的图像部分标红)
但是,不论是听到有人说“狗”这个单词,或者听到狗汪汪汪的叫声,DenseAV 可能都会在镜头中定位到狗的图像。那么,这是否意味着DenseAV认为“狗”和“汪汪”的狗叫声是一回事呢?
事实上,DenseAV不仅能够识别语言中的单词含义,还能够区分不同的声音来源。在实验中,研究人员为 DenseAV 植入了“双面大脑”来进行探索。他们发现大脑的一侧专注于语言,而另一侧专注于汪汪叫之类的声音。DenseAI 确实在没有任何人工干预的情况下学会了这两种声音的不同意义,以及它们间的关联。
(如图中,DenseAV的一侧会专注于语言,另一侧会专注于类似汪汪叫的声音)
这一研究的应用前景非常广泛。最令笔者兴奋的是它或许可以从大量视频中学习猫猫狗狗或者海豚和鲸鱼的交流方式,这不仅在学术上非常有应用价值,也能真的让“铲屎官”理解自家崽在说些什么。此外,DenseAV还可以用于发现其他信号之间的模式关联,如地球发出的地震声和地质情况之间的关系。
另一个很有意思的地方在于,DenseAV 利用了视频和声音两种维度的信息,而它出色的表现也在一定程度上印证了本期下一篇文章中的结论。
3. 柏拉图表征假说
柏拉图在《理想国》中,以洞穴的比喻来描述人类知识的本质。一群囚徒自出生起就被锁在洞穴里,只能看到面前的墙壁和墙壁上被的火光投射出的影子。他们误以为影子就是世界,直到其中一人逃脱,看到外界的真实并回到洞穴告知其他囚徒。
在这个比喻中,洞穴代表的是人类的感官世界。人类是通过现实世界在人类感官上的投影来认知世界的。同一个现实世界,在不同人的不同的感官世界下呈现出不同的形态,但人们可以通过推理认知这个世界的本质。例如一个盲人、一个聋哑人、一个正常人,他们对于现实世界的认知方式完全不同,但是最终他们对于现实世界的认识还是会趋于一致。
而我们也可以用人类认知世界的方式来类比AI模型的学习过程。
如下图所示,假设现实世界Z中存在一个圆锥和一个球体,作为人类,我们对这个事实的认知是通过它在不同的感知空间上的投影来实现的,比如说图像空间X和文本表述空间Y。而AI模型,是将事实在人类的某个感知空间上的投影作为数据输入(比如图像,语音等),并从中学习向量嵌入(vector embedding)的模式。向量空间就是AI模型的感知空间,AI模型和人类一样,也是根据它的感知空间来理解这个现实世界的。
而人类在不同感知空间上的认知会有一定的关联性,例如我们看到狗的照片或者听到狗的叫声,我们都会联系到狗这一实物。由此,研究者提出了“柏拉图表征假说”:在不同的数据和模式上训练的神经网络,会在其各自的表征空间中收敛向一个共同的现实统计模型。
研究者也采用了多种方法来验证这一假说,其中我们会详细介绍互相邻居分析(Mutual Nearest Neighbor Analysis)这一方法。
在这一方法中,研究者会比较不同模型在同一数据点上的最近邻居,计算出不同模型在共同数据上的表征相似性。例如从维基百科标题数据集(以维基百科的图片和对应的标题作为一组数据)取出一个(图片,标题)数据,分别作为视觉模型和语言模型的输入,从这两个模型中分别获取数据点在视觉和文本这两个维度上的最近邻,并由最近邻的匹配程度计算该视觉模型和语言模型的一致性。最终实验结果表明,一个语言模型性能越好,那么它和一个视觉模型的一致性就越高,反之亦然。
此外,研究者们还使用了模型拼接、UMAP可视化等方法进行验证,这里不再展开。
关于“柏拉图表征假说”,研究人员提出了以下三点可能的解释:
1. 任务普适性
多任务目标的训练给模型添加了更多约束,从而促使模型去学习尽可能解决所有任务的表征。即模型需要尽可能的满足大量数据的约束,因此它也会更贴近数据的固有规律。
2. 模型容量
模型越大,越容易逼近全局最优表征。如下图所示,黄色和绿色区域分别代表两个AI模型的表征空间。同心圆可以看做模型loss的等高线,圆心处则代表loss最低的全局最优解。在左图中,两个模型较小,因此只会收敛到各自的局部最优解,但是在右图中,模型较大的情况下,两个模型都能找到一个共同的全局最优解。
3. 简单性偏见
深度网络会自然地遵循奥卡姆剃刀原则,因此,尽管更大的模型覆盖了所有可能的方法来拟合相同的数据,深度网络还是会选择所有可行解中最简单的。
(尽管大模型有更多的可以拟合同等规模的数据的方式,但是因为简单性偏见,它们会倾向于选择这些可行解中最简单的)
柏拉图表征假说带来了一个很有趣的结论,在训练某类模型时,加入不同模态的训练数据也会使得训练效果更好。正如前面提到的盲人、聋哑人和正常人,尽管他们对于现实世界的认识会趋于一致;但很显然,正常人对于现实世界的认识能力要高于其他两位。以此类推,是否意味着用来训练模型的数据模态越多,模型表征向全局最优解收敛的速度也会越快?或许,跨模态模型的协作和集成就是AI道路上的新一步,正如DenseAV已经迈出的那样。
1. https://tinyurl.com/2mfnhzub
2. https://arxiv.org/pdf/2405.00332
3. https://tinyurl.com/4mj3cbrf
4. https://tinyurl.com/4v8t7v78
5. https://tinyurl.com/y9n5pep9
6. https://tinyurl.com/38rf3356
7. https://arxiv.org/pdf/2405.07987
8. https://tinyurl.com/2cjhnptx
9. https://tinyurl.com/36xe26zr