苹果公司揭示OpenAI最新模型o1的推理能力可能存在重大缺陷,是真的吗?当AI对抗AI,诈骗与反诈骗之间的赛博斗蛐蛐会带来怎样的惊喜!想象一下,一个与按照真实自己进行克隆的虚拟人在赛博世界中活跃是什么样子的?!
1. OpenAI最新的o1模型的推理能力翻车了?
你有没有过这样的经历?
上学时,我们做题的过程中遇到了没见过的或者贼复杂的题,当我们审完题之后,我们发现:“诶?这题好像有点麻烦啊,而且还没见过这题型,或者说这题好像见过但跟之前见过的题又有点不一样”。这个时候,我们可能就会根据平时做过的类似题型的经验来推测这个解题的步骤或者可能的答案。(ps:尤其是在选择题上面哈,毕竟是按照经验主义来做题的重灾区)
最近,苹果公司团队撰写的一篇研究论文引起了学界和业界的广泛关注,因为它质疑了语大言模型的推理能力。通过测试数学问题,研究发现这些模型,如OpenAI的o1-preview,在遇到包含无关细节的小学数学题时,大模型的解题正确率显著下降。
苹果团队工程师的发帖
话不多说,我们直接上手感受一下现在的模型是否会出现这个问题。
数学题:已知去年的通货膨胀是5%,今年的某商品按20%的利润率定价,然后又打八折出售,结果亏了40元,这件商品今年的成本是多少?
答案:1000元。“去年的通货膨胀是5%”这个信息对我们解题来说是一个冗余信息。
测试ChatGPT-4o-mini
目前,ChatGPT-4o-mini给出了2种解答方式,并且结果均是正确的。
ChatGPT-4o-mini给出2种解答方式
ChatGPT-4o-mini通过2种解答方式均得到正确答案
测试Kimi
Kimi直接开始算去年的成本了,而且去年的成本算的结果也不对,应该约等于952.38。
Kimi给出的错误答案
测试Claude
至于为什么我们知道去年的成本约等于952.38呢,是因为测试Claude的时候得到了这个结果(狗头.png)
952.38 × 1.05 = 999.999(约等于1000)
Claude给出的错误答案
除了上面3个模型之外,我们还测试了通义千问和智谱清言。其中,通义千问大模型的答案是正确的,该模型把冗余信息剔除之后,再开始进行做题;智谱清言的ChatGLM也是直接开始算去年的成本了,而且计算结果还是错误的。
目前,之所以模型容易被无关信息误导,是因为模型的学习过程和我们的学习过程是不一样的。现代机器学习模型,尤其是深度学习模型,如GPT-4,基本上是通过大量数据训练而形成的一个统计工具。它们的工作原理是从数据中提取“模式”和“规律”,而不是理解或推理这些模式的含义。即,大模型的学习过程是通过反复领悟各种数据、学习和理解其中的规律,然后运用这些规律来处理和生成新的信息和事物,而不是针对问题本身进行逻辑分析。
这种学习行为类似于人类在处理陌生或过度复杂的信息时,会根据已有经验进行猜测,而非直接推理,比如我们文章开头提到的,上学做题时,遇到没见过或复杂的题后,脑海里浮现出的解题办法。
但是,大模型的这种学习方法并不涉及对世界或信息本质的理解,而是一种纯粹的“找规律”。并且,它们学习到的所谓的“模式”或“规律”是在特定的上下文中形成的,因此在面对与训练数据或学习数据不同的输入或不同的情况时,就会表现不佳。
要提高大模型的推理能力,未来的研究需重点放在数据集的精细设计和引入更多多样化的训练样本上,以帮助模型更好地泛化推理能力。
当然,还有一个重要的事情来提高其推理能力,那就是优化模型的架构设计。开发更具解释性的模型,帮助人类理解模型决策过程,以便更好地调整和优化模型;采用具有记忆和推理结构的模型架构,如神经图灵机(NTM)或强化学习机制,帮助模型进行更深层次的推理;将符号逻辑与神经网络结合,尝试让模型在数据或意图预测的同时具备符号逻辑推理的能力,真正实现让模型实现基于问题语义的逻辑演绎,而不是简单的概率或规律匹配。
符号逻辑推理就像是在生活中列清单或者写步骤指南。你提前设定好一套清晰的“如果……那么……”的条件后,当情况符合条件时,你就知道该做什么,而不需要每次都重新思考。
可见,尽管AI已经可以作为人类的强大辅助工具,但在涉及复杂判断或需要精细推理的任务中,人类的大脑仍然不可或缺的(AI帮助我们解放双手和大脑,彻底完全掌管数学、物理、化学的能力还是有待提高捏~)。
2. 来瞅瞅AI奶奶怎么智斗骗子
众所周知,电信诈骗早已成为大家生活中普遍存在的威胁。最近,由英国电信公司O2开发的AI助手Daisy,这是一位善于与骗子周旋的虚拟“奶奶”,这个奶奶的名字叫Daisy。
图片:Daisy奶奶的AI人像
该公司解决电信诈骗的方法主要是通过浪费骗子的时间,来让他们不能够和其它人通话,进而防止骗子欺骗更多的人,实现了让诈骗难以得逞的目的。
那么,AI奶奶是如何浪费骗子的时间呢?在官方发布的演示 demo 中,Daisy 会跟电话那头的骗子唠唠家常,绘声绘色地分享她的爱好——编织毛衣,聊聊家里可爱的猫等等。当涉及银行卡账号/密码等要紧信息时,这位 AI 奶奶还会凭空杜撰,主打一个句句有回应,事事没着落,睁着眼睛说瞎话。无它,通话时间拖得越久越好。
然而问题就来了,如果电话那头的骗子也是用AI进行诈骗呢?那这不就是赛博斗蛐蛐啦,让大家都在观看一个诈骗AI和一个已读乱答AI之间的斗志斗勇。我们再进一步思考,如果骗子有了诈骗AI,那他们根本不担心浪费时间呀。既然可以用AI来诈骗了,那骗子们只需要根据骗术来无限复制诈骗AI,让这些AI来和受害人打电话即可了呀,那我们又该如何防范呢?还有,既然是要接收通话后,才能根据对方的话语来判断是否是诈骗分子,那么我们如何能够快速地甚至是能够在10秒之内就能让AI快速判断这是一个诈骗电话呢?
为此,小编进行分析之后,产生了一些可以落地的想法。既然是魔高一尺道高一丈的过程,那作为防守方的我们一定要增加多种验证的过程,比如我们的AI要根据对方的语音特征、来电的地理位置、语速语气、情绪和说话方式等综合因素来验证电话那头的人是否是诈骗分子。
然后就是要与政府、公安部、电信公司等进行合作,通过信息共享来及时获取最新的诈骗手段和诈骗信息,将这些数据都及时让AI去学习和识别,让AI及时且不断地更新自己识别诈骗的能力。
进一步,当AI判断有电信诈骗的嫌疑时,AI要立刻通知接电话的用户,让用户意识到自己可能正在与诈骗分子通话,比如可以通过手机震动、语音通知、通话中警告等方法来通知用户。
总之,作为防守方,我们的AI一定要做到全面、动态且及时地防范电信诈骗,来应对现在变化莫测的电信诈骗环境,让我们的防诈骗AI不断升级,增强辨识能力。毕竟,防诈骗不仅仅是科技的对抗,更是我们生活中每一个人的责任。
3. 当AI开始能够模仿和预测我们的行为
最近斯坦福研究团队又又又又又开发了一项新技术,利用AI生成与真实人类行为相似度高达85%的虚拟「克隆人」智能体!(这下可真把自己变成硅基生物了)
Github开源项目joonspk-research-generative_agents
他们通过对1000多名参与者进行了两小时的深度访谈,并用GPT-4语言模型生成了对应的智能体(即,1个人就是1个AI赛博智能体~),他们成功模拟了参与者在综合社会调查、大五人格测试、经济博弈等场景中的态度和行为。这项研究不仅展示了AI能够高度准确地模拟和预测个体行为,还减少了种族和意识形态之间的偏差。
可以说,Stanford这帮人又实现了对AI在复杂人类交互中的应用进行了铺路!之前是AI小镇,现在是人类行为模拟,后面又会出现什么,咱们都拭目以待。与此同时,这一切让我们不禁思考:当AI开始在赛博世界中以如此逼真的方式存在,它们与我们现实生活交织后,会引发怎样的影响?
在赛博世界中,拥有与现实中个体性格和价值观一致的AI智能体,可能对现实中一个人的自我认知产生深远影响。我们可以通过与智能体的交互,更清晰地理解自身的行为模式和思维方式。这种自我认知的提升,有可能促进我们拥有更健康、更积极的生活方式。然而,换个角度来看,如果这种模拟被误用,可能会导致个人隐私的侵犯及道德伦理的争议。
如果这项技术被广泛应用于商业或公共政策决策的过程,不仅可以减少决策失误,还能够有效提升政策的科学性和实施效果。在个性化医疗领域,医生可以利用患者的智能体,模拟不同治疗方案在不同病人身上的可能结果,从而提高医疗决策的准确性。在公共政策的制定方面,政府可以通过AI智能体预先模拟新政策实施后的社会影响,及早应对潜在问题。当然,我们必须确保这种模拟的精准性,尤其是当智能体的构建基于不良、不准确或混乱的数据时,模拟结果可能会失真。
总的来说,斯坦福大学这一研究的突破性进展,又为我们揭示了AI模拟人类行为无限可能性的一角。在我们想到AI为人类带来好处的同时,也要考虑到这也会带来许多的道德和伦理等问题。
文章1:
https://mp.weixin.qq.com/s/WkY0ucXCXKCFu33zz3jg3Q
文章2:
https://news.qq.com/rain/a/20241118A0268600
文章3:
https://mp.weixin.qq.com/s/WkY0ucXCXKCFu33zz3jg3Q
https://github.com/Diegot2t/https-github.com-joonspk-research-generative_agents