谷歌让-12-个-AI-大模型攒局玩“大富翁”:Claude3.5-爱合作-GPT-4o-最“自私”

谷歌让-12-个-AI-大模型攒局玩“大富翁”:Claude3.5-爱合作-GPT-4o-最“自私”

作者:news 发表时间:2025-08-05
经营性租赁核心指标与规模上量官方通报 正泰电器:7月份累计回购公司股份439.60万股这么做真的好么? ST联创回购1210万股 成交金额5019万元学习了 经营性租赁核心指标与规模上量是真的? 华达新材:7月份公司未进行股份回购 珠江钢琴:8月21日将召开2025年第一次临时股东大会 正泰电器:7月份累计回购公司股份439.60万股 成大生物:尚未实施股份回购计划是真的吗? 从“抓不完”到“防得住”,传统民企技术反腐有哪些新招数?最新报道 正海生物:上半年净利润4648.57万元科技水平又一个里程碑 最新!社保基金现身13家上市公司前十大流通股东名单 从“抓不完”到“防得住”,传统民企技术反腐有哪些新招数? 盛美上海回购44万股完毕 金额5001万元官方处理结果 粉笔发布半年度业绩预告:AI支撑增长潜力空间 营收预计不少于14.72亿元实垂了 *ST兰黄回购186万股 成交金额1438万元科技水平又一个里程碑 调研汇总:富国、华夏、嘉实基金等72家明星机构调研东方雨虹! 瞬雷科技被上市公司收购,27名员工,收购价为4.03亿元!后续会怎么发展 停牌核查完成,上纬新材8月5日起复牌 *ST兰黄回购186万股 成交金额1438万元后续来了 瞬雷科技被上市公司收购,27名员工,收购价为4.03亿元!实时报道 林园,罕见出手!学习了 钒钛股份回购740万股 金额1972万元 广汽打好“用户需求战”的秘密,藏在这场IPD变革里!实测是真的 莱特光电回购156万股 金额3504万元学习了 第397批公告:LG三元配套特斯拉 Y L、尚界H5纯电版搭载宁德三元 京东发布“高端电视倍增计划” 百吋联盟 2.0 持续推动超大屏电视普及实垂了 澜起科技:累计回购192万股学习了 白云电器获1800万元回购贷款承诺函又一个里程碑 高盛:美股步入“危险八月”,市场忽略了欧股这些“好消息”后续反转来了 艾森股份已回购115万股 金额5021万元记者时时跟进 *ST海越已退出A股,投资者权益如何保护?是真的? 石头科技:累计回购约6.7万股实测是真的 为何印度IT行业正在裁员 英国石油公司在巴西近海发现重大石油资源,为数十年来最大发现专家已经证实 柳药集团拟回购389万股至778万股 金额1亿元至2亿元反转来了 爱康集团否认“假体检”,与客户互诉“罗生门”愈演愈烈是真的? 艾森股份:累计回购约115万股 万业企业:截至2025年一季度,公司在铋业务端实现8000万元以上的收入 艾森股份已回购115万股 金额5021万元是真的? 唐人神回购871万股 金额4400万元官方通报来了 涉及化工能源等13家公司 龙国神华筹划大规模重组

给大模型智能体组一桌“大富翁”,他们会选择合作还是相互拆台?实验表明,不同的模型在这件事上喜好也不一样,比如基于 Claude 3.5 Sonnet 的智能体,就会表现出极强的合作意识。

而 GPT-4o 则是主打一个“自私”,只考虑自己的短期利益。

谷歌让

这个结果来自 Google DeepMind 和一位独立研究者的最新合作。参加游戏的智能体背后的模型分别是 GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Flash。

每个模型各产生 12 个智能体,这 12 个智能体坐在一桌上进行博弈。游戏看上去大富翁有一点相似,但相对简单,玩家只需要对手中的“资源”做出处置。这当中,虽然每个玩家心里都有各自的小九九,但作者关注的目标,是让总体资源变得更多。

谷歌让

12 个智能体组一桌游戏

作者组织的“大富翁”游戏,真名叫做 Donor Game(捐赠博弈)。

在这过程中,作者关注的是各模型组成的智能体群体的表现,因此不同模型产生的智能体不会出现在同一局游戏当中。

再说简单些,就是 GPT 和 GPT 坐一桌,Claude 和 Claude 坐一桌。

每个桌上坐了 12 个智能体,它们各自手中都握有一定量的“资源”,系统会从这 12 名玩家中随机抽取 2 个,分别作为“捐赠者”和“受赠者”。

捐赠者可以选择将自己手中的部分资源捐赠给受赠者,受赠者获得的资源是捐赠者捐赠资源的两倍。

也就是说,捐赠者每花费掉一份资源时,受赠者都可以获得两份,这也是总体资源能够增加的来源。

不过对于单个个体而言,选择不进行捐献,在短期内的收益会更高。

在做决定之时,捐赠者能够知道受赠者之前做出的决定,从而判断是否要捐赠。

这样的“捐赠”,每一代中一共会进行 12 次,一轮结束后,手中资源量排在前 6 名的智能体可以保留至下一代。

同时,下一代会产生 6 个新的智能体,这 6 个新智能体会从留下的 6 个智能体那里学习策略,但同时为了差异化也会引入随机变异。

包括初始的一代在内,基于每个模型产生的智能体,都会进行十轮迭代。

谷歌让

相关文章