北大千问团队推出数学专用版 CriticGPT,“找茬”让大模型进步更快
阅读提醒: 批评不仅能让人进步,也能让大模型的能力提升。OpenAI 就用这个思路造了个“找茬模型”CriticGPT。非常巧合的是,就在 CriticGPT 放出的前几天,北大联合千问等团队以类似的思路设计出了“数学专用版”CriticGPT。在无需训练的设置下,验证器能够在推理时辅助模型在 GSM8K 上的准确率从 86.6% 提升到 88.2%。在 GSM8K 数据集上,它可以让模型的准确率从 86.6
【管家婆精准资料一肖】 【澳门为什么叫澳门】 【澳门精准三肖三码三期凤凰网】 【澳门王中王论坛开奖资料】 【香港澳门资料大全2024】 【白小姐精选三肖中特最新规则】 【2024澳门开奖结果记录59期】 【香港二四六开奖免费资料】 【马会传真马会传真论坛132688】 【澳门最牛三肖三码中特的优势】 【今晚澳门2024最准的资料】

批评不仅能让人进步,也能让大模型的能力提升。

OpenAI 就用这个思路造了个“找茬模型”CriticGPT。非常巧合的是,就在 CriticGPT 放出的前几天,北大联合千问等团队以类似的思路设计出了“数学专用版”CriticGPT。

在无需训练的设置下,验证器能够在推理时辅助模型在 GSM8K 上的准确率从 86.6% 提升到 88.2%。

在 GSM8K 数据集上,它可以让模型的准确率从 86.6% 提升到 88.2%。

CriticGPT 的核心思路是在代码中故意设置 bug 并进行详细标注,然后用得到的数据训练出会 debug 的模型。

北大团队发现,这种方法不仅在代码当中有用,也能帮助语言模型解决数学问题

于是团队利用相似的思路,把代码换成数学问题,推出了“数学版 CriticGPT”——Math-Minos

用 GPT4 逐步提出修正意见

在数学推理领域,验证解决方案的正确性,是确保推理质量的关键步骤。

然而,现有的数学验证器大多依赖于二元分类标签进行训练,这种方式在提供正确或错误原因的解释上存在明显不足,无法给验证器提供足够充分的监督信号来训练。

Math-Minos 则克服了这一局限,提供了更深入的解释,极大地丰富了验证器的训练信息。

它引入了逐步的自然语言反馈作为理由标签,不仅指出了解决方案的正误,还能逐步分析出错误的原因。

在自然语言反馈的获取上,研究团队一开始使用 GPT-4 生成训练数据,但通过实验发现,即使是 GPT-4,在逐步评价数学推理任务时也会出现一定比例的错误。

为了一定程度避免这个问题,研究人员通过在提示中引入步骤级别的二元分类标签,简化了 GPT-4 的任务,使得 GPT-4 能够更准确地生成评估。

首先,通过监督式微调,使用自然语言反馈作为训练数据,有效提升了模型的评估能力。

其次,通过标准的 ORM(Outcome Reward Model,输出奖励模型)和 PRM(Process Reward Model,过程奖励模型)训练,实现了高效的推理,这种做法有两个好处。

一是通过两阶段训练,可以将二分类数据和监督微调数据解耦。

由于监督信号的稀疏性,训练二分类的数据往往远多于监督微调的数据,而研究发现,仅需要少量的监督微调数据,就可以很大程度提升模型的评估能力

另一方面,在验证器进行验证时,不需要显示地生成自然语言反馈,让推理过程更高效。

ORM 任务表现明显提升

总得来看,研究人员在训练阶段添加了 30K 的自然语言反馈数据,为 Mistral-7B 验证器带来了数学能力的提升,在 Best-of-256 的实验设置下:

在 ORM 的设置下,MATH-Minos 将 Mistral-7B 的准确率在 GSM8K 数据集从 86.2% 提升到 87.3%,在 MATH 数据集从 35.9% 提升到 37.4%。

在 PRM 的设置下,MATH-Minos 将 Mistral-7B 的准确率在 GSM8K 数据集从 87.1% 提升到 87.6%,在 MATH 数据集从 36.7% 提升到 37.8%。

在与 Self-Consistency 结合的设置下,MATH-Minos 将 Mistral-7B 的准确率在 GSM8K 数据集从 87.1% 提升到 88.2%,在 MATH 数据集从 37.8% 提升到 38.6%。

在 ORM 和 PRM 任务设置中,Math-Minos 均展现出了优越的性能,特别是在 ORM 设置中,其改进更为显著。

另外,研究团队还对生成器在步骤级别产生的错误进行了深入分析,将其归类为五种类型 —— 无关错误、累积错误、计算错误、逻辑错误和其他错误。

分析结果表明,在多步骤推理中,步骤错误的可能原因有很多种,而且模型在这些错误类型中都有可能出错,这进一步强调了引入自然语言反馈来指导模型学习的重要性。

实验发现,在两个数据集上,累积错误(即一个步骤的错误很可能直接导致所有后续步骤的错误)在所有错误类型中占到的比例最高。

不同数据集上的错误分布也有不同的特点,在相对简单的 GSM8K 上,计算错误更多;在更困难的 MATH 数据集上,逻辑错误更多。

通过构建元评估集,研究团队评估了验证器在没有生成器影响下,准确判断最终答案的能力。

结果显示,Math-Minos 在训练过程中的元评估一致优于传统的 ORM,并且展现出更快的收敛速度和更精准的判断能力。

同时实验结果也表明,Math-Minos 具有很强的 Scale Up 的潜力。

总之,Math-Minos 的开发不仅提升了数学验证器的性能,更为自然语言处理领域提供了一种新的训练范式。

研究团队希望这项工作能够启发未来研究,探索自然语言反馈与分类式验证器的潜在整合,推动大型语言模型在复杂推理任务上的能力。

论文地址:

  • https://arxiv.org/abs/2406.14024

GitHub:

  • https://github.com/KbsdJames/MATH-Minos

本文来自微信公众号:量子位(ID:QbitAI),作者:关注前沿科技

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,所有文章均包含本声明。

【2024澳门六开彩开奖结果查询】 澳门金牛版论坛开奖记录 【澳门正版资料更新中】 澳门一码中精准一码免费中特论坛 【2024王中王家婆期期四肖四】 澳门开彩开奖结果历史 【澳门正版资料大全公开】 1836CC澳门免费资料大全 【494949最快开奖今晚开什么】 【2024年澳门六开彩开奖结果】 【2024年新澳门正版资料大全免费】 【澳门最准一码一肖一特】

73年属年是什么生命:73年出生属相?什么命运?

什么是年生肖?什么是年生肖?年出生的命运是什么?年出生的人最适合谁?让我们给你一个具体的介绍:1973年属于什么生命,五行属于什么。

年属什么生肖?

开运品推荐:“属牛本命★”

农历年是桂丑年,也就是牛年。所以,这一年出生的人属相对较牛。

第一种:按年度“立春”划分

阳历(公历)时间:2月5日1时32分至2月4日7时23分(鼠年出生为鼠年)

牛1973年出生的命运是什么?

2月4日7时23分至2月4日13时12分,农历桂丑年(牛年出生为牛)

二是按每年“初一(春节)”划分1973年正月初四是什么生命。

公历(公历)时间:农历壬子年(鼠年)年1月1日至2月2日。

农历桂丑年(牛年)2月3日至12月31日

注:黄道十二宫的划分存在上述两种划分方法的争议。根据我们的查询,黄道十二宫是根据中国的农历时间,即每年的“春季开始”,即第一种划分方法。

年属牛的人年运程:

1973年出生的五种行为是“贵丑”。在甲午马年,天干桂水生旺甲木,可以缓解太岁的力量。在“天乙贵人”星曜的积极带动下,73年属牛的朋友,事业将迎来良好的发展机遇。比如能维持职场人际关系,脚踏实地做好本职工作,有望获得晋升机会;虽然商业和投资者有更好的投资机会,根据市场的变化和自身的实力进行投资,以获得相应的回报;在婚姻和感情方面,夫妻应该互相理解,互相支持和鼓励,不要争论,牛男人应该防止婚外桃花,一切家庭事业都是首要任务。健康方面,注意脾胃问题,旅行或出差时防止水土不服,外出时注意健康饮食,驾驶员也要注意交通安全。

属牛一生总运势

丑牛出生,诚实,耐心,固执,缺乏沟通,女人相信别人甜言蜜语失败,后悔,应该谨慎,沉默,不重用,但温柔,勤奋,活动独立,热情坚实,性钱等,早离家,青少年幸福,中年多少努力和精神麻烦和痛苦,晚上祝福荣誉,婚姻麻烦等。1973年9月初十出生的命运是什么?

属牛的属相婚配表

适配:鼠、蛇、鸡大吉,天做良缘,家道大起阵,财盛家宁。

忌配:马、羊、狗,吉凶各有,甘苦共存,无进取心,内心多愁善感。1973年6月7日的命运是什么?

解释:丑牛和老鼠,找一个属于老鼠的对象,这是一个优越的婚姻。其次,与第三条蛇和你的鸡三合,所以你也应该找一条蛇或鸡,这是一个优越的婚姻。

【2024澳门精准正版资料免费大全】 香港二四六308图库 【澳门六开彩天天免费资料大全】 澳门资料大全免费 【新澳历史记录查询结果】 聚彩论坛免费资料大全最新 【一码一肖100%中奖资料】 2024香港今晚开奖号码 【澳门正版资料免费更新1】 【澳门一肖一码100准肖】 【澳门新彩资料官方网站】 【2024澳门王中王资料大全】