GPT-4数学再提30分代码解析器任督二脉被打开网友：像大脑的工作方式

2023-08-18 19:09:22来源：快科技

GPT-4数学能力还能更强！

新研究发现GPT-4代码解释器做题准确率与其使用代码的频率有关。

为此，研究人员提出新方法对症下药，直接将其数学能力拔至新SOTA：

(资料图片仅供参考)

在MATH数据集上，做题准确率从53.9%增加到了84.3%。

你没听错，就是前段时间被称为ChatGPT推出后最强模式的那个代码解析器（Code Interpreter）。

研究人员窥探了其代码生成和执行机制，使用自我验证、验证引导加权多数投票的方法，直接打开其做数学题的任督二脉。

好奇网友随即而来：

还想看他们做高数。

还有网友认为：

这也就是大脑的工作方式，人类在解决数学问题时也会自我验证。

一起来康康这项研究的细节～

两步提升数学能力

GPT-4代码解析器的代码生成和执行机制究竟是怎样的？

来自港中文MMLab、南京大学、中科大、清华、城大、长沙理工等多个机构的学者为解开这一问题，使用特定代码约束提示进行了一项试验。

他们设计了3种不同的提示方法，限制GPT-4代码解析器使用代码的频率：

Prompt 1：完全不允许使用代码，输出完全依赖自然语言推理，禁止将代码合并到解决方案中。Prompt 2：只允许使用1次代码，也就是在生成解决方案时，只能在单个代码块内使用代码。Basic Prompt：没有限制，GPT-4代码解析器可以进行一系列推理步骤，每个步骤都可由文字+Python代码组成。

△（a）不同提示回答准确率比较（b）代码使用频率与五个难度级别准确率都成比例，数学问题相对复杂时更明显

结果发现，允许GPT-4代码解析器多次生成和执行代码，其解题正确度明显高于仅用自然语言推理或只用1次代码的情况。

经分析，研究人员认为代码的多次生成和执行可以让GPT-4代码解析器逐步完善解决方案，当代码执行产生错误时，GPT-4代码解析器可以自我调试修改方案。

继而引入“代码使用频率”概念，量化不同提示方法下代码的使用次数。

基于前面的分析结果，研究人员希望能加强GPT-4代码解析器生成准确代码、评估代码执行结果以及自动调整解决方案的能力。

所以提出了CSV（自我验证）提示的方法，也就是为解决方案C引入了一个额外的验证阶段，称为V。

加入自我验证提示效果对应上图绿色Verification Prompt。

如此一来，GPT-4代码解析器需额外生成代码来验证答案，如果结果是False则重新推理得到正确答案。

CSV提示不仅对验证到逻辑推理每一步都进行了扩展，而且可以自动更正错误，无需外部模型或人工参与。

△MATH数据集中第712个中级代数问题。

CSV prompt：To solve the problem using code interpreter step by step, and please verify your answer using code interpreter.

通过上图这个例子可看出，在没有自我验证的情况下，模型生成了一个错误的答案。通过自我验证，模型纠正了错误并生成了正确的答案。