通过Quiet-STaR，语言模型学会先分析再回应

Home AI News CN 通过Quiet-STaR，语言模型学会先分析再回应

人工智能推理的进展：介绍Quiet-STaR

人类具备独特的推理能力，能够思考“如果”和“为什么”，并解读隐含信息以解决复杂问题。然而，传统的人工智能模型在这种推理能力上往往显得力不从心。斯坦福大学与Notbad AI公司研发了Quiet-STaR，这是一个自学推理模型（STaR）的创新扩展，旨在让AI在回应之前进行思考，从而模仿人类的思维过程。

Quiet-STaR的改进之处

Quiet-STaR应用于Mistral 7B模型，显著提升了其零样本推理能力。在以下方面取得了显著进步：

- CommonsenseQA问答准确率从36.3%提升至47.2%

- GSM8K小学数学问题解决能力从5.9%提升至10.9%

这些改进与模型内部思考的标记数量直接相关。研究人员指出：“Quiet-STaR朝着让语言模型以更普遍和可扩展的方式学习推理迈出了重要一步。”

历史上的AI推理局限性

早期的AI推理方法过于依赖于特定任务的训练，导致其适应性有限。模型通常使用精心挑选的专用数据集进行训练，这限制了其应对更广泛场景的能力。例如，尽管专门针对人类推理进行微调的语言模型在直接回答AI中表现更优，但这些方法仍局限于特定数据集。STaR模型则展示了AI可以通过从问答数据集中进行迭代学习来提升推理能力，但对经过筛选的数据的依赖限制了其可扩展性。

如研究人员所述：“从这些数据集中进行训练本质上只能覆盖一小部分推理任务。”这强调了模型需要从多样的文本输入中提取推理的必要性。

Quiet-STaR方法论

Quiet-STaR技术通过在每个标记生成多个内心思考，进行“思考”过程后再给出回应。这使得AI在评估未来文本时能够获得更丰富的语境。通过采用REINFORCE算法，模型优化其预测，剔除不够准确的输出，并在训练过程中逐步完善推理能力。

为了促进一般性推理，研究人员使用了一个零样本提示（“让我们一步一步思考”），并在OpenWebMath和Colossal Clean Crawled Corpus等多样化网络文本数据集上对Quiet-STaR进行了训练。“Quiet-STaR使模型能够在每个标记层面上静默思考，从而促进实用性增强的分布，”他们指出。

黑客攻击内部AI聊天机器人的威胁：安全团队的噩梦与ASCII艺术风险

AI风险管理初创公司ValidMind获得810万美元融资，助力银行应对合规监管挑战