思维链1¶
摘要¶
作者探讨了如何通过生成思路链——一系列中间推理步骤——来显著提升大型语言模型执行复杂推理的能力. 特别地, 他们展示了在足够大的语言模型中, 这类推理能力如何通过一种称为chain-of-thought prompting的简单方法自然地涌现, 即在提示中提供少量思路链示例作为范例. 对三个大型语言模型的实验结果表明, chain-of-thought prompting在多种算术、常识及符号推理任务中都能提升性能. 这一实证结果相当显著. 例如, 仅给PaLM 540B提供八个思路链示例, 就能在GSM8K数学文字题基准上达到业界领先的准确率, 甚至超越了带有验证器的微调GPT-3.
图片¶
动机¶
近年来, 语言模型领域涌现了多种突破性工作, 如ELMo、BERT和GPT-3等, 并通过不断扩大模型规模来提升在语言理解与生成上的整体性能. 然而, 单纯依靠规模增大并不足以在算术推理、常识推理以及符号推理等更具挑战性的任务上取得理想效果. 基于此, 研究者们开始思考如何在无需大规模精细标注的前提下, 充分挖掘大型语言模型的推理潜能. 这一问题的研究动机源于现有方法的局限性: 传统的rationale-augmented training和微调方法虽然可以让模型显式生成推理过程, 但标注高质量的推理步骤通常需要大量的人力成本; 而以少量示例为基础的few-shot prompting方法虽然能够在某些简单任务上表现良好, 但在需要复杂推理能力的场景中效果并不显著, 且随着模型规模增长也没有获得显而易见的提升.
创新点¶
针对以上不足, 相应工作提出了一种名为Chain-of-Thought Prompting的新方法, 通过在提示示例中包含〈输入、推理过程、输出〉三元组的形式, 引导语言模型在生成最终答案之前输出更为详细的中间推理步骤. 这种做法兼具可解释性与高效性的优点, 在保留few-shot prompting无需大量训练数据和多次模型微调优势的同时, 使得模型能够有效地学习并复用推理模式. 实验表明, 在GSM8K等基准数据集上, 结合Chain-of-Thought Prompting的PaLM 540B模型在算术推理、常识推理以及符号推理任务中均取得了突破性进展, 并显著领先于传统的标准提示方法. 这一成果不仅说明了大型语言模型在内在推理能力上的巨大潜力, 也为后续在更多复杂场景中有效利用语言模型提供了新的思路和启示.
-
Wei, J., Wang, X., Schuurmans, D., Bosma, M., Ichter, B., Xia, F., Chi, E., Le, Q., & Zhou, D. (2023). Chain-of-thought prompting elicits reasoning in large language models (No. arXiv:2201.11903). arXiv. https://doi.org/10.48550/arXiv.2201.11903 ↩