[论文笔记] Chain-of-Thought Reasoning without Prompting

时间:2024-09-30 07:45:29

分析:

        在CoT解码路径中,我们可以看到模型在第三个位置(????? = 3)开始展示推理过程,并且给出了正确的答案“8”。模型首先识别出说话者有3个苹果,然后识别出爸爸比说话者多2个,即5个苹果,最后将这两个数量相加得到总数8个苹果。

        这个例子表明,通过探索替代的解码路径,我们可以从预训练的LLMs中提取出有用的推理链,即使没有明确的提示或问题构造。这种方法不仅可以提高模型在复杂推理任务上的表现,还可以增加我们对模型内在推理能力的理解。

当然,以下是一个使用CoT(Chain-of-Thought)解码方式的例子,它展示了如何从预训练的大型语言模型(LLMs)中激发推理路径。

问题:

I have 3 apples, my dad has 2 more apples than me, how many apples do we have in total?

使用贪婪解码的方式:

贪婪解码通常会直接给出错误的答案&#x