11.4 问答数据集

目前已有大量问答（Question Answering, QA）数据集，广泛用于大语言模型的指令微调（instruction tuning）和问答能力评估。

这些数据集可从多个维度加以区分，Rogers 等人（2023）对此做了很好的总结。其中一个关键维度是问题的原始目的——它们是真实的信息寻求型（information-seeking）问题，还是专为探测/评测（probing）而设计的问题（用于测试系统或人类的能力）。

在“自然问题”一侧，代表性数据集包括 Natural Questions（Kwiatkowski 等，2019），它包含一组匿名化的英文 Google 搜索查询及其答案。答案由标注人员基于维基百科内容生成，包含一个段落长度的长答案（long answer）和一个短语级别的短答案（short span answer）。例如，问题 “When are hops added to the brewing process?”（啤酒酿造过程中何时加入啤酒花？）的短答案是 “the boiling process”（煮沸阶段），而长答案则是来自“Brewing”维基百科页面的一整段文字。

另一个类似的自然问题数据集是 MS MARCO（Microsoft Machine Reading Comprehension）系列，包含 100 万条真实且匿名的英文 Bing 搜索查询，每条都配有由人工撰写的答案，以及约 900 万篇相关段落（Bajaj 等，2016）。该数据集既可用于评估检索排序性能，也可用于问答任务。

尽管许多数据集以英文为主，但其他语言也存在自然信息寻求型问答资源。例如 DuReader 是一个基于搜索引擎查询和社区问答的中文问答数据集（He 等，2018）。 TyDi QA 数据集包含来自 11 种类型学上差异显著的语言（如阿拉伯语、孟加拉语、斯瓦希里语、俄语和泰语）的 20.4 万对问答样本（Clark 等，2020a）。在 TyDi QA 任务中，系统会收到一个问题和若干来自维基百科文章的段落，需完成两项任务：(a) 选出包含答案的段落（若无则返回 NULL）；(b) 标注最小的答案片段（或 NULL）。

在“探测”一侧，典型代表是 MMLU（Massive Multitask Language Understanding）。这是一个常用的大规模多任务语言理解数据集，包含 15,908 道覆盖 57 个领域的知识与推理题，领域涵盖医学、数学、计算机科学、法律等。 MMLU 的题目源自各类面向人类的标准化考试，如美国研究生入学考试（GRE）、医师执照考试（USMLE）和大学先修课程考试（AP）。因此，这些问题并非反映真实用户的信息需求，而是专为评估人类在学术或职业认证场景下的知识水平而设计。图 11.10 展示了部分示例（正确答案已加粗）。

上述部分问答数据集会为每个问题提供可从中提取答案的段落。这类数据集最初主要用于一种早期的问答任务——阅读理解（reading comprehension）：给定一个问题和一篇文档，模型需从该文档中抽取答案。我们有时将基于一个或多个文档进行问答的任务（例如通过 RAG 实现）称为“开卷”问答（open-book QA），而将完全不依赖外部检索、仅凭语言模型内部知识作答的任务称为 “闭卷”问答（closed-book QA）¹。因此像 Natural Questions 这类数据集，若使用其附带的文档，则视为开卷任务；若忽略文档、仅凭模型回答，则视为闭卷任务；而 MMLU 等数据集则本质上是闭卷的。

另一个重要维度是答案格式：是选择题（multiple-choice）还是自由形式（freeform）。此外，提示方式也存在差异：模型是仅接收问题本身（零样本，zero-shot），还是同时获得若干相似问题的解答示例（少样本，few-shot）。 MMLU 就同时支持零样本和少样本提示设置。

MMLU 示例
【大学计算机科学】
任何能够表示所有布尔表达式的布尔运算符集合被称为“完备集”。以下哪一组不是完备的？
(A) AND, NOT
(B) NOT, OR
(C) AND, OR
(D) NAND
【大学物理】
太阳能量的主要来源是一系列热核反应，其中释放的能量等于 c² 乘以以下哪项之间的质量差？
(A) 两个氢原子和一个氦原子
(B) 四个氢原子和一个氦原子
(C) 六个氢原子和两个氦原子
(D) 三个氦原子和一个碳原子
【国际法】
以下哪一项是基于条约的人权机制？
(A) 联合国人权事务委员会
(B) 联合国人权理事会
(C) 联合国普遍定期审议
(D) 联合国特别程序任务
【史前史】
与其他早期文明不同，米诺斯文明几乎没有显示出以下哪方面的证据？
(A) 贸易
(B) 战争
(C) 共同宗教的发展
(D) 精英阶层的炫耀性消费

图 11.10 MMLU 中的问题示例

此处借用了教育考试中的术语——“开卷考试”允许学生查阅资料，“闭卷考试”则不允许。 ↩︎