Pre-training · Knowledge Context

知识语境引入大模型预训练

让模型学习知识成立的条件,而非仅学习知识本身
不仅建模"说了什么",还建模"谁说的、何时说的、通过什么渠道说的"
1 观察

现实世界的信息同时具备语义语境两个维度。语义对应文本传达的具体内容,语境则描述这段内容产生的背景条件,包括由谁发布、通过什么载体传播、在多长时间内有效。同一条知识在不同语境下,其可信度、适用范围和时效性可能完全不同。

语义 Semantics
牛顿第二定律 F = ma,物体所受合力等于其质量与加速度的乘积
语境 Context
人民教育出版社 载体教科书 时效长期有效
语义 Semantics
小米发布新款手机,搭载新一代骁龙处理器,售价 3999 元起
语境 Context
新浪微博 载体社交媒体 时效短期
语义 Semantics
北京市气象台发布大雪预警,预计降雪量 10mm 以上,请注意出行安全
语境 Context
北京气象台 载体新闻 时效数日
R
语境对信息的重要性在语言学中已有成熟的理论支撑。Halliday 的语域理论(Register Theory)指出,语言的使用随情景语境而变化,而情景语境可以通过三个维度来刻画:语场(Field,话题与活动类型)、语旨(Tenor,参与者之间的关系)、语式(Mode,语言传播的渠道与媒介)。这意味着即使语义内容相同,不同的语场、语旨、语式组合会产生不同的语域,进而改变文本的功能和解读方式。知识语境可以看作语域理论在预训练场景中的一种操作化实现,将语境从语言学概念转化为可以被模型编码的结构化信号。
Halliday, M.A.K. (1978). Language as Social Semiotic. London: Edward Arnold.
语场 Field 内容形态
语旨 Tenor 来源权威性
语式 Mode 传播载体
2 问题与目标

当前预训练将语料处理为纯文本序列,模型仅在语义层面进行建模,来源、载体、时效等语境信息在预处理阶段未被保留。我们希望探索一种语境与语义联合建模的方式,使模型在预训练阶段即可感知每条知识的语境属性。

缩小模型与人类在信息获取方式上的结构性差异
人类在理解信息时,自然地将内容与其产生的语境关联判读
预训练过程应当保留数据中固有的语境结构,而非将其展平
当前做法
语义序列建模
不同来源的文档被拼接为统一的 token 序列,模型在训练过程中无法区分各段文本所处的语境
牛顿定律 [SEP] 手机发布会 [SEP] 北京天气预报
语境信息未参与建模
研究目标
语境-语义联合表征
将语境信息编码后与文本 token 共同输入模型,使每段文本的表征同时包含语义和语境信号
牛顿定律 [SEP] 手机发布会 [SEP] 北京天气预报
语境标签以前缀形式拼接到文档 token 序列前,与文本共同输入 Transformer
3 研究路线

围绕上述目标,我们从模型数据两个方向展开了一系列递进式研究。

模型视角
数据视角
KoCo 方法示意图
模型 · 研究一
KoCo ACL 2026
作为初步验证,我们将语料通过三个分类器映射到来源、形态、稳定性构成的离散坐标空间,将坐标编码为文本标签并以前缀形式拼接到文档前输入模型。实验表明,即便是粗粒度的离散语境信号,也能带来可观测的收敛加速,初步证实了语境建模的可行性。
从外部标注到自监督
CKE 方法示意图
模型 · 研究二
CKE
去除对外部分类器的依赖,通过自监督方式学习连续的语境表征,与语义表征联合建模,进一步提升下游任务表现。
机理分析
分析结果图
模型 · 研究三
语境增益的机制分析与理论归因
分析语境信号对表征空间的具体影响,验证语境收益随模型规模和数据量的可扩展性。
KnowDiv 数据集示意图
数据 · 研究一
KnowDiv
构建同一知识在不同语境下的多样性表达数据集,为语境维度的评估与对比提供基准。
从验证到应用
数据合成流程图
数据 · 研究二
垂直数据合成方法
沿知识的语境维度合成训练数据,从实验验证走向实际应用。
降低对数据量和质量过滤的依赖
语境信息为低质量数据提供了正确的背景,使其重新具有学习价值
构建更稳健的知识表示
通过语境区分知识的时效与适用边界,有助于缓解不同来源间的事实冲突
Q 常见问题
Q1 知识语境与已有的元信息条件训练(如 MeCo)有什么区别?
MeCo 将原始元数据(如 URL)直接作为前缀拼接到文档前,利用 URL 中隐含的域名、路径等信号来帮助模型区分数据来源,其核心目标是加速预训练收敛。知识语境关注的是一个不同的问题:我们希望模型能够感知知识本身成立的条件,包括知识的可信度、内容形态和时效性。为此,KoCo 将元数据抽象为结构化的语义坐标(来源 × 形态 × 稳定性),而非直接使用原始 URL。这种抽象使得语境表示具有跨域的可迁移性,也使得模型在推理时可以通过指定语境坐标来控制生成行为。两者在技术实现上有相似之处(都采用前缀条件训练),但出发点和建模对象不同。
Q2 推理阶段是否需要提供语境标签?如果不提供会怎样?
在 KoCo 中,我们采用了与 MeCo 类似的 cooldown 策略:训练后期移除语境前缀进行微调,使模型在无语境输入时也能正常工作。实验表明,经过 cooldown 的模型在不提供语境标签时性能不低于标准预训练基线,而在提供语境标签时则获得额外增益。这意味着语境条件是一种可选的增强信号,而非推理阶段的硬性依赖。
Q3 分类器的准确率对最终效果影响有多大?如果分类存在噪声怎么办?
我们在实验中观察到,即使分类器存在一定程度的噪声,模型仍然能够从语境信号中获益。这可能是因为预训练本身具有较强的容错能力:大量数据上的统计学习可以部分平滑掉个别样本的分类错误。此外,KoCo 使用的是粗粒度坐标(每个轴只有 3-5 个类别),降低了分类难度。后续研究(CKE)则完全绕开了显式分类器,转而通过自监督学习获取连续语境表征,从根本上避免了分类噪声的问题。
Q4 为什么不直接使用原始 URL 或域名,而要抽象为离散坐标?
直接使用 URL 的优点是实现简单,且已被证明有效(如 MeCo)。但 URL 是一种面向来源的标识,不同 URL 可能对应相同的知识层级(例如两个不同的教育类网站),而同一域名下也可能包含性质差异很大的内容。知识语境坐标是对这些原始信号的语义抽象,试图回答"这段文本处于什么样的知识层级"而非"这段文本来自哪个网站"。这种抽象的代价是引入了分类器,但换来了更清晰的语义结构和跨数据源的可迁移性。