知识语境 · 研究海报

1 观察

现实世界的信息同时具备语义和语境两个维度。语义对应文本传达的具体内容，语境则描述这段内容产生的背景条件，包括由谁发布、通过什么载体传播、在多长时间内有效。同一条知识在不同语境下，其可信度、适用范围和时效性可能完全不同。

语义 Semantics

牛顿第二定律 F = ma，物体所受合力等于其质量与加速度的乘积

语境 Context

源人民教育出版社载体教科书时效长期有效

语义 Semantics

小米发布新款手机，搭载新一代骁龙处理器，售价 3999 元起

语境 Context

源新浪微博载体社交媒体时效短期

语义 Semantics

北京市气象台发布大雪预警，预计降雪量 10mm 以上，请注意出行安全

语境 Context

源北京气象台载体新闻时效数日

R

语境对信息的重要性在语言学中已有成熟的理论支撑。Halliday 的语域理论（Register Theory）指出，语言的使用随情景语境而变化，而情景语境可以通过三个维度来刻画：语场（Field，话题与活动类型）、语旨（Tenor，参与者之间的关系）、语式（Mode，语言传播的渠道与媒介）。这意味着即使语义内容相同，不同的语场、语旨、语式组合会产生不同的语域，进而改变文本的功能和解读方式。知识语境可以看作语域理论在预训练场景中的一种操作化实现，将语境从语言学概念转化为可以被模型编码的结构化信号。

Halliday, M.A.K. (1978). Language as Social Semiotic. London: Edward Arnold.

语场 Field → 内容形态

语旨 Tenor → 来源权威性

语式 Mode → 传播载体

2 问题与目标

当前预训练将语料处理为纯文本序列，模型仅在语义层面进行建模，来源、载体、时效等语境信息在预处理阶段未被保留。我们希望探索一种语境与语义联合建模的方式，使模型在预训练阶段即可感知每条知识的语境属性。

缩小模型与人类在信息获取方式上的结构性差异

人类在理解信息时，自然地将内容与其产生的语境关联判读
预训练过程应当保留数据中固有的语境结构，而非将其展平

当前做法

语义序列建模

不同来源的文档被拼接为统一的 token 序列，模型在训练过程中无法区分各段文本所处的语境

牛顿定律 [SEP] 手机发布会 [SEP] 北京天气预报 …

语境信息未参与建模

研究目标

语境-语义联合表征

将语境信息编码后与文本 token 共同输入模型，使每段文本的表征同时包含语义和语境信号

牛顿定律 [SEP] 手机发布会 [SEP] 北京天气预报 …

语境标签以前缀形式拼接到文档 token 序列前，与文本共同输入 Transformer

3 研究路线

围绕上述目标，我们从模型和数据两个方向展开了一系列递进式研究。

模型视角

数据视角

KoCo 方法示意图

模型 · 研究一

KoCo ACL 2026

作为初步验证，我们将语料通过三个分类器映射到来源、形态、稳定性构成的离散坐标空间，将坐标编码为文本标签并以前缀形式拼接到文档前输入模型。实验表明，即便是粗粒度的离散语境信号，也能带来可观测的收敛加速，初步证实了语境建模的可行性。

从外部标注到自监督

CKE 方法示意图

模型 · 研究二

CKE

去除对外部分类器的依赖，通过自监督方式学习连续的语境表征，与语义表征联合建模，进一步提升下游任务表现。

机理分析

分析结果图

模型 · 研究三

语境增益的机制分析与理论归因

分析语境信号对表征空间的具体影响，验证语境收益随模型规模和数据量的可扩展性。

KnowDiv 数据集示意图

数据 · 研究一

KnowDiv

构建同一知识在不同语境下的多样性表达数据集，为语境维度的评估与对比提供基准。

从验证到应用

数据合成流程图

数据 · 研究二

垂直数据合成方法

沿知识的语境维度合成训练数据，从实验验证走向实际应用。

降低对数据量和质量过滤的依赖

语境信息为低质量数据提供了正确的背景，使其重新具有学习价值

构建更稳健的知识表示

通过语境区分知识的时效与适用边界，有助于缓解不同来源间的事实冲突

Q 常见问题

Q1 知识语境与已有的元信息条件训练（如 MeCo）有什么区别？

MeCo 将原始元数据（如 URL）直接作为前缀拼接到文档前，利用 URL 中隐含的域名、路径等信号来帮助模型区分数据来源，其核心目标是加速预训练收敛。知识语境关注的是一个不同的问题：我们希望模型能够感知知识本身成立的条件，包括知识的可信度、内容形态和时效性。为此，KoCo 将元数据抽象为结构化的语义坐标（来源 × 形态 × 稳定性），而非直接使用原始 URL。这种抽象使得语境表示具有跨域的可迁移性，也使得模型在推理时可以通过指定语境坐标来控制生成行为。两者在技术实现上有相似之处（都采用前缀条件训练），但出发点和建模对象不同。

Q2 推理阶段是否需要提供语境标签？如果不提供会怎样？

在 KoCo 中，我们采用了与 MeCo 类似的 cooldown 策略：训练后期移除语境前缀进行微调，使模型在无语境输入时也能正常工作。实验表明，经过 cooldown 的模型在不提供语境标签时性能不低于标准预训练基线，而在提供语境标签时则获得额外增益。这意味着语境条件是一种可选的增强信号，而非推理阶段的硬性依赖。

Q3 分类器的准确率对最终效果影响有多大？如果分类存在噪声怎么办？

我们在实验中观察到，即使分类器存在一定程度的噪声，模型仍然能够从语境信号中获益。这可能是因为预训练本身具有较强的容错能力：大量数据上的统计学习可以部分平滑掉个别样本的分类错误。此外，KoCo 使用的是粗粒度坐标（每个轴只有 3-5 个类别），降低了分类难度。后续研究（CKE）则完全绕开了显式分类器，转而通过自监督学习获取连续语境表征，从根本上避免了分类噪声的问题。

Q4 为什么不直接使用原始 URL 或域名，而要抽象为离散坐标？

直接使用 URL 的优点是实现简单，且已被证明有效（如 MeCo）。但 URL 是一种面向来源的标识，不同 URL 可能对应相同的知识层级（例如两个不同的教育类网站），而同一域名下也可能包含性质差异很大的内容。知识语境坐标是对这些原始信号的语义抽象，试图回答"这段文本处于什么样的知识层级"而非"这段文本来自哪个网站"。这种抽象的代价是引入了分类器，但换来了更清晰的语义结构和跨数据源的可迁移性。

将知识语境引入大模型预训练