李煜东

李煜东(Yudong Li)

助理研究员 · 清华大学电子工程系

liyudong123@hotmail.com

我本科毕业于中南大学,博士毕业于深圳大学。我的主要研究方向为大模型预训练,包括预训练方法、数据工程与合成数据。当前聚焦于 知识语境(Knowledge Context):探索如何将语境信息引入预训练过程,使模型在学习知识的同时感知知识成立的条件,从而提升预训练数据效能。

我围绕模型框架、训练方法与测评数据开展了许多工作,是 UER-pyTencentPretrainLinlyCLUE BenchmarkCSL 等开源项目的核心作者。

我正在为知识语境系列研究寻找学术界和工业界的合作伙伴,欢迎联系。

代表工作

完整列表见 Google Scholar

Pre-training · Knowledge Context

知识语境引入大模型预训练

让模型学习知识成立的条件,而非仅学习知识本身
不仅建模"说了什么",还建模"谁说的、何时说的、通过什么渠道说的"
1 观察

在现实世界中,文本信息由语义语境两个维度构成。语义对应文本传达的具体内容,语境则描述这段内容产生的背景条件,包括由谁发布、通过什么载体传播、在多长时间内有效。同一条知识在不同语境下,其可信度、适用范围和时效性可能完全不同。

语义 Semantics
牛顿第二定律 F = ma,物体所受合力等于其质量与加速度的乘积
语境 Context
人民教育出版社 载体教科书 时效长期有效
语义 Semantics
小米发布新款手机,搭载新一代骁龙处理器,售价 3999 元起
语境 Context
新浪微博 载体社交媒体 时效短期
语义 Semantics
北京市气象台发布大雪预警,预计降雪量 10mm 以上,请注意出行安全
语境 Context
北京气象台 载体新闻 时效数日
R
语境对信息的重要性在语言学中已有成熟的理论支撑。Halliday 的语域理论(Register Theory)指出,语言的使用随情景语境而变化,而情景语境可以通过三个维度来刻画:语场(Field,话题与活动类型)、语旨(Tenor,参与者之间的关系)、语式(Mode,语言传播的渠道与媒介)。这意味着即使语义内容相同,不同的语场、语旨、语式组合会产生不同的语域,进而改变文本的功能和解读方式。知识语境可以看作语域理论在预训练场景中的一种操作化实现,将语境从语言学概念转化为可以被模型编码的结构化信号。
Halliday, M.A.K. (1978). Language as Social Semiotic. London: Edward Arnold.
语场 Field 内容形态
语旨 Tenor 来源权威性
语式 Mode 传播载体
2 科学问题与研究目标

当前预训练将语料处理为纯文本序列,模型仅获取信息在语义的投影。信息来源、载体、时效等语境信息在预处理阶段被抛弃。我们希望建立有效的语境表征方法,从而构建语境-语义联合表示,使模型在预训练阶段即可显式感知每条知识的语境属性,从而界定知识的适用边界与可信层级。

缩小模型与人类在信息获取方式上的差异
人类在理解信息时,自然地将内容与其产生的语境关联判读
预训练过程应当保留数据中固有的语境结构
当前做法
语义序列建模
不同来源的文档被拼接为统一的 token 序列,模型在训练过程中无法区分各段文本所处的语境
牛顿定律 [SEP] 手机发布会 [SEP] 北京天气预报
语境信息未参与建模
研究目标
语境-语义联合表征
建立语境-语义联合表征输入模型,使输入信息同时包含语义和语境信号
牛顿定律 [SEP] 手机发布会 [SEP] 北京天气预报
建立语境-语义联合表征输入模型,使输入信息同时包含语义和语境信号
3 研究路线

围绕上述目标,我们从模型数据两个方向展开了一系列研究。

模型视角
数据视角
KoCo 方法示意图
模型 · 研究一
KoCo: Conditioning Language Model Pre-training on Knowledge Coordinates ACL 2026
作为初步验证知识语境的可行性,KoCo提出知识语境坐标,将将语料通过三个分类器映射到来源、形态、稳定性构成的离散坐标空间,将坐标编码为文本标签并以前缀形式拼接到文档前输入模型。实验表明,即便是粗粒度的离散语境信号,也能带来可观测的收敛加速和性能提升,初步证实了语境建模的可行性。
从外部标注到自监督
CKE 方法示意图
模型 · 研究二
CKE
消除Koco对外部分类器的依赖,构建自监督的语境建模方法,从而建立连续的语境表征,与语义表征联合建模,进一步提升下游任务表现。
机理分析
分析结果图
模型 · 研究三
语境增益的机制分析与理论归因
分析语境信号对表征空间的具体影响,验证语境收益随模型规模和数据量的可扩展性。
KnowDiv 数据集示意图
数据 · 研究四
KnowDiv数据集
构建同一知识在不同语境下的多样性表达数据集,为语境维度的评估与对比提供基准。
从验证到应用
数据合成流程图
数据 · 研究五
数据合成方法
沿语境维度合成训练数据。
降低对数据量和质量过滤的依赖
语境信息为低质量数据提供了正确的背景,使其重新具有学习价值
构建更稳健的知识表示
通过语境区分知识的时效与适用边界,有助于缓解不同来源间的事实冲突
Q FAQ
Q1 与数据筛选、数据合成等数据工程方法相比,知识语境的独特价值是什么?

数据筛选与数据合成当前是提升预训练数据效能的主流路径,但二者共享一个隐含假设,即数据质量是全局的属性。在该假设下,数据工程的任务是尽可能保留高质量样本、剔除或替换低质量样本。

知识语境挑战的正是这一假设。首先,数据质量本身是一个主观概念,目前缺乏公认的客观评估标准,不同筛选策略对同一样本的判断可能大相径庭。数据筛选在训练前替模型做出取舍,知识语境则将判断交还给模型:通过显式的语境信号,使模型在不同语境下自动赋予信息不同的权重与时效。由此产生两点实质差异。其一,大量被筛选策略丢弃的数据在正确语境下重新具有学习价值,数据利用率提升。其二,模型获得对知识成立条件的感知,而非仅记忆知识内容。从这个意义上,知识语境与数据工程并非替代关系,而是工作在不同层次:数据工程决定训练什么,知识语境决定如何训练。

Q2 知识语境为什么能带来训练收益?是否可扩展到大规模预训练?

从信息传播的视角看,真实世界中的信息始终在语义与语境两个维度上共同存在:一段文本不仅承载内容本身,也携带其来源、载体、时效与受众等背景条件。当前预训练仅使用了信息在语义维度上的投影,语境维度在数据预处理阶段被舍弃,模型所见的实际上是真实信息的降维表示。知识语境的目标是恢复这一被丢弃的维度,构建更完整、更稳固的世界信息表示,从而提升数据效能。

这一定位决定了知识语境在大规模预训练中的可扩展性。语境维度与语义内容在信息上正交,因此语境带来的增益与架构改进、数据规模增长等已有方向的增益应当是加性的,而非抢占同一份改进空间。此外,语境信息在原始数据中天然存在,包括 URL、时间戳、发布源等,而在当前的数据清洗流程中被当作噪声丢弃。这意味着该方向的数据天花板与互联网本身同步增长,无需依赖人工标注或合成数据。

Q3 大模型在规模化训练中已隐式学到了部分语境信息,显式建模是否仍有必要?

大模型确实能从共现统计中隐式区分部分语境,如学术论文与网络评论的语体差异。但隐式学习存在难以通过 scaling 解决的问题。首先是不可分离,语境信息与语义信息共享同一套参数与注意力容量,二者在学习过程中相互竞争。其次是无法显式处理冲突,当语料中存在相互矛盾的陈述时,隐式学习只能以统计方式折中,难以表达对不同来源可信度的区分。

显式建模的意义不在于扩展模型本来做不到的能力,而在于将混杂于参数中的隐式信号剥离、使其可控。这与人类的信息处理方式一致:人在接收信息时并非仅接收文本内容,而是同时显式感知信息的来源、载体与场景,并据此调整对信息的信任度与解读方式。