李煜东（Yudong Li）

助理研究员 · 清华大学电子工程系

我本科毕业于中南大学，博士毕业于深圳大学。我的主要研究方向为大模型预训练，包括预训练方法、数据工程与合成数据。当前聚焦于 知识语境（Knowledge Context）：探索如何将语境信息引入预训练过程，使模型在学习知识的同时感知知识成立的条件，从而提升预训练数据效能。

我围绕模型框架、训练方法与测评数据开展了许多工作，是 UER-py、TencentPretrain、Linly、CLUE Benchmark、CSL 等开源项目的核心作者。

我正在为知识语境系列研究寻找学术界和工业界的合作伙伴，欢迎联系。

代表工作

完整列表见 Google Scholar。

ACL 2023

TencentPretrain: A Scalable and Flexible Toolkit for Pre-training Models of Different Modalities

Zhe Zhao, Yudong Li, Cheng Hou, Jing Zhao, Rong Tian, Weijie Liu, Yiren Chen, Ningyuan Sun, Haoyan Liu, et al.

Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (ACL 2023)

COLING 2022

CSL: A Large-scale Chinese Scientific Literature Dataset

Yudong Li, Yuqing Zhang, Zhe Zhao, Linlin Shen, Weijie Liu, Weiquan Mao, Hui Zhang

Proceedings of the 29th International Conference on Computational Linguistics (COLING 2022)

COLING 2020

CLUE: A Chinese Language Understanding Evaluation Benchmark

Liang Xu, Hai Hu, Xuanwei Zhang, Lu Li, Chenjie Cao, Yudong Li, Yechen Xu, et al.

Proceedings of the 28th International Conference on Computational Linguistics (COLING 2020)

Oral ACM MM 2024

FLIP-80M: 80 Million Visual-Linguistic Pairs for Facial Language-Image Pre-Training

Yudong Li, Xianxu Hou, Zheng Dezhi, Linlin Shen, Zhe Zhao

Proceedings of the 32nd ACM International Conference on Multimedia (ACM MM 2024)

PDF
Code

ICASSP 2024

Dynamic Data Sampler for Cross-Language Transfer Learning in Large Language Models

Yudong Li, Yuhao Feng, Wen Zhou, Zhe Zhao, Linlin Shen, Cheng Hou, Xianxu Hou

2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2024)

Oral AAAI 2026

OncoCoT: A Temporal-causal Chain-of-Thought Dataset for Oncologic Decision-Making

Peiru Yang, Yudong Li, Shiting Wang, Xinyi Liu, Haotian Gan, Xintian Li, Qingyu Gao, Yongfeng Huang

Proceedings of the AAAI Conference on Artificial Intelligence (AAAI 2026)

ACM MM 2022

Talk2Face: A Unified Sequence-based Framework for Diverse Face Generation and Analysis Tasks

Yudong Li, Xianxu Hou, Zhe Zhao, Linlin Shen, Xuefeng Yang, Kimmo Yan

Proceedings of the 30th ACM International Conference on Multimedia (ACM MM 2022)

ACL 2026

KoCo: Conditioning Language Model Pre-training on Knowledge Coordinates

Yudong Li, Jiawei Cai, Linlin Shen

The 64th Annual Meeting of the Association for Computational Linguistics (ACL 2026)

1 观察

在现实世界中，文本信息由语义和语境两个维度构成。语义对应文本传达的具体内容，语境则描述这段内容产生的背景条件，包括由谁发布、通过什么载体传播、在多长时间内有效。同一条知识在不同语境下，其可信度、适用范围和时效性可能完全不同。

语义 Semantics

牛顿第二定律 F = ma，物体所受合力等于其质量与加速度的乘积

语境 Context

源人民教育出版社载体教科书时效长期有效

语义 Semantics

小米发布新款手机，搭载新一代骁龙处理器，售价 3999 元起

语境 Context

源新浪微博载体社交媒体时效短期

语义 Semantics

北京市气象台发布大雪预警，预计降雪量 10mm 以上，请注意出行安全

语境 Context

源北京气象台载体新闻时效数日

语境对信息的重要性在语言学中已有成熟的理论支撑。Halliday 的语域理论（Register Theory）指出，语言的使用随情景语境而变化，而情景语境可以通过三个维度来刻画：语场（Field，话题与活动类型）、语旨（Tenor，参与者之间的关系）、语式（Mode，语言传播的渠道与媒介）。这意味着即使语义内容相同，不同的语场、语旨、语式组合会产生不同的语域，进而改变文本的功能和解读方式。知识语境可以看作语域理论在预训练场景中的一种操作化实现，将语境从语言学概念转化为可以被模型编码的结构化信号。

Halliday, M.A.K. (1978). Language as Social Semiotic. London: Edward Arnold.

语场 Field → 内容形态

语旨 Tenor → 来源权威性

语式 Mode → 传播载体

2 科学问题与研究目标

当前预训练将语料处理为纯文本序列，模型仅获取信息在语义的投影。信息来源、载体、时效等语境信息在预处理阶段被抛弃。我们希望建立有效的语境表征方法，从而构建语境-语义联合表示，使模型在预训练阶段即可显式感知每条知识的语境属性，从而界定知识的适用边界与可信层级。

缩小模型与人类在信息获取方式上的差异

人类在理解信息时，自然地将内容与其产生的语境关联判读
预训练过程应当保留数据中固有的语境结构

当前做法

语义序列建模

不同来源的文档被拼接为统一的 token 序列，模型在训练过程中无法区分各段文本所处的语境

牛顿定律 [SEP] 手机发布会 [SEP] 北京天气预报 …

语境信息未参与建模

研究目标

语境-语义联合表征

建立语境-语义联合表征输入模型，使输入信息同时包含语义和语境信号

牛顿定律 [SEP] 手机发布会 [SEP] 北京天气预报 …

建立语境-语义联合表征输入模型，使输入信息同时包含语义和语境信号

3 研究路线

围绕上述目标，我们从模型和数据两个方向展开了一系列研究。

模型视角

数据视角

模型 · 研究一

KoCo: Conditioning Language Model Pre-training on Knowledge Coordinates ACL 2026

作为初步验证知识语境的可行性，KoCo提出知识语境坐标，将将语料通过三个分类器映射到来源、形态、稳定性构成的离散坐标空间，将坐标编码为文本标签并以前缀形式拼接到文档前输入模型。实验表明，即便是粗粒度的离散语境信号，也能带来可观测的收敛加速和性能提升，初步证实了语境建模的可行性。

从外部标注到自监督

模型 · 研究二

CKE

消除Koco对外部分类器的依赖，构建自监督的语境建模方法，从而建立连续的语境表征，与语义表征联合建模，进一步提升下游任务表现。

机理分析

模型 · 研究三

语境增益的机制分析与理论归因

分析语境信号对表征空间的具体影响，验证语境收益随模型规模和数据量的可扩展性。

数据 · 研究四

KnowDiv数据集

构建同一知识在不同语境下的多样性表达数据集，为语境维度的评估与对比提供基准。

从验证到应用

数据 · 研究五

数据合成方法

沿语境维度合成训练数据。

降低对数据量和质量过滤的依赖

语境信息为低质量数据提供了正确的背景，使其重新具有学习价值

构建更稳健的知识表示

通过语境区分知识的时效与适用边界，有助于缓解不同来源间的事实冲突

Q FAQ

Q1 与数据筛选、数据合成等数据工程方法相比，知识语境的独特价值是什么？

数据筛选与数据合成当前是提升预训练数据效能的主流路径，但二者共享一个隐含假设，即数据质量是全局的属性。在该假设下，数据工程的任务是尽可能保留高质量样本、剔除或替换低质量样本。

知识语境挑战的正是这一假设。首先，数据质量本身是一个主观概念，目前缺乏公认的客观评估标准，不同筛选策略对同一样本的判断可能大相径庭。数据筛选在训练前替模型做出取舍，知识语境则将判断交还给模型：通过显式的语境信号，使模型在不同语境下自动赋予信息不同的权重与时效。由此产生两点实质差异。其一，大量被筛选策略丢弃的数据在正确语境下重新具有学习价值，数据利用率提升。其二，模型获得对知识成立条件的感知，而非仅记忆知识内容。从这个意义上，知识语境与数据工程并非替代关系，而是工作在不同层次：数据工程决定训练什么，知识语境决定如何训练。

Q2 知识语境为什么能带来训练收益？是否可扩展到大规模预训练？

从信息传播的视角看，真实世界中的信息始终在语义与语境两个维度上共同存在：一段文本不仅承载内容本身，也携带其来源、载体、时效与受众等背景条件。当前预训练仅使用了信息在语义维度上的投影，语境维度在数据预处理阶段被舍弃，模型所见的实际上是真实信息的降维表示。知识语境的目标是恢复这一被丢弃的维度，构建更完整、更稳固的世界信息表示，从而提升数据效能。

这一定位决定了知识语境在大规模预训练中的可扩展性。语境维度与语义内容在信息上正交，因此语境带来的增益与架构改进、数据规模增长等已有方向的增益应当是加性的，而非抢占同一份改进空间。此外，语境信息在原始数据中天然存在，包括 URL、时间戳、发布源等，而在当前的数据清洗流程中被当作噪声丢弃。这意味着该方向的数据天花板与互联网本身同步增长，无需依赖人工标注或合成数据。

Q3 大模型在规模化训练中已隐式学到了部分语境信息，显式建模是否仍有必要？

大模型确实能从共现统计中隐式区分部分语境，如学术论文与网络评论的语体差异。但隐式学习存在难以通过 scaling 解决的问题。首先是不可分离，语境信息与语义信息共享同一套参数与注意力容量，二者在学习过程中相互竞争。其次是无法显式处理冲突，当语料中存在相互矛盾的陈述时，隐式学习只能以统计方式折中，难以表达对不同来源可信度的区分。

显式建模的意义不在于扩展模型本来做不到的能力，而在于将混杂于参数中的隐式信号剥离、使其可控。这与人类的信息处理方式一致：人在接收信息时并非仅接收文本内容，而是同时显式感知信息的来源、载体与场景，并据此调整对信息的信任度与解读方式。

李煜东（Yudong Li）

代表工作

将知识语境引入大模型预训练