系统综述怎么做：2026 实战版完整流程指南

为什么现在还值得做系统综述？

在医学研究中，系统综述（Systematic Review）依然是最稳定、最有方法学价值的研究类型之一。它不是“把文献汇总一下”那么简单，而是围绕一个明确问题，按照预先制定的方案，系统检索、筛选、评价并综合现有证据的过程。做得好的系统综述，能帮助你判断一个问题是否已经有明确答案、现有证据缺口在哪里，以及后续是否值得继续做原始研究或 Meta 分析。

尤其对研究生、临床医生和课题组来说，系统综述有三个现实价值：第一，降低选题试错成本；第二，快速建立领域全景认知；第三，为基金、课题或临床路径提供高等级证据支撑。

开始前先判断：你需要的是系统综述、Meta 分析，还是 Scoping Review？

很多人一上来就说“我要做系统综述”，但其实第一步应该先判断研究目标：

系统综述：适合回答一个清晰、边界明确的问题，例如某干预对某人群的疗效与安全性。
Meta 分析：是在系统综述基础上的定量合并，前提是研究设计、结局指标和数据结构足够可比。
Scoping Review（范围综述）：适合探索一个领域目前有哪些研究主题、证据类型和方法学分布，尤其适用于新兴领域或问题边界尚不清晰时。

如果你的问题还很散、纳入研究类型很多、结局定义也不统一，先做范围综述往往比硬做 Meta 分析更合理。

第一步：把研究问题收紧到可执行范围

系统综述最常见的失败，不是因为不会检索，而是研究问题太大。推荐优先用 PICO 框架来收紧问题：

P（Population）：研究对象是谁？
I（Intervention / Exposure）：关注什么干预或暴露？
C（Comparison）：和什么比较？
O（Outcome）：核心结局是什么？

例如“GLP-1 受体激动剂是否有效”太宽；而“GLP-1 受体激动剂相较安慰剂，是否降低 2 型糖尿病成人患者的主要心血管不良事件”就已经是可执行的问题。

如果你的综述不是干预类，也可以用 PECO、SPIDER 等框架。重点不在于套哪个缩写，而在于把问题写到别人看到就能知道纳什么、不纳什么。

第二步：先写 protocol，再开始检索

很多新手会直接进 PubMed 搜文献，但规范流程应该是先写 protocol。一个合格的 protocol 至少要明确：

研究问题与研究目的
纳入/排除标准
检索数据库与检索时间范围
筛选流程和分歧处理方式
数据提取字段
偏倚风险评估工具
是否计划做 Meta 分析、亚组分析、敏感性分析

如果条件允许，建议在 PROSPERO 注册。注册的价值不只是“好看”，而是防止中途因为结果不理想而随意改纳排标准，也方便后来投稿时向审稿人证明你的方法是预先设定的。

第三步：检索策略决定你最后的证据质量

系统综述的检索不是“搜到几篇代表文献就差不多了”。你需要做的是尽可能完整、可复现地捕获相关研究。常见数据库包括：

PubMed / MEDLINE：医学基础检索入口
Embase：药物、欧洲期刊覆盖更全
Cochrane Library：高质量系统综述与试验数据库
Web of Science / Scopus：适合引文补充
CNKI / 万方：如果涉及中文研究，应考虑纳入

检索式通常要结合 主题词（如 MeSH / Emtree）+ 自由词 + 布尔逻辑。建议保留每个数据库的完整检索式，并记录最后检索日期。真正规范的综述，别人应该能根据你的附录把检索完全复现出来。

此外，不要忘了灰色文献、试验注册平台和参考文献回溯。有些领域如果只检索正式期刊论文，很容易产生发表偏倚。

第四步：文献筛选要按 PRISMA 2020 走，不要一个人拍脑袋定

标准做法是两轮筛选：

标题/摘要筛选：快速去掉明显不相关文献
全文筛选：根据 protocol 逐条判断是否纳入

最好由 两名研究者独立筛选，并记录分歧解决机制。最终结果要能画出 PRISMA 2020 流程图，清楚展示检索、去重、初筛、全文评估和最终纳入数量。

一个常见错误是“全文看着不太合适就排了”，却没有保留排除理由。投稿时这是很容易被审稿人质疑的地方。

第五步：数据提取不要只抄结果表，要先设计数据字典

系统综述的数据提取不是简单复制文章中的结果。建议先做一个标准化表格，至少包含：

研究基本信息：作者、年份、国家、研究设计
样本信息：样本量、年龄、性别、疾病特征
干预/暴露与对照定义
结局指标的定义、测量时间点和统计形式
偏倚风险相关信息
用于 Meta 分析的原始数字（事件数、均值、标准差、HR、OR、RR 等）

如果不同研究的结局定义不一致，要在提取阶段就标清楚。很多后面做不成 Meta 分析，不是统计不会，而是前面没有把数据结构问题看清楚。

第六步：偏倚风险评估和证据质量评价不能省

高质量系统综述至少要回答两个问题：单篇研究靠不靠谱，以及整组证据有多可信。

RoB 2：适合随机对照试验
ROBINS-I：适合非随机干预研究
NOS：常用于队列研究、病例对照研究
QUADAS-2：适合诊断准确性研究

完成单篇研究层面的偏倚风险评估后，再用 GRADE 评价整体证据确定性。GRADE 不只是“附送一个表格”，它决定你最后能否有底气说“证据支持”“证据有限”还是“证据非常不确定”。

第七步：什么时候适合做 Meta 分析？

不是所有系统综述都必须合并。以下情况更适合做 Meta 分析：

研究问题足够一致
人群、干预、对照、结局差异在可接受范围内
能提取出可比较的效应量
研究数量和质量达到基本要求

如果异质性很高，也不意味着完全不能合并，但你需要说明为什么合并仍然合理，并配套做：

I² / Q 检验 评估异质性
亚组分析 探索异质性来源
敏感性分析 检查结果稳健性
发表偏倚检测（如漏斗图、Egger 检验）

真正危险的不是“异质性高”，而是明明差异很大还强行合并，然后给出一个看起来很精确的结论。

第八步：写作时别只讲结果，要把方法写到可审计

系统综述投稿时，最容易被打回来的问题通常不在结果，而在方法写得不够清楚。你至少要让审稿人能快速确认：

研究问题是否清晰
protocol 是否预先设定
检索是否全面、可复现
筛选流程是否规范
偏倚风险和 GRADE 是否完整
Meta 分析方法是否与数据结构匹配

因此写作时请把 PRISMA 2020 清单 当成硬约束，而不是写完后才回头补。

最常见的 6 个坑

问题太大：纳入标准写得像“凡是相关都收”，最后根本控不住范围。
没有 protocol：做到一半临时改标准，自己都说不清为什么这么改。
检索不完整：只查一个数据库，或者没保留完整检索式。
筛选和提取没有双人独立：主观偏差大，审稿风险高。
偏倚风险评估流于形式：只给结论，不解释依据。
AI 用得太激进：让 AI 直接替你判纳排、判 RoB，却没有人工核查。

AI 可以加速流程，但不能替你负责方法学

现在很多团队已经开始用 AI 做检索扩展、标题摘要预筛、数据提取草稿甚至偏倚风险初判。这些都能显著节省时间，尤其在候选文献很多的时候。但边界要讲清楚：AI 可以做预处理，最终判断必须由研究者完成。

更现实的工作方式是：

用 AI 帮你生成初版检索式和筛选表
用 AI 做标题摘要预筛和信息抽取草稿
由研究者复核纳排、关键数据和偏倚风险
最后再做方法学一致性检查

这样才能真正做到“提速”而不是“放大错误”。

给准备开做的人一份最小检查清单

✅ 问题是否已经收紧到可执行范围？
✅ protocol 是否写好，是否考虑 PROSPERO 注册？
✅ 检索数据库是否足够全，检索式是否可复现？
✅ 是否安排双人独立筛选和数据提取？
✅ 偏倚风险工具和 GRADE 是否提前选定？
✅ 如果准备做 Meta 分析，效应量和异质性处理方案是否明确？

研航能帮你做什么？

如果你还在系统综述的早期阶段，研航可以帮助你更快完成三件事：收紧问题、预检索相关文献、提前识别重复研究和设计风险。这并不能代替正式的系统综述流程，但能帮你在真正投入数周到数月之前，先判断这个方向值不值得做、难点在哪、哪里最容易踩坑。

想先验证你的系统综述方向是否值得做？可以先用研航做一次研究方向评估，再决定是否进入正式 protocol 和检索阶段。