歡迎使用 Meta-Analysis Calculator
本指南將協助您快速掌握計算機的各項功能
快速開始
基本操作流程
- 選擇功能模組:點擊上方導航標籤選擇所需的計算功能
- 輸入數據:在對應欄位填入您的研究數據
- 執行計算:點擊「計算」按鈕獲得結果
- 查看結果:結果會顯示在綠色背景的結果框中
- 查看公式:點擊「查看公式」了解計算原理
功能模組概覽
單組內統計轉換
處理單一組別的統計數據轉換,如 SE↔SD、CI→Mean/SD、次序統計轉換等
兩組比較效果量
計算實驗組與對照組的比較指標,包括 MD、SMD、OR、RR、RD 等
CI/SE 互轉
各種效果量的信賴區間、標準誤、Z/t值相互轉換
使用建議
數據準備
- 確保數據單位一致
- 檢查樣本數是否正確
- 注意標準差vs標準誤的區別
常見錯誤
- 混淆 SD 和 SE
- 錯誤的信賴區間水準
- 零事件未進行修正
結果解讀
- 檢查 95% CI 是否包含 0(或1)
- 注意效果量大小的臨床意義
- 考慮樣本大小對精確度的影響
單組內與描述統計轉換
提供 SE、CI、次序統計等與 Mean、SD 間的轉換
何時使用此模組?
典型應用場景:
- 文獻報告不完整:只提供 SE 而需要 SD 進行 meta-analysis
- 報告格式不一:有些研究報告 95% CI,有些報告 Mean±SD
- 只有中位數資料:文獻只報告中位數、四分位距或範圍
- 合併多組數據:需要計算 pooled SD 或變化量 SD
實際範例:
SE → SD
CI → Mean & SD
次序統計 → Mean & SD
Median & Range → Mean & SD
Pooled SD
Change Score SD
兩組比較與效果量
計算 MD、SMD、OR、RR、HR 等效果量及信賴區間
何時使用此模組?
典型應用場景:
- 連續型變項比較:比較實驗組與對照組的平均值差異(血壓、體重、疼痛分數等)
- 二分型結果比較:計算事件發生率的差異(死亡率、治癒率、不良事件等)
- 不同單位的整合:使用 SMD 標準化不同量表的測量結果
- 森林圖準備:為 meta-analysis 森林圖準備效果量數據
選擇建議:
Mean Difference (MD)
Standardized Mean Difference (SMD)
Binary Outcomes (OR/RR/RD)
信賴區間與標準誤互轉
各種效果量的 CI、SE、Z/t 值互相換算
何時使用此模組?
典型應用場景:
- 格式統一需求:某些研究報告 CI,某些報告 SE,需要統一格式
- 軟體輸入要求:meta-analysis 軟體要求特定格式(如 RevMan 需要 SE)
- 精確度評估:從 CI 寬度了解研究的精確度
- 異質性分析:比較不同研究的變異程度
常見轉換情境:
Effect Size ↔ CI ↔ SE
- 至少填寫 2 個已知項目,系統會自動計算其他數值
- 可填組合:ES + CI、ES + SE、CI 上下界等
- 留空不知道的欄位即可
風險偏差評估工具 (Risk of Bias 2.0)
基於 Cochrane RoB 2.0 標準的互動式偏差風險評估系統
RoB 2.0 工具介紹
Risk of Bias 2.0 (RoB 2.0) 是 Cochrane 於 2019 年發布的修訂版偏差風險評估工具,專門用於評估隨機對照試驗 (RCT) 中特定結果的方法學品質。這是系統性文獻回顧中評估證據品質的關鍵步驟。
針對特定結果進行評估,同一研究中不同結果可能有不同的風險評級
系統性評估隨機化、介入偏離、缺失數據、測量方法、選擇性報告
透過標準化信號問題 (Signalling Questions) 進行客觀、系統性評估
工具內嵌算法根據信號問題答案提供偏差風險判斷建議
偏差風險判斷標準
試驗的判斷結果可能存在偏差,但可信度高。需要有明確證據支持方法學的適當性。
試驗在某些方面存在疑慮,但不足以達到高風險。這是不確定時的保守選擇。
試驗在一個或多個領域存在高偏差風險,結果的可信度明顯降低。若任一領域評為高風險,整體判斷即為高風險。
兩種評估路徑
RoB 2.0 根據研究目的提供兩種評估路徑,這會影響「領域二:偏離預期介入」的評估方式:
五個偏差風險領域詳解
隨機化過程偏差
Bias arising from the randomization process
評估隨機分配過程是否能確保各組間的可比性:
- 隨機序列產生:分配序列是否真正隨機?(電腦生成、隨機數表等)
- 分配隱藏:分配序列是否在納入前對研究人員隱藏?(中央隨機、密封信封等)
- 基線差異:各組基線特徵是否相似?明顯差異可能暗示隨機化問題
偏離預定介入偏差
Bias due to deviations from intended interventions
評估實際接受的介入是否與分配的介入一致:
- 盲法狀態:參與者、照護者、研究人員是否知道分組情況?
- 介入偏離:是否發生因知道分組而產生的額外介入或行為改變?
- 分析方法:是否採用適當的分析方法(ITT 或 PP)?
結果數據缺失偏差
Bias due to missing outcome data
評估結果數據的完整性及缺失對結果的影響:
- 數據完整性:結果數據是否對所有(或幾乎所有)參與者可得?
- 缺失原因:缺失是否與真實結果相關?(非隨機缺失更令人擔憂)
- 處理方法:是否使用敏感度分析評估缺失數據的影響?
結果測量偏差
Bias in measurement of the outcome
評估結果測量方法的適當性與客觀性:
- 測量方法:測量方法是否有效且適當?
- 組間差異:各組的測量方法或時間點是否一致?
- 評估者盲法:結果評估者是否知道分組情況?知情是否影響評估?
選擇性報告偏差
Bias in selection of the reported result
評估報告的結果是否經過選擇性篩選:
- 預先註冊:分析是否按照預先指定的計劃進行?(試驗註冊、統計分析計劃)
- 結果選擇:報告的結果是否從多個測量方式、時間點、分析方法中挑選?
- 選擇依據:結果的選擇是否基於統計顯著性或效果方向?
評估要訣
基於研究的方法學描述進行判斷,而非結果或結論
判定為「低風險」需要有明確證據支持,而非僅因為沒有提到問題
不確定時選擇「有些疑慮」較為保守,避免高估證據品質
在判斷理由中詳細記錄評估依據,增加評估透明度與可重複性
建議由兩位評估者獨立評估後討論,達成一致意見以減少主觀偏差
在正式評估前進行校準練習,確保評估者之間的一致性
GRADE 證據品質評估
系統性評估證據確定性的國際標準方法
什麼是 GRADE?
GRADE (Grading of Recommendations, Assessment, Development and Evaluation) 是由國際 GRADE 工作小組開發的系統性方法,用於評估證據品質並制定健康照護建議。此方法為系統性文獻回顧、健康技術評估及臨床指南提供透明且結構化的評估流程。
高、中、低、極低四個等級反映對效果估計的信心程度
偏差風險、不一致性、間接性、不精確、發表偏差
大效應量、劑量反應關係、殘餘混淆影響
被 Cochrane、WHO、各國指南制定機構廣泛採用
選擇與評估結果重要性
在進行 GRADE 評估之前,必須先確定要評估哪些結果 (Outcomes)。GRADE 強調應選擇以病人為中心的結果,並根據其對決策的重要性進行分級。這是 GRADE 方法的基礎步驟。
以病人為中心的結果 (Patient-Important Outcomes)
期望效果 (Desirable Effects)
- 死亡率降低
- 症狀改善
- 生活品質提升
- 功能狀態改善
- 疾病預防
非期望效果 (Undesirable Effects)
- 不良反應
- 併發症
- 負擔(時間、費用)
- 疼痛或不適
- 生活品質下降
替代結果 vs 臨床結果
臨床結果 (Clinical Outcomes)
直接反映病人健康狀態的結果
- 心肌梗塞發生率
- 中風發生率
- 死亡率
- 住院天數
替代結果 (Surrogate Outcomes)
間接衡量臨床意義的指標
- 血壓數值
- 膽固醇濃度
- 抗體效價
- 腫瘤大小
替代結果與臨床結果之間的關聯性必須經過驗證。若使用未經充分驗證的替代結果,可能需要因「間接性」(Indirectness) 而降低證據品質等級。
四個證據品質等級
高品質 (High)
我們非常有信心,真實效果接近效果估計值
意涵:進一步的研究不太可能改變我們對效果估計的信心
起始點:隨機對照試驗 (RCT)
中品質 (Moderate)
我們對效果估計有中等信心,真實效果可能接近估計值,但也可能有實質差異
意涵:進一步的研究可能對效果估計的信心產生重要影響,並可能改變估計值
低品質 (Low)
我們對效果估計的信心有限,真實效果可能與估計值有實質差異
意涵:進一步的研究很可能對效果估計的信心產生重要影響,且很可能改變估計值
起始點:觀察性研究
極低品質 (Very Low)
我們對效果估計幾乎沒有信心,真實效果很可能與估計值有實質差異
意涵:任何效果估計都非常不確定
GRADE 評估流程
確定初始品質等級
根據研究設計決定起始點:
- 隨機對照試驗 (RCT):從「高」開始
- 觀察性研究:從「低」開始
評估五個降級因素
檢視是否需要因以下原因降級:
- 偏差風險 (Risk of Bias)
- 不一致性 (Inconsistency)
- 間接性 (Indirectness)
- 不精確 (Imprecision)
- 發表偏差 (Publication Bias)
考慮三個升級因素
對觀察性研究,考慮是否可升級:
- 大效應量 (Large Effect)
- 劑量反應關係 (Dose-Response)
- 殘餘混淆影響 (Residual Confounding)
整合得出最終證據品質
綜合所有因素,確定該結果的整體證據確定性等級
五個降級因素詳解
偏差風險 (Risk of Bias / Study Limitations)
研究設計或執行的系統性缺陷
- 隨機化過程:序列產生與分配隱藏是否適當?
- 盲法實施:參與者、研究人員、結果評估者是否設盲?
- 數據完整性:流失率是否可接受?ITT 分析是否執行?
- 選擇性報告:是否報告所有預設結果?
- 其他偏差:是否有提前終止、基線不平衡等問題?
不一致性 (Inconsistency)
跨研究結果的異質性
- 視覺檢查:森林圖中點估計與信賴區間的重疊程度
- I² 統計量:<30% 低度、30-60% 中度、>60% 高度異質性
- Chi² 檢驗:p < 0.10 表示存在顯著異質性
- 臨床意義:即使統計一致,效應大小差異是否有臨床意義?
- 解釋嘗試:是否能透過亞組分析解釋異質性來源?
間接性 (Indirectness)
證據與臨床問題的適用性
- 人群 (Population):研究人群與目標人群特徵不同(如年齡、疾病嚴重度、共病)
- 介入 (Intervention):劑量、給藥途徑、療程與實際應用不同
- 對照 (Comparison):缺乏直接比較(如 A vs 安慰劑 + B vs 安慰劑,而非 A vs B)
- 結果 (Outcome):使用替代指標而非以病人為中心的結果(如抗體效價 vs 實際感染率)
不精確 (Imprecision)
效果估計的隨機誤差
- 信賴區間寬度:95% CI 是否同時包含臨床上重要的益處和傷害?
- 最優資訊量 (OIS):總樣本量是否達到單一適當研究所需的樣本量?
- 事件數:二分結果需至少 300 個事件,連續結果需 400 個參與者
- 臨床決策閾值:CI 是否跨越預設的臨床重要差異閾值?
發表偏差 (Publication Bias)
選擇性發表導致的系統性偏誤
- 漏斗圖 (Funnel Plot):檢查圖形是否對稱,非對稱提示可能存在發表偏差
- 統計檢驗:Egger's test 或 Begg's test(需至少 10 項研究)
- 試驗註冊比對:檢查已註冊但未發表的試驗
- 資助來源:全部由廠商資助的小型研究特別需要警惕
- 研究規模:多個小型研究均為正向結果令人擔憂
三個升級因素(適用於觀察性研究)
升級因素主要適用於觀察性研究。升級前提是研究沒有其他嚴重問題(如偏差風險、不精確等),且通常最多升級至「高」品質。
大效應量 (Large Magnitude of Effect)
效果估計值很大且一致
- 至少 2 項獨立研究顯示一致的大效應
- 沒有嚴重的偏差風險問題
- 信賴區間不跨越 1(即統計顯著)
- 沒有合理的混淆因素可解釋此效應
劑量反應關係 (Dose-Response Gradient)
存在明確的劑量-效應梯度
- 暴露量與效應之間存在明確的梯度關係
- 較高劑量/暴露 → 較大效應(或較低效應,取決於方向)
- 這種關係在生物學上合理
- 劑量反應關係不能被混淆因素解釋
- 存在可信的劑量反應梯度
- 通常升一級(因殘餘混淆仍可能存在)
- 若同時具有大效應量,可考慮升兩級
殘餘混淆影響 (Plausible Residual Confounding)
混淆因素應減弱但效應仍明顯
- 情況一:所有合理的混淆因素應減弱效應 → 但效應仍然顯著 → 真實效應可能更大
- 情況二:所有合理的混淆因素應產生虛假效應 → 但未觀察到效應 → 增加對「無效應」結論的信心
- 能清楚識別混淆因素的預期影響方向
- 觀察到的效應與混淆預期方向相反
- 通常升一級
GRADE 評估快速參考表
| 因素 | 評估問題 | 降/升一級 | 降/升兩級 |
|---|---|---|---|
| 偏差風險 | 研究設計或執行是否有缺陷? | 嚴重限制 | 非常嚴重限制 |
| 不一致性 | 研究間結果是否有顯著差異? | I² 50-75%;方向一致 | I² >75%;方向相反 |
| 間接性 | 證據是否直接適用於目標問題? | 單一面向中度間接 | 多面向嚴重間接 |
| 不精確 | 效果估計是否足夠精確? | CI 寬;跨越決策閾值 | CI 極寬;樣本極小 |
| 發表偏差 | 是否懷疑選擇性發表? | 強烈懷疑 | (通常最多降一級) |
| 大效應量 | 效應是否大到難以被偏差解釋? | RR >2 或 <0.5 | RR >5 或 <0.2 |
| 劑量反應 | 是否存在劑量-效應梯度? | 可信的梯度關係 | (合併大效應可升兩級) |
| 殘餘混淆 | 混淆應減弱效應但效應仍明顯? | 效應與混淆方向相反 | — |
Meta-Analysis 基本概念
了解統合分析的核心概念與統計方法
統計模型選擇決策 (Cochrane 建議)
步驟 1:評估研究特性
- 研究人群是否相似?
- 介入措施是否一致?
- 研究設計是否相似?
- 研究品質如何?
步驟 2:計算異質性指標
計算 I²、τ²、Q 檢定統計量
情境 A
- 研究相似度高
- I² < 40%
- Q 檢定不顯著
- 效果方向一致
Fixed Effect Model
情境 B
- 研究存在差異
- 40% < I² < 75%
- 可解釋的異質性
+ 次群組分析
情境 C
- I² > 75%
- 效果方向不一致
- 研究差異極大
敘述性回顧
固定效應模型 (Fixed Effect Model)
基本假設
- 所有研究估計相同的真實效應
- 研究間的差異僅來自抽樣誤差
- 存在單一的真實效應值
適用情境
- 研究對象同質性高
- 研究設計相似
- I² < 40% 或 Q 檢定不顯著
- 研究數量較少 (< 5個)
權重計算
權重 wi = 1 / SEi²
權重與研究精確度成正比
優缺點
- 統計檢定力較高
- 信賴區間較窄
- 計算簡單直接
- 可能低估不確定性
- 不適用於異質性高的情況
- 推論僅限於納入的研究
依結果變項類型選擇統計方法
連續型變項
最常用方法,基於變異數倒數加權
w = 1/SE²
二分型變項
不需要連續性修正,適合樣本大、事件多
w = (b×c)/n
基於對數轉換,需要零事件處理
適合罕見事件,不需要零事件修正
存活時間變項
基於 log(HR) 及其標準誤
使用觀察到的事件數計算
效果量選擇指南 (Cochrane Chapter 6)
Cochrane 效果量選擇三大原則
一致性 (Consistency)
效果量在不同研究中應該具有相似的臨床意義
- 相同的測量單位
- 相同的效果方向
- 可比較的基線風險
數學特性 (Mathematical Properties)
效果量應具備良好的統計特性以進行統合分析
- 對稱分布特性
- 獨立於基線風險
- 可進行有效加權
可解釋性 (Interpretability)
效果量對臨床醫師和患者應具有直觀的意義
- 臨床意義明確
- 易於溝通和理解
- 便於決策制定
連續變項效果量選擇
Mean Difference (MD)
MD = μ₁ - μ₂✓ 優點:
- 保持原始測量單位
- 臨床解釋直觀
- 便於計算 NNT
✗ 限制:
- 需要相同的測量工具
- 不適用於不同量表
使用時機:
- 所有研究使用相同量表
- 相同的測量單位 (如 mmHg, mg/dL)
- 需要保持臨床意義
Standardized Mean Difference (SMD)
SMD = (μ₁ - μ₂) / σpooled✓ 優點:
- 無單位,可比較不同量表
- 便於跨研究比較
- 適用於異質量表研究
✗ 限制:
- 失去原始單位意義
- 解釋較為抽象
- 需要轉換回臨床意義
使用時機:
- 研究使用不同測量工具
- 相同構念,不同量表
- 需要標準化比較
Cohen 解釋標準:
二分變項效果量選擇
Odds Ratio (OR)
OR = (a/b) / (c/d)Risk Ratio (RR)
RR = [a/(a+b)] / [c/(c+d)]Risk Difference (RD)
RD = [a/(a+b)] - [c/(c+d)]存活分析效果量
Hazard Ratio (HR)
HR = λ₁(t) / λ₂(t)特性與應用:
- 瞬時風險比:任意時點的風險函數比值
- 比例風險假設:假設風險比在時間上恆定
- 處理設限資料:可處理追蹤期間的失訪
- 時間效應:考慮事件發生的時間因素
解釋指引:
效果量轉換與應用
SMD 轉換為 MD
MD = SMD × SD_reference
選擇具有代表性的研究或合併後的標準差作為參考
OR 轉換為 RR
RR = OR / [(1-P₀) + (P₀×OR)]
需要已知對照組的基線風險 P₀
RR/OR 計算 NNT
NNT = 1 / |RD| = 1 / |P₁ - P₀|
需要轉換為絕對風險差異
隨機效應模型 (Random Effects Model)
基本假設
- 每個研究估計不同的真實效應
- 真實效應呈常態分布
- 研究間存在真實變異 (τ²)
適用情境
- 研究對象異質性高
- 研究設計有差異
- I² > 40% 或 Q 檢定顯著
- 想推論到更廣泛的群體
權重計算
權重 wi = 1 / (SEi² + τ²)
τ² = 研究間變異
優缺點
- 考慮研究間變異
- 更保守的估計
- 可推論至更廣群體
- 統計檢定力較低
- 信賴區間較寬
- 需要更多研究數量
τ² (研究間變異) 估計方法
DerSimonian-Laird (DL)
- 最常用方法,計算簡單
- 基於 Q 統計量的矩估計
- 可能低估 τ²,特別是研究數少時
- RevMan 預設方法
Restricted Maximum Likelihood (REML)
- 統計性質較佳,無偏估計
- 考慮自由度修正
- R 套件 metafor 預設方法
- 計算較複雜但更準確
其他方法
- Maximum Likelihood (ML):最大概似估計
- Paule-Mandel:基於 Q 統計量的改良
- Hartung-Knapp:修正標準誤估計
依結果變項類型選擇統計方法
連續型變項
基於變異數倒數加權
w = 1/(SE² + τ²)
二分型變項
傳統隨機效應方法,使用 DL 估計 τ²
基於對數轉換的隨機效應
存活時間變項
基於 log(HR) 的隨機效應分析
森林圖解讀教學 (Forest Plot)
森林圖是 meta-analysis 最重要的視覺化工具,能夠清晰呈現各研究的效果量及其信賴區間,以及統合後的整體效果。
森林圖的組成元素
方塊 (Square)
代表各研究的點估計值(效果量)
方塊大小與研究權重成正比
橫線 (Horizontal Line)
代表 95% 信賴區間 (CI)
線越短表示研究精確度越高
菱形 (Diamond)
代表統合後的整體效果量
菱形寬度表示統合效果的 95% CI
無效果線 (Line of No Effect)
垂直參考線
SMD/MD = 0;OR/RR/HR = 1
森林圖解讀步驟
檢視個別研究分布
- 各研究的效果方向是否一致?
- 是否有明顯的離群值?
- 方塊大小分布(權重分配)是否合理?
評估統計顯著性
- 菱形是否跨越無效果線?
- 跨越 → 無統計顯著差異 (p > 0.05)
- 未跨越 → 有統計顯著差異 (p ≤ 0.05)
評估精確度
- CI 越窄,估計越精確
- 注意 CI 是否過寬而臨床意義不明
- 考慮最佳與最差情境解釋
評估異質性
- 研究 CI 是否有大量重疊?
- 配合 I²、Q 統計量判斷
- 視覺上散布是否過於分散?
常見解讀情境
理想情境
- 所有研究在無效果線同側
- CI 彼此有良好重疊
- 菱形未跨越無效果線
- I² < 40%
→ 強力支持介入效果
需謹慎解讀
- 研究分散在無效果線兩側
- CI 重疊度低
- 菱形接近或跨越無效果線
- I² > 50%
→ 需探討異質性來源
統合可能不適當
- 研究效果方向完全相反
- CI 幾乎無重疊
- I² > 75%
- 臨床/方法學差異過大
→ 考慮不進行統合
解讀注意事項
臨床顯著 ≠ 統計顯著:即使統計上顯著,效果量也可能臨床上不重要
注意對數尺度:OR、RR、HR 使用對數尺度,無效果線在 1 而非 0
小研究效應:小型研究通常 CI 較寬,權重較低
預測區間:除 95% CI 外,也應考慮預測區間 (PI) 了解未來研究可能範圍
異質性評估方法
I² 統計量
計算: I² = 100% × (Q - df) / Q
解釋標準:
- 0-25% 低異質性
- 25-50% 中度異質性
- 50-75% 高異質性
- >75% 非常高異質性
Cochran's Q 檢定
虛無假設: 所有研究效應相同
計算: Q = Σwi(ESi - ESpooled)²
判斷:
p < 0.10 → 拒絕虛無假設
存在顯著異質性
τ² (Tau-squared)
意義: 研究間真實變異量
估計方法:
- DerSimonian-Laird (DL)
- Restricted ML (REML)
- Maximum Likelihood (ML)
τ = 0 時等同固定效應
異質性評估 (Cochrane Handbook Ch.10)
I² 統計量解釋標準
重要提醒 (Cochrane):閾值範圍重疊是刻意設計,因為異質性的重要性取決於:
- 效果量大小與臨床重要性
- 效果方向的一致性
- P 值的強度
異質性統計指標
公式:I² = 100% × (Q-df)/Q
範圍:0% - 100%
單位:與效果量相同
用途:隨機效應模型權重計算
H₀:各研究效果相同
限制:檢定力低,慎用於少數研究
異質性處理決策樹
當發現高度異質性 (I² > 75%) 時,應系統性地評估並處理,而非直接忽略或放棄統合分析。
發現高度異質性 (I² > 75%)
步驟 1:效果方向是否一致?
所有研究都指向同一方向(如都顯示有益)
部分研究顯示有益,部分顯示有害
步驟 2:系統性探索異質性來源
臨床異質性
- 研究人群差異(年齡、嚴重度、共病)
- 介入措施差異(劑量、頻率、時間)
- 對照組差異(安慰劑 vs 主動對照)
- 結果測量差異(追蹤時間、評估工具)
方法學異質性
- 研究設計差異(RCT vs 觀察性)
- 偏差風險差異(高 vs 低風險)
- 盲法設計(雙盲 vs 開放標籤)
- 追蹤完整性(低 vs 高流失率)
統計異質性
- 離群值研究
- 效果量估計方法差異
- 發表偏差影響
- 小研究效應
步驟 3:選擇處理策略
Cochrane 建議
異質性不應視為「問題」,而是反映真實世界研究的多樣性。關鍵是透過事前規劃的分析來「解釋」異質性,而非試圖消除它。報告時應清楚說明異質性的程度、可能原因,以及對結論的影響。
其他重要統計方法
目的:
探索效應修飾因子,了解哪些特徵影響治療效果
執行時機:
- I² > 50% 顯示高異質性
- 事先計劃的假設檢定
- 臨床上有意義的分組
注意事項:
- 避免過度分析 (多重比較問題)
- 確保各組有足夠研究數 (≥ 4)
- 使用交互作用檢定評估差異
目的:
探討研究特徵與效應量的關係
適用條件:
- 研究數量 ≥ 10 個
- 有連續型或類別型協變量
- 想解釋異質性來源
類型:
- 簡單迴歸:單一預測變數
- 多元迴歸:多個預測變數
- 混合效應:結合固定與隨機效應
目的:
評估結果的穩健性,了解特定決策對結論的影響程度
Leave-One-Out 分析 (逐一排除法):
- 執行方式:每次排除一個研究,重新計算整體效應
- 解釋:若排除某研究後效應顯著改變,該研究為「影響力研究」
- 視覺化:可使用 leave-one-out 森林圖呈現
- 軟體:RevMan、R (metafor::leave1out)
影響力分析 (Influence Analysis):
- Cook's Distance:測量單一研究對整體估計的影響
- 外部標準化殘差:識別離群值研究
- DFBETAS:評估各研究對效應估計的影響
- Hat Values:測量研究的槓桿效果
常見敏感性分析策略:
- 偏差風險分層:只納入低風險研究,比較結果差異
- 模型選擇:比較固定效應 vs 隨機效應結果
- 效應量指標:比較 OR vs RR 結果 (二分變項)
- 相關性假設:測試不同相關係數對結果的影響
- 離群值排除:排除統計上的離群研究
- 時間分層:比較早期 vs 近期研究
報告重點:
- 明確說明進行了哪些敏感性分析及其理由
- 比較敏感性分析前後的效應估計值和信賴區間
- 若結果改變,討論可能的原因及對結論的影響
- 結果穩健時需明確說明,增強證據可信度
檢測方法:
- 漏斗圖 (Funnel Plot):以效應量對標準誤作圖,檢查對稱性
- Egger's Test:線性迴歸檢定漏斗圖不對稱性 (需 ≥ 10 研究)
- Begg's Test:使用 Kendall's tau 等級相關檢定
- Trim and Fill:估計並填補可能缺失的研究
- Peters' Test:適用於二分變項的偏差檢測
- Harbord Test:適用於 Odds Ratio 的偏差檢測
判斷標準:
- 漏斗圖:研究點分布不對稱,底部缺少小樣本負向研究
- 統計檢定:p < 0.10 提示可能存在發表偏差
- 失效安全數:需要多少個無效研究才能使結果不顯著
處理方法:
- 調整效應估計值:使用 Trim and Fill 方法調整
- 報告可能的影響:討論偏差對結論的影響程度
- 搜尋灰色文獻:主動尋找會議摘要、論文等未發表資料
- 聯繫研究者:直接詢問是否有未發表的相關研究
注意事項:
- 研究數量少於 10 個時檢定力不足
- 漏斗圖不對稱不一定代表發表偏差
- 也可能因為研究品質差異、異質性等原因造成
基本概念:
網絡統合分析允許同時比較多種介入措施,即使某些介入從未直接比較過
前提假設:
- 傳遞性 (Transitivity):間接比較的有效性
- 一致性 (Consistency):直接與間接證據的一致性
- 同質性:研究間的可比較性
分析方法:
- 頻率學派:使用一般化線性混合模型 (如 netmeta 套件)
- 貝氏方法:使用 MCMC 方法 (如 BUGS, JAGS)
- 圖論方法:基於網絡圖的分析
結果解釋:
- SUCRA 值:治療效果排序的機率
- 排名機率:各介入措施的效果排名
- 一致性檢定:評估網絡的一致性
優點:
- 可同時比較多種介入措施
- 提供治療排名信息
- 最大化利用現有證據
限制:
- 假設條件較嚴格
- 分析複雜度高
- 需要專門軟體
GRADE 證據品質評估系統
GRADE (Grading of Recommendations Assessment, Development and Evaluation) 是國際公認的證據品質評估和建議等級制定系統,廣泛應用於臨床指引制定。
證據品質等級
極高品質 (Very High)
我們對效果估計值非常有信心
真實效果接近估計值的可能性很高
高品質 (High)
我們對效果估計值有信心
真實效果接近估計值的可能性高
中等品質 (Moderate)
我們對效果估計值有中等程度信心
真實效果可能接近估計值,但也可能有顯著差異
低品質 (Low)
我們對效果估計值信心有限
真實效果可能與估計值有重要差異
證據品質調整因子
降級因子 (Downgrade)
風險偏差 (Risk of Bias)
- 隨機序列產生不當
- 分配隱藏不充分
- 盲法措施不完善
- 結果數據不完整
- 選擇性報告
不一致性 (Inconsistency)
- I² > 50-60%
- Chi² 檢定 p < 0.10
- 效果方向不一致
- 信賴區間重疊少
間接性 (Indirectness)
- PICO 差異
- 替代終點指標
- 間接比較
- 次群組分析
不精確性 (Imprecision)
- 樣本數不足
- 信賴區間過寬
- 跨越無效果線
- 事件數過少
發表偏差 (Publication Bias)
- 漏斗圖不對稱
- 統計檢定顯著
- 小研究效應
- 灰色文獻缺失
升級因子 (Upgrade)
大效果 (Large Effect)
- RR > 2 或 < 0.5
- OR > 5 或 < 0.2
- Cohen's d > 0.8
劑量效應關係 (Dose-Response)
- 明確的劑量反應關係
- 生物學機轉合理
- 時間效應關係
殘餘混擾 (Residual Confounding)
- 所有合理的混擾因子都會減弱效果
- 但觀察到的效果仍然顯著
- 主要適用於觀察性研究
GRADE 評估決策流程
步驟 1: 初始等級
步驟 2: 評估降級因子
檢查五個降級因子,每個因子可降級 1-2 級
步驟 3: 評估升級因子
觀察性研究可考慮升級因子
步驟 4: 最終等級
確定最終證據品質等級
PRISMA 2020 流程圖教學
PRISMA 2020(Preferred Reporting Items for Systematic reviews and Meta-Analyses)是系統性文獻回顧報告的國際標準。流程圖用於透明呈現文獻篩選過程,是系統性回顧的必要組成部分。
PRISMA 2020 流程圖四階段
辨識 (Identification)
資料庫搜尋記錄
- PubMed、Embase、Cochrane Library 等
- 記錄各資料庫檢索筆數
其他來源記錄
- 手工搜尋、參考文獻追蹤
- 灰色文獻、專家推薦
篩選 (Screening)
根據納入/排除標準快速篩選
詳細閱讀全文,確認符合標準
納入 (Included)
納入質性合成的研究
所有符合標準的研究
納入量化合成的研究
可進行統合分析的研究子集
PRISMA 2020 更新重點
可納入更新版系統性回顧的先前搜尋結果
可報告使用自動化工具(如 AI)輔助篩選的情況
全文篩選階段需記錄具體排除理由及數量
更新版回顧需區分先前與新納入的研究
流程圖報告要點
- 清楚記錄數字:每個階段的文獻數量必須清楚標示
- 說明排除原因:全文排除需列出具體理由(如:非 RCT、無相關結果等)
- 區分資料來源:明確區分資料庫搜尋與其他來源
- 數字邏輯一致:各階段數字應能追蹤且邏輯一致
- 使用官方模板:建議使用 PRISMA 官方提供的流程圖模板
統計方法基本指引
| 情境 | 建議方法 | 理由 |
|---|---|---|
| 研究數 < 5 | 固定效應模型 | τ² 估計不可靠 |
| I² > 75% | 不建議合併 | 異質性過高,探索原因 |
| 不同研究設計 | 隨機效應 + 次群組 | 分別分析不同設計 |
| 時間跨度大 | 累積統合分析 | 觀察效應隨時間變化 |
| 罕見事件 | Peto OR 或 Mantel-Haenszel | 處理零事件較佳 |
| 網絡統合分析 | 貝氏或頻率學派 NMA | 間接比較多種介入 |
Meta-Analysis 執行檢查清單
分析前檢查
分析中檢查
報告檢查
參考資料與計算依據
本工具所使用的所有公式、參考文獻、網站資源與演算法說明
主要參考文獻
DOI: 10.1177/0962280216669183
DOI: 10.1186/1471-2288-14-135
DOI: 10.1186/1471-2288-5-13
DOI: 10.1002/jrsm.1429
參考網站與資源
統合分析報告與方法學準則
工具資訊
版本: 測試版
開發日期: 2025
開發者: 運動醫學科吳易澄醫師
網站: https://wycswimming.blogspot.com/
適用範圍: 系統性文獻回顧與統合分析
授權: 教學與練習示範