Meta-Analysis Calculator | 統合分析計算機

歡迎使用 Meta-Analysis Calculator

本指南將協助您快速掌握計算機的各項功能

快速開始

基本操作流程

選擇功能模組：點擊上方導航標籤選擇所需的計算功能
輸入數據：在對應欄位填入您的研究數據
執行計算：點擊「計算」按鈕獲得結果
查看結果：結果會顯示在綠色背景的結果框中
查看公式：點擊「查看公式」了解計算原理

功能模組概覽

單組內統計轉換

處理單一組別的統計數據轉換，如 SE↔SD、CI→Mean/SD、次序統計轉換等

使用時機：文獻只報告部分統計值，需要轉換為標準格式進行meta-analysis

兩組比較效果量

計算實驗組與對照組的比較指標，包括 MD、SMD、OR、RR、RD 等

使用時機：進行兩組比較的效果量計算，為森林圖準備數據

CI/SE 互轉

各種效果量的信賴區間、標準誤、Z/t值相互轉換

使用時機：文獻報告格式不一致，需要統一為CI或SE格式

使用建議

數據準備

確保數據單位一致
檢查樣本數是否正確
注意標準差vs標準誤的區別

常見錯誤

混淆 SD 和 SE
錯誤的信賴區間水準
零事件未進行修正

結果解讀

檢查 95% CI 是否包含 0（或1）
注意效果量大小的臨床意義
考慮樣本大小對精確度的影響

單組內與描述統計轉換

提供 SE、CI、次序統計等與 Mean、SD 間的轉換

何時使用此模組？

典型應用場景：

文獻報告不完整：只提供 SE 而需要 SD 進行 meta-analysis
報告格式不一：有些研究報告 95% CI，有些報告 Mean±SD
只有中位數資料：文獻只報告中位數、四分位距或範圍
合併多組數據：需要計算 pooled SD 或變化量 SD

實際範例：

案例1 文獻報告「Mean = 85.3 (SE = 2.5), n = 45」→ 轉換為 SD = 16.77

案例2 文獻報告「Median (IQR): 71.3 (62.5-82.7)」→ 估計 Mean 和 SD

SE → SD

Standard Error (SE):

Sample Size (n):

CI → Mean & SD

Lower CI:

Upper CI:

Confidence Level (%):

Sample Size (n):

Distribution: 自動: n<120 使用 t 分布, n≥120 使用 Z 分布

次序統計 → Mean & SD

Method:

Min:

Q1:

Median:

Q3:

Max:

Sample Size (n):

Median & Range → Mean & SD

專用於 Hozo (2005) 方法：當文獻只報告中位數、最小值、最大值時使用

Minimum (a):

Median (m):

Maximum (b):

Sample Size (n):

Pooled SD

SD1:

n1:

SD2:

n2:

Change Score SD

SD Pre:

SD Post:

Correlation (r):

兩組比較與效果量

計算 MD、SMD、OR、RR、HR 等效果量及信賴區間

何時使用此模組？

典型應用場景：

連續型變項比較：比較實驗組與對照組的平均值差異（血壓、體重、疼痛分數等）
二分型結果比較：計算事件發生率的差異（死亡率、治癒率、不良事件等）
不同單位的整合：使用 SMD 標準化不同量表的測量結果
森林圖準備：為 meta-analysis 森林圖準備效果量數據

選擇建議：

MD vs SMD：相同測量單位用 MD，不同量表或單位用 SMD

OR vs RR：病例對照研究用 OR，隊列研究或 RCT 用 RR

小樣本修正：n < 20 時建議使用 Hedges' g 而非 Cohen's d

Mean Difference (MD)

Group 1 Mean:

Group 1 SD:

Group 1 n:

Group 2 Mean:

Group 2 SD:

Group 2 n:

Standardized Mean Difference (SMD)

Group 1 Mean:

Group 1 SD:

Group 1 n:

Group 2 Mean:

Group 2 SD:

Group 2 n:

Apply Hedges' g small-sample correction

Binary Outcomes (OR/RR/RD)

Group 1 Events:

Group 1 Total:

Group 2 Events:

Group 2 Total:

Zero Event Correction:

信賴區間與標準誤互轉

各種效果量的 CI、SE、Z/t 值互相換算

何時使用此模組？

典型應用場景：

格式統一需求：某些研究報告 CI，某些報告 SE，需要統一格式
軟體輸入要求：meta-analysis 軟體要求特定格式（如 RevMan 需要 SE）
精確度評估：從 CI 寬度了解研究的精確度
異質性分析：比較不同研究的變異程度

常見轉換情境：

情境1 文獻報告 OR = 2.5 (95% CI: 1.2-5.2) → 需要 log(OR) 和 SE

情境2 有 SMD = 0.65, SE = 0.23 → 需要計算 95% CI

情境3 想知道研究的統計檢定力 → 需要 Z 值和 p 值

Effect Size ↔ CI ↔ SE

使用說明

至少填寫 2 個已知項目，系統會自動計算其他數值
可填組合：ES + CI、ES + SE、CI 上下界等
留空不知道的欄位即可

Effect Size Type:

Effect Size:

Lower CI:

Upper CI:

Standard Error:

Confidence Level (%):

風險偏差評估工具 (Risk of Bias 2.0)

基於 Cochrane RoB 2.0 標準的互動式偏差風險評估系統

RoB 2.0 工具介紹

Risk of Bias 2.0 (RoB 2.0) 是 Cochrane 於 2019 年發布的修訂版偏差風險評估工具，專門用於評估隨機對照試驗 (RCT) 中特定結果的方法學品質。這是系統性文獻回顧中評估證據品質的關鍵步驟。

結果導向評估

針對特定結果進行評估，同一研究中不同結果可能有不同的風險評級

五個偏差領域

系統性評估隨機化、介入偏離、缺失數據、測量方法、選擇性報告

信號問題引導

透過標準化信號問題 (Signalling Questions) 進行客觀、系統性評估

內建判斷算法

工具內嵌算法根據信號問題答案提供偏差風險判斷建議

偏差風險判斷標準

低風險 (Low Risk)

試驗的判斷結果可能存在偏差，但可信度高。需要有明確證據支持方法學的適當性。

有些疑慮 (Some Concerns)

試驗在某些方面存在疑慮，但不足以達到高風險。這是不確定時的保守選擇。

高風險 (High Risk)

試驗在一個或多個領域存在高偏差風險，結果的可信度明顯降低。若任一領域評為高風險，整體判斷即為高風險。

兩種評估路徑

RoB 2.0 根據研究目的提供兩種評估路徑，這會影響「領域二：偏離預期介入」的評估方式：

分配效果 (Effect of Assignment)

評估被分配至介入措施的效果（意向治療分析, ITT）—— 研究「如果建議某介入會發生什麼」

依從效果 (Effect of Adhering)

評估依從介入措施的效果（符合方案分析, PP）—— 研究「如果完全依從介入會發生什麼」

官方資源

riskofbias.info - 官方指南與 Excel 工具 Cochrane 學習資源 robvis - 圖表視覺化工具

五個偏差風險領域詳解

隨機化過程偏差

Bias arising from the randomization process

評估隨機分配過程是否能確保各組間的可比性：

隨機序列產生：分配序列是否真正隨機？（電腦生成、隨機數表等）
分配隱藏：分配序列是否在納入前對研究人員隱藏？（中央隨機、密封信封等）
基線差異：各組基線特徵是否相似？明顯差異可能暗示隨機化問題

提示：單純敘述「隨機分配」不足以判斷為低風險，需要描述具體隨機化方法

偏離預定介入偏差

Bias due to deviations from intended interventions

評估實際接受的介入是否與分配的介入一致：

盲法狀態：參與者、照護者、研究人員是否知道分組情況？
介入偏離：是否發生因知道分組而產生的額外介入或行為改變？
分析方法：是否採用適當的分析方法（ITT 或 PP）？

注意：此領域根據評估「分配效果」或「依從效果」有不同的信號問題

結果數據缺失偏差

Bias due to missing outcome data

評估結果數據的完整性及缺失對結果的影響：

數據完整性：結果數據是否對所有（或幾乎所有）參與者可得？
缺失原因：缺失是否與真實結果相關？（非隨機缺失更令人擔憂）
處理方法：是否使用敏感度分析評估缺失數據的影響？

提示：若流失率高且各組不平衡，且流失原因可能與結果相關，則風險較高

結果測量偏差

Bias in measurement of the outcome

評估結果測量方法的適當性與客觀性：

測量方法：測量方法是否有效且適當？
組間差異：各組的測量方法或時間點是否一致？
評估者盲法：結果評估者是否知道分組情況？知情是否影響評估？

提示：客觀結果（如死亡率）較不易受評估者偏見影響；主觀結果需特別注意盲法

選擇性報告偏差

Bias in selection of the reported result

評估報告的結果是否經過選擇性篩選：

預先註冊：分析是否按照預先指定的計劃進行？（試驗註冊、統計分析計劃）
結果選擇：報告的結果是否從多個測量方式、時間點、分析方法中挑選？
選擇依據：結果的選擇是否基於統計顯著性或效果方向？

提示：比較試驗註冊與最終報告，查看是否有未報告的預設結果或新增的結果

評估要訣

仔細閱讀原文

基於研究的方法學描述進行判斷，而非結果或結論

低風險需有證據

判定為「低風險」需要有明確證據支持，而非僅因為沒有提到問題

保守選擇原則

不確定時選擇「有些疑慮」較為保守，避免高估證據品質

詳細記錄理由

在判斷理由中詳細記錄評估依據，增加評估透明度與可重複性

雙人獨立評估

建議由兩位評估者獨立評估後討論，達成一致意見以減少主觀偏差

校準練習

在正式評估前進行校準練習，確保評估者之間的一致性

GRADE 證據品質評估

系統性評估證據確定性的國際標準方法

什麼是 GRADE？

GRADE (Grading of Recommendations, Assessment, Development and Evaluation) 是由國際 GRADE 工作小組開發的系統性方法，用於評估證據品質並制定健康照護建議。此方法為系統性文獻回顧、健康技術評估及臨床指南提供透明且結構化的評估流程。

四個證據等級

高、中、低、極低四個等級反映對效果估計的信心程度

五個降級因素

偏差風險、不一致性、間接性、不精確、發表偏差

三個升級因素

大效應量、劑量反應關係、殘餘混淆影響

國際認可標準

被 Cochrane、WHO、各國指南制定機構廣泛採用

選擇與評估結果重要性

在進行 GRADE 評估之前，必須先確定要評估哪些結果 (Outcomes)。GRADE 強調應選擇以病人為中心的結果，並根據其對決策的重要性進行分級。這是 GRADE 方法的基礎步驟。

結果重要性評分系統 (1-9 分)

GRADE 使用 1-9 分量表來評估每個結果對決策的重要性，並將結果分為三個類別：

7-9 分

關鍵性結果

Critical for Decision-Making

對決策至關重要的結果。這些結果是制定建議的主要考量因素，將用於決定支持建議的整體證據品質。

整體證據品質以所有關鍵性結果中最低的證據品質為準

4-6 分

重要但非關鍵

Important but Not Critical

對決策重要但非關鍵的結果。這些結果應納入證據概況表 (Evidence Profile) 和發現摘要表 (SoF Table)，但不是決定整體證據品質的主要因素。

1-3 分

重要性有限

Limited Importance / Not Important

對決策重要性有限的結果。這些結果通常不納入證據概況表，不應影響建議的制定。

以病人為中心的結果 (Patient-Important Outcomes)

期望效果 (Desirable Effects)

死亡率降低
症狀改善
生活品質提升
功能狀態改善
疾病預防

非期望效果 (Undesirable Effects)

不良反應
併發症
負擔（時間、費用）
疼痛或不適
生活品質下降

重要原則：結果應代表「受益人在決定是否採取特定行動時會權衡的內容」。建議至少包含一項非期望效果。

替代結果 vs 臨床結果

臨床結果 (Clinical Outcomes)

直接反映病人健康狀態的結果

範例：

心肌梗塞發生率
中風發生率
死亡率
住院天數

優先選擇

替代結果 (Surrogate Outcomes)

間接衡量臨床意義的指標

範例：

血壓數值
膽固醇濃度
抗體效價
腫瘤大小

需謹慎使用

使用替代結果的注意事項：

替代結果與臨床結果之間的關聯性必須經過驗證。若使用未經充分驗證的替代結果，可能需要因「間接性」(Indirectness) 而降低證據品質等級。

結果重要性評分流程

列出所有相關結果

在協議開發階段，列出所有可能與臨床問題相關的結果（包括期望與非期望效果）

進行重要性評分

使用修正德爾菲法 (Modified Delphi)，由工作小組成員獨立進行 1-9 分評分

計算與討論

計算平均分與分數範圍，針對差異較大的結果進行討論以達成共識

選擇納入結果

選擇評分最高的 5-7 項結果納入證據審查，確保至少包含一項非期望效果

適時更新

評分可在三個時間點更新：協議開發後、證據檢索後、制定建議時

四個證據品質等級

⊕⊕⊕⊕

高品質 (High)

我們非常有信心，真實效果接近效果估計值

意涵：進一步的研究不太可能改變我們對效果估計的信心

起始點：隨機對照試驗 (RCT)

⊕⊕⊕○

中品質 (Moderate)

我們對效果估計有中等信心，真實效果可能接近估計值，但也可能有實質差異

意涵：進一步的研究可能對效果估計的信心產生重要影響，並可能改變估計值

⊕⊕○○

低品質 (Low)

我們對效果估計的信心有限，真實效果可能與估計值有實質差異

意涵：進一步的研究很可能對效果估計的信心產生重要影響，且很可能改變估計值

起始點：觀察性研究

⊕○○○

極低品質 (Very Low)

我們對效果估計幾乎沒有信心，真實效果很可能與估計值有實質差異

意涵：任何效果估計都非常不確定

GRADE 評估流程

確定初始品質等級

根據研究設計決定起始點：

隨機對照試驗 (RCT)：從「高」開始
觀察性研究：從「低」開始

評估五個降級因素

檢視是否需要因以下原因降級：

偏差風險 (Risk of Bias)
不一致性 (Inconsistency)
間接性 (Indirectness)
不精確 (Imprecision)
發表偏差 (Publication Bias)

考慮三個升級因素

對觀察性研究，考慮是否可升級：

大效應量 (Large Effect)
劑量反應關係 (Dose-Response)
殘餘混淆影響 (Residual Confounding)

整合得出最終證據品質

綜合所有因素，確定該結果的整體證據確定性等級

五個降級因素詳解

偏差風險 (Risk of Bias / Study Limitations)

研究設計或執行的系統性缺陷

定義：研究設計或執行中的缺陷可能導致對干預措施效果的偏誤估計，降低結果的可信度。

評估要點：

隨機化過程：序列產生與分配隱藏是否適當？
盲法實施：參與者、研究人員、結果評估者是否設盲？
數據完整性：流失率是否可接受？ITT 分析是否執行？
選擇性報告：是否報告所有預設結果？
其他偏差：是否有提前終止、基線不平衡等問題？

降一級大多數研究存在重要限制，可能影響結果估計

降兩級大多數研究存在非常嚴重的限制，大幅降低對效果的信心

評估工具：RCT 使用 RoB 2.0，觀察性研究使用 ROBINS-I

不一致性 (Inconsistency)

跨研究結果的異質性

定義：不同研究間的效應估計存在未能解釋的變異，表現為結果方向或大小的顯著差異。

評估要點：

視覺檢查：森林圖中點估計與信賴區間的重疊程度
I² 統計量：<30% 低度、30-60% 中度、>60% 高度異質性
Chi² 檢驗：p < 0.10 表示存在顯著異質性
臨床意義：即使統計一致，效應大小差異是否有臨床意義？
解釋嘗試：是否能透過亞組分析解釋異質性來源？

降一級 I² 較高（50-75%）或信賴區間不完全重疊，但結論方向一致

降兩級 I² 很高（>75%）、結果方向相反、或無法解釋的顯著異質性

提示：只有一項研究時，通常不考慮不一致性（因無法比較）

間接性 (Indirectness)

證據與臨床問題的適用性

定義：現有證據無法直接回答所關注的臨床問題，包括人群、介入、對照或結果與目標問題存在差異。

四個面向的間接性：

人群 (Population)：研究人群與目標人群特徵不同（如年齡、疾病嚴重度、共病）
介入 (Intervention)：劑量、給藥途徑、療程與實際應用不同
對照 (Comparison)：缺乏直接比較（如 A vs 安慰劑 + B vs 安慰劑，而非 A vs B）
結果 (Outcome)：使用替代指標而非以病人為中心的結果（如抗體效價 vs 實際感染率）

降一級單一面向存在中度間接性，或多個面向有輕度間接性

降兩級多個面向存在嚴重間接性，或使用的替代結果缺乏驗證的相關性

提示：間接性評估需要臨床專業判斷，考量差異是否足以影響效果估計

不精確 (Imprecision)

效果估計的隨機誤差

定義：由於樣本量不足或事件數太少導致的隨機誤差，表現為寬廣的信賴區間，無法區分臨床上重要的益處與傷害。

評估要點：

信賴區間寬度：95% CI 是否同時包含臨床上重要的益處和傷害？
最優資訊量 (OIS)：總樣本量是否達到單一適當研究所需的樣本量？
事件數：二分結果需至少 300 個事件，連續結果需 400 個參與者
臨床決策閾值：CI 是否跨越預設的臨床重要差異閾值？

降一級 CI 寬但大致可接受；或 CI 跨越臨床決策閾值但未達 OIS

降兩級 CI 極寬，同時包含重要益處和重要傷害；樣本量極小

提示：即使 p < 0.05，若 CI 很寬仍可能需要降級；反之，若 CI 完全落在重要效應範圍內則不需降級

發表偏差 (Publication Bias)

選擇性發表導致的系統性偏誤

定義：具有正向或顯著結果的研究更容易被發表，導致整體證據對真實效果的系統性高估或低估。

評估要點：

漏斗圖 (Funnel Plot)：檢查圖形是否對稱，非對稱提示可能存在發表偏差
統計檢驗：Egger's test 或 Begg's test（需至少 10 項研究）
試驗註冊比對：檢查已註冊但未發表的試驗
資助來源：全部由廠商資助的小型研究特別需要警惕
研究規模：多個小型研究均為正向結果令人擔憂

降一級強烈懷疑存在發表偏差（通常最多降一級）

注意：發表偏差難以直接證實，GRADE 建議最多降一級；若無法評估則標註為「未檢測」

三個升級因素（適用於觀察性研究）

升級因素主要適用於觀察性研究。升級前提是研究沒有其他嚴重問題（如偏差風險、不精確等），且通常最多升級至「高」品質。

大效應量 (Large Magnitude of Effect)

效果估計值很大且一致

定義：當效應量大到不太可能僅由殘餘混淆或偏差解釋時，可考慮升級。

升級標準：

升一級

RR > 2 或 RR < 0.5

相對風險增加或減少至少 2 倍

升兩級

RR > 5 或 RR < 0.2

相對風險增加或減少至少 5 倍

必要條件：

至少 2 項獨立研究顯示一致的大效應
沒有嚴重的偏差風險問題
信賴區間不跨越 1（即統計顯著）
沒有合理的混淆因素可解釋此效應

劑量反應關係 (Dose-Response Gradient)

存在明確的劑量-效應梯度

定義：當觀察到隨著暴露量（劑量、持續時間、強度）增加，結果發生率呈現系統性變化時，支持因果關係推論。

評估要點：

暴露量與效應之間存在明確的梯度關係
較高劑量/暴露 → 較大效應（或較低效應，取決於方向）
這種關係在生物學上合理
劑量反應關係不能被混淆因素解釋

升級條件：

存在可信的劑量反應梯度
通常升一級（因殘餘混淆仍可能存在）
若同時具有大效應量，可考慮升兩級

殘餘混淆影響 (Plausible Residual Confounding)

混淆因素應減弱但效應仍明顯

定義：當所有合理的殘餘混淆因素的預期方向應該減弱觀察到的效應（或產生虛假效應），但實際上效應仍然明顯時，增加對因果關係的信心。

兩種情況：

情況一：所有合理的混淆因素應減弱效應 → 但效應仍然顯著 → 真實效應可能更大
情況二：所有合理的混淆因素應產生虛假效應 → 但未觀察到效應 → 增加對「無效應」結論的信心

升級條件：

能清楚識別混淆因素的預期影響方向
觀察到的效應與混淆預期方向相反
通常升一級

GRADE 評估快速參考表

因素	評估問題	降/升一級	降/升兩級
偏差風險	研究設計或執行是否有缺陷？	嚴重限制	非常嚴重限制
不一致性	研究間結果是否有顯著差異？	I² 50-75%；方向一致	I² >75%；方向相反
間接性	證據是否直接適用於目標問題？	單一面向中度間接	多面向嚴重間接
不精確	效果估計是否足夠精確？	CI 寬；跨越決策閾值	CI 極寬；樣本極小
發表偏差	是否懷疑選擇性發表？	強烈懷疑	（通常最多降一級）
大效應量	效應是否大到難以被偏差解釋？	RR >2 或 <0.5	RR >5 或 <0.2
劑量反應	是否存在劑量-效應梯度？	可信的梯度關係	（合併大效應可升兩級）
殘餘混淆	混淆應減弱效應但效應仍明顯？	效應與混淆方向相反	—

官方資源與工具

GRADE Working Group 官方網站 GRADEpro GDT - 線上評估工具 GRADE Handbook - 完整指南 CDC ACIP GRADE Handbook Cochrane GRADE 培訓資源

Meta-Analysis 基本概念

了解統合分析的核心概念與統計方法

統計模型選擇決策 (Cochrane 建議)

步驟 1：評估研究特性

研究人群是否相似？
介入措施是否一致？
研究設計是否相似？
研究品質如何？

↓

步驟 2：計算異質性指標

計算 I²、τ²、Q 檢定統計量

↓

情境 A

研究相似度高
I² < 40%
Q 檢定不顯著
效果方向一致

↓

固定效應模型

Fixed Effect Model

情境 B

研究存在差異
40% < I² < 75%
可解釋的異質性

↓

隨機效應模型

+ 次群組分析

情境 C

I² > 75%
效果方向不一致
研究差異極大

↓

考慮不進行統合

敘述性回顧

固定效應模型 (Fixed Effect Model)

基本假設

所有研究估計相同的真實效應
研究間的差異僅來自抽樣誤差
存在單一的真實效應值

適用情境

研究對象同質性高
研究設計相似
I² < 40% 或 Q 檢定不顯著
研究數量較少 (< 5個)

權重計算

權重 w_i = 1 / SE_i²

權重與研究精確度成正比

優缺點

✓ 優點：

統計檢定力較高
信賴區間較窄
計算簡單直接

✗ 缺點：

可能低估不確定性
不適用於異質性高的情況
推論僅限於納入的研究

依結果變項類型選擇統計方法

連續型變項

Inverse Variance (IV)：

最常用方法，基於變異數倒數加權

w = 1/SE²

適用於：Mean Difference (MD)、Standardized MD

二分型變項

Mantel-Haenszel (M-H)：

不需要連續性修正，適合樣本大、事件多

w = (b×c)/n

Inverse Variance (IV)：

基於對數轉換，需要零事件處理

Peto Method：

適合罕見事件，不需要零事件修正

適用於：OR, RR, Risk Difference

存活時間變項

Inverse Variance (IV)：

基於 log(HR) 及其標準誤

觀察事件數法：

使用觀察到的事件數計算

適用於：Hazard Ratio (HR)

效果量選擇指南 (Cochrane Chapter 6)

Cochrane 效果量選擇三大原則

一致性 (Consistency)

效果量在不同研究中應該具有相似的臨床意義

相同的測量單位
相同的效果方向
可比較的基線風險

數學特性 (Mathematical Properties)

效果量應具備良好的統計特性以進行統合分析

對稱分布特性
獨立於基線風險
可進行有效加權

可解釋性 (Interpretability)

效果量對臨床醫師和患者應具有直觀的意義

臨床意義明確
易於溝通和理解
便於決策制定

連續變項效果量選擇

Mean Difference (MD)

MD = μ₁ - μ₂

✓ 優點：

保持原始測量單位
臨床解釋直觀
便於計算 NNT

✗ 限制：

需要相同的測量工具
不適用於不同量表

使用時機：

所有研究使用相同量表
相同的測量單位 (如 mmHg, mg/dL)
需要保持臨床意義

Standardized Mean Difference (SMD)

SMD = (μ₁ - μ₂) / σpooled

✓ 優點：

無單位，可比較不同量表
便於跨研究比較
適用於異質量表研究

✗ 限制：

失去原始單位意義
解釋較為抽象
需要轉換回臨床意義

使用時機：

研究使用不同測量工具
相同構念，不同量表
需要標準化比較

Cohen 解釋標準：

小效果: 0.2 中等效果: 0.5 大效果: 0.8

二分變項效果量選擇

Odds Ratio (OR)

OR = (a/b) / (c/d)

數學特性：對稱性佳，log(OR) 呈常態分布

基線風險：獨立於基線風險（理論上）

適用情境：病例對照研究、低發生率事件

解釋：勝算比，較難直觀理解

Risk Ratio (RR)

RR = [a/(a+b)] / [c/(c+d)]

數學特性：非對稱，log(RR) 呈常態分布

基線風險：受基線風險影響

適用情境：前瞻性研究、隨機對照試驗

解釋：相對風險，臨床解釋直觀

Risk Difference (RD)

RD = [a/(a+b)] - [c/(c+d)]

數學特性：線性，直接加減

基線風險：高度依賴基線風險

適用情境：公共衛生決策、政策制定

解釋：絕對風險差異，可計算 NNT

存活分析效果量

Hazard Ratio (HR)

HR = λ₁(t) / λ₂(t)

特性與應用：

瞬時風險比：任意時點的風險函數比值
比例風險假設：假設風險比在時間上恆定
處理設限資料：可處理追蹤期間的失訪
時間效應：考慮事件發生的時間因素

解釋指引：

HR = 0.5 風險降低 50%

HR = 2.0 風險增加 100%

效果量轉換與應用

SMD 轉換為 MD

MD = SMD × SD_reference

選擇具有代表性的研究或合併後的標準差作為參考

OR 轉換為 RR

RR = OR / [(1-P₀) + (P₀×OR)]

需要已知對照組的基線風險 P₀

RR/OR 計算 NNT

NNT = 1 / |RD| = 1 / |P₁ - P₀|

需要轉換為絕對風險差異

隨機效應模型 (Random Effects Model)

基本假設

每個研究估計不同的真實效應
真實效應呈常態分布
研究間存在真實變異 (τ²)

適用情境

研究對象異質性高
研究設計有差異
I² > 40% 或 Q 檢定顯著
想推論到更廣泛的群體

權重計算

權重 w_i = 1 / (SE_i² + τ²)

τ² = 研究間變異

優缺點

✓ 優點：

考慮研究間變異
更保守的估計
可推論至更廣群體

✗ 缺點：

統計檢定力較低
信賴區間較寬
需要更多研究數量

τ² (研究間變異) 估計方法

DerSimonian-Laird (DL)

最常用方法，計算簡單
基於 Q 統計量的矩估計
可能低估 τ²，特別是研究數少時
RevMan 預設方法

Restricted Maximum Likelihood (REML)

統計性質較佳，無偏估計
考慮自由度修正
R 套件 metafor 預設方法
計算較複雜但更準確

其他方法

Maximum Likelihood (ML)：最大概似估計
Paule-Mandel：基於 Q 統計量的改良
Hartung-Knapp：修正標準誤估計

依結果變項類型選擇統計方法

連續型變項

Inverse Variance (IV)：

基於變異數倒數加權

w = 1/(SE² + τ²)

適用於：MD, SMD，所有研究設計

優點：適用性廣，統計理論完善

二分型變項

DerSimonian-Laird：

傳統隨機效應方法，使用 DL 估計 τ²

Inverse Variance (IV)：

基於對數轉換的隨機效應

注意：Peto 方法不適用於隨機效應

適用於：OR, RR, Risk Difference

存活時間變項

Inverse Variance (IV)：

基於 log(HR) 的隨機效應分析

τ² 估計：使用 REML 或 DL 方法

適用於：Hazard Ratio (HR)

注意：需考慮比例危險假設

森林圖解讀教學 (Forest Plot)

森林圖是 meta-analysis 最重要的視覺化工具，能夠清晰呈現各研究的效果量及其信賴區間，以及統合後的整體效果。

森林圖的組成元素

方塊 (Square)

代表各研究的點估計值（效果量）

方塊大小與研究權重成正比

橫線 (Horizontal Line)

代表 95% 信賴區間 (CI)

線越短表示研究精確度越高

菱形 (Diamond)

代表統合後的整體效果量

菱形寬度表示統合效果的 95% CI

無效果線 (Line of No Effect)

垂直參考線

SMD/MD = 0；OR/RR/HR = 1

森林圖解讀步驟

檢視個別研究分布

各研究的效果方向是否一致？
是否有明顯的離群值？
方塊大小分布（權重分配）是否合理？

評估統計顯著性

菱形是否跨越無效果線？
跨越 → 無統計顯著差異 (p > 0.05)
未跨越 → 有統計顯著差異 (p ≤ 0.05)

評估精確度

CI 越窄，估計越精確
注意 CI 是否過寬而臨床意義不明
考慮最佳與最差情境解釋

評估異質性

研究 CI 是否有大量重疊？
配合 I²、Q 統計量判斷
視覺上散布是否過於分散？

常見解讀情境

理想情境

所有研究在無效果線同側
CI 彼此有良好重疊
菱形未跨越無效果線
I² < 40%

→ 強力支持介入效果

需謹慎解讀

研究分散在無效果線兩側
CI 重疊度低
菱形接近或跨越無效果線
I² > 50%

→ 需探討異質性來源

統合可能不適當

研究效果方向完全相反
CI 幾乎無重疊
I² > 75%
臨床/方法學差異過大

→ 考慮不進行統合

解讀注意事項

臨床顯著 ≠ 統計顯著：即使統計上顯著，效果量也可能臨床上不重要

注意對數尺度：OR、RR、HR 使用對數尺度，無效果線在 1 而非 0

小研究效應：小型研究通常 CI 較寬，權重較低

預測區間：除 95% CI 外，也應考慮預測區間 (PI) 了解未來研究可能範圍

異質性評估方法

I² 統計量

計算： I² = 100% × (Q - df) / Q

解釋標準：

0-25% 低異質性
25-50% 中度異質性
50-75% 高異質性
>75% 非常高異質性

Cochran's Q 檢定

虛無假設： 所有研究效應相同

計算： Q = Σw_i(ES_i - ES_pooled)²

判斷：

p < 0.10 → 拒絕虛無假設

存在顯著異質性

τ² (Tau-squared)

意義： 研究間真實變異量

估計方法：

DerSimonian-Laird (DL)
Restricted ML (REML)
Maximum Likelihood (ML)

τ = 0 時等同固定效應

異質性評估 (Cochrane Handbook Ch.10)

I² 統計量解釋標準

0% - 40%

可能不重要

異質性可能不重要

30% - 60%

中度異質性

代表中等程度的異質性

50% - 90%

substantial 異質性

需要仔細探索原因

75% - 100%

considerable 異質性

不建議進行統合分析

重要提醒 (Cochrane)：閾值範圍重疊是刻意設計，因為異質性的重要性取決於：

效果量大小與臨床重要性
效果方向的一致性
P 值的強度

異質性統計指標

I²

描述：總變異中來自異質性的百分比
公式：I² = 100% × (Q-df)/Q
範圍：0% - 100%

τ²

描述：研究間變異 (Between-study variance)
單位：與效果量相同
用途：隨機效應模型權重計算

描述：Cochran's Q 檢定統計量
H₀：各研究效果相同
限制：檢定力低，慎用於少數研究

異質性處理決策樹

當發現高度異質性 (I² > 75%) 時，應系統性地評估並處理，而非直接忽略或放棄統合分析。

發現高度異質性 (I² > 75%)

步驟 1：效果方向是否一致？

是：方向一致

所有研究都指向同一方向（如都顯示有益）

探索效果量「大小」差異的原因

否：方向不一致

部分研究顯示有益，部分顯示有害

需審慎考慮是否適合統合

步驟 2：系統性探索異質性來源

臨床異質性

研究人群差異（年齡、嚴重度、共病）
介入措施差異（劑量、頻率、時間）
對照組差異（安慰劑 vs 主動對照）
結果測量差異（追蹤時間、評估工具）

方法學異質性

研究設計差異（RCT vs 觀察性）
偏差風險差異（高 vs 低風險）
盲法設計（雙盲 vs 開放標籤）
追蹤完整性（低 vs 高流失率）

統計異質性

離群值研究
效果量估計方法差異
發表偏差影響
小研究效應

步驟 3：選擇處理策略

次群組分析

依預先設定的臨床特徵分組

適用：有明確的分組假設

統合迴歸

探索連續型變項與效果的關係

適用：≥ 10 個研究

敏感性分析

排除離群值或高風險研究

適用：測試結果穩健性

敘述性回顧

不進行量化統合，改為質性描述

適用：異質性無法解釋

Cochrane 建議

異質性不應視為「問題」，而是反映真實世界研究的多樣性。關鍵是透過事前規劃的分析來「解釋」異質性，而非試圖消除它。報告時應清楚說明異質性的程度、可能原因，以及對結論的影響。

其他重要統計方法

次群組分析 (Subgroup Analysis)

目的：

探索效應修飾因子，了解哪些特徵影響治療效果

執行時機：

I² > 50% 顯示高異質性
事先計劃的假設檢定
臨床上有意義的分組

注意事項：

避免過度分析 (多重比較問題)
確保各組有足夠研究數 (≥ 4)
使用交互作用檢定評估差異

統合迴歸 (Meta-Regression)

目的：

探討研究特徵與效應量的關係

適用條件：

研究數量 ≥ 10 個
有連續型或類別型協變量
想解釋異質性來源

類型：

簡單迴歸：單一預測變數
多元迴歸：多個預測變數
混合效應：結合固定與隨機效應

敏感性分析 (Sensitivity Analysis)

目的：

評估結果的穩健性，了解特定決策對結論的影響程度

Leave-One-Out 分析 (逐一排除法)：

執行方式：每次排除一個研究，重新計算整體效應
解釋：若排除某研究後效應顯著改變，該研究為「影響力研究」
視覺化：可使用 leave-one-out 森林圖呈現
軟體：RevMan、R (metafor::leave1out)

影響力分析 (Influence Analysis)：

Cook's Distance：測量單一研究對整體估計的影響
外部標準化殘差：識別離群值研究
DFBETAS：評估各研究對效應估計的影響
Hat Values：測量研究的槓桿效果

常見敏感性分析策略：

偏差風險分層：只納入低風險研究，比較結果差異
模型選擇：比較固定效應 vs 隨機效應結果
效應量指標：比較 OR vs RR 結果 (二分變項)
相關性假設：測試不同相關係數對結果的影響
離群值排除：排除統計上的離群研究
時間分層：比較早期 vs 近期研究

報告重點：

明確說明進行了哪些敏感性分析及其理由
比較敏感性分析前後的效應估計值和信賴區間
若結果改變，討論可能的原因及對結論的影響
結果穩健時需明確說明，增強證據可信度

發表偏差評估 (Publication Bias)

檢測方法：

漏斗圖 (Funnel Plot)：以效應量對標準誤作圖，檢查對稱性
Egger's Test：線性迴歸檢定漏斗圖不對稱性 (需 ≥ 10 研究)
Begg's Test：使用 Kendall's tau 等級相關檢定
Trim and Fill：估計並填補可能缺失的研究
Peters' Test：適用於二分變項的偏差檢測
Harbord Test：適用於 Odds Ratio 的偏差檢測

判斷標準：

漏斗圖：研究點分布不對稱，底部缺少小樣本負向研究
統計檢定：p < 0.10 提示可能存在發表偏差
失效安全數：需要多少個無效研究才能使結果不顯著

處理方法：

調整效應估計值：使用 Trim and Fill 方法調整
報告可能的影響：討論偏差對結論的影響程度
搜尋灰色文獻：主動尋找會議摘要、論文等未發表資料
聯繫研究者：直接詢問是否有未發表的相關研究

注意事項：

研究數量少於 10 個時檢定力不足
漏斗圖不對稱不一定代表發表偏差
也可能因為研究品質差異、異質性等原因造成

網絡統合分析 (Network Meta-Analysis)

基本概念：

網絡統合分析允許同時比較多種介入措施，即使某些介入從未直接比較過

前提假設：

傳遞性 (Transitivity)：間接比較的有效性
一致性 (Consistency)：直接與間接證據的一致性
同質性：研究間的可比較性

分析方法：

頻率學派：使用一般化線性混合模型 (如 netmeta 套件)
貝氏方法：使用 MCMC 方法 (如 BUGS, JAGS)
圖論方法：基於網絡圖的分析

結果解釋：

SUCRA 值：治療效果排序的機率
排名機率：各介入措施的效果排名
一致性檢定：評估網絡的一致性

優點：

可同時比較多種介入措施
提供治療排名信息
最大化利用現有證據

限制：

假設條件較嚴格
分析複雜度高
需要專門軟體

GRADE 證據品質評估系統

GRADE (Grading of Recommendations Assessment, Development and Evaluation) 是國際公認的證據品質評估和建議等級制定系統，廣泛應用於臨床指引制定。

證據品質等級

⊕⊕⊕⊕

極高品質 (Very High)

我們對效果估計值非常有信心

真實效果接近估計值的可能性很高

⊕⊕⊕⊝

高品質 (High)

我們對效果估計值有信心

真實效果接近估計值的可能性高

⊕⊕⊝⊝

中等品質 (Moderate)

我們對效果估計值有中等程度信心

真實效果可能接近估計值，但也可能有顯著差異

⊕⊝⊝⊝

低品質 (Low)

我們對效果估計值信心有限

真實效果可能與估計值有重要差異

證據品質調整因子

降級因子 (Downgrade)

風險偏差 (Risk of Bias)

隨機序列產生不當
分配隱藏不充分
盲法措施不完善
結果數據不完整
選擇性報告

不一致性 (Inconsistency)

I² > 50-60%
Chi² 檢定 p < 0.10
效果方向不一致
信賴區間重疊少

間接性 (Indirectness)

PICO 差異
替代終點指標
間接比較
次群組分析

不精確性 (Imprecision)

樣本數不足
信賴區間過寬
跨越無效果線
事件數過少

發表偏差 (Publication Bias)

漏斗圖不對稱
統計檢定顯著
小研究效應
灰色文獻缺失

升級因子 (Upgrade)

大效果 (Large Effect)

RR > 2 或 < 0.5
OR > 5 或 < 0.2
Cohen's d > 0.8

劑量效應關係 (Dose-Response)

明確的劑量反應關係
生物學機轉合理
時間效應關係

殘餘混擾 (Residual Confounding)

所有合理的混擾因子都會減弱效果
但觀察到的效果仍然顯著
主要適用於觀察性研究

GRADE 評估決策流程

步驟 1: 初始等級

隨機對照試驗 (RCT) ⊕⊕⊕⊕

觀察性研究 ⊕⊕⊝⊝

↓

步驟 2: 評估降級因子

檢查五個降級因子，每個因子可降級 1-2 級

↓

步驟 3: 評估升級因子

觀察性研究可考慮升級因子

↓

步驟 4: 最終等級

確定最終證據品質等級

PRISMA 2020 流程圖教學

PRISMA 2020（Preferred Reporting Items for Systematic reviews and Meta-Analyses）是系統性文獻回顧報告的國際標準。流程圖用於透明呈現文獻篩選過程，是系統性回顧的必要組成部分。

PRISMA 2020 流程圖四階段

辨識 (Identification)

資料庫搜尋記錄

PubMed、Embase、Cochrane Library 等
記錄各資料庫檢索筆數

其他來源記錄

手工搜尋、參考文獻追蹤
灰色文獻、專家推薦

合併後移除重複文獻

篩選 (Screening)

標題/摘要篩選

根據納入/排除標準快速篩選

記錄排除數量

全文評估

詳細閱讀全文，確認符合標準

記錄排除原因

納入 (Included)

納入質性合成的研究

所有符合標準的研究

納入量化合成的研究

可進行統合分析的研究子集

PRISMA 2020 更新重點

新增「之前研究」選項

可納入更新版系統性回顧的先前搜尋結果

自動化工具整合

可報告使用自動化工具（如 AI）輔助篩選的情況

詳細排除原因

全文篩選階段需記錄具體排除理由及數量

區分新舊研究

更新版回顧需區分先前與新納入的研究

流程圖報告要點

清楚記錄數字：每個階段的文獻數量必須清楚標示
說明排除原因：全文排除需列出具體理由（如：非 RCT、無相關結果等）
區分資料來源：明確區分資料庫搜尋與其他來源
數字邏輯一致：各階段數字應能追蹤且邏輯一致
使用官方模板：建議使用 PRISMA 官方提供的流程圖模板

官方資源

PRISMA 官方網站流程圖生成工具 PRISMA 2020 檢核表

統計方法基本指引

情境	建議方法	理由
研究數 < 5	固定效應模型	τ² 估計不可靠
I² > 75%	不建議合併	異質性過高，探索原因
不同研究設計	隨機效應 + 次群組	分別分析不同設計
時間跨度大	累積統合分析	觀察效應隨時間變化
罕見事件	Peto OR 或 Mantel-Haenszel	處理零事件較佳
網絡統合分析	貝氏或頻率學派 NMA	間接比較多種介入

參考資料與計算依據

本工具所使用的所有公式、參考文獻、網站資源與演算法說明

主要參考文獻

Luo, D., et al. (2018): Optimally estimating the sample mean from the sample size, median, mid-range, and/or mid-quartile range. Statistical Methods in Medical Research, 27(6), 1785-1805.
DOI: 10.1177/0962280216669183

Wan, X., et al. (2014): Estimating the sample mean and standard deviation from the sample size, median, range and/or interquartile range. BMC Medical Research Methodology, 14, 135.
DOI: 10.1186/1471-2288-14-135

Hozo, S. P., et al. (2005): Estimating the mean and variance from the median, range, and the size of a sample. BMC Medical Research Methodology, 5, 13.
DOI: 10.1186/1471-2288-5-13

Shi, J., et al. (2020): Optimally estimating the sample standard deviation from the five-number summary. Research Synthesis Methods, 11(5), 641-654.
DOI: 10.1002/jrsm.1429

Hedges, L. V., & Olkin, I. (1985): Statistical methods for meta-analysis. Academic Press.

Cohen, J. (1988): Statistical power analysis for the behavioral sciences (2nd ed.). Lawrence Erlbaum Associates.

參考網站與資源

Cochrane Handbook for Systematic Reviews:
https://handbook.cochrane.org/
系統性文獻回顧方法學指南

Review Manager (RevMan):
https://revman.cochrane.org/
Cochrane 官方統合分析軟體

PRISMA 2020 Statement:
https://www.prisma-statement.org/
系統性文獻回顧報告標準（2020 更新版）

BMJ Meta-analysis Guidelines:
統合分析報告與方法學準則

工具資訊

版本： 測試版

開發日期： 2025

開發者： 運動醫學科吳易澄醫師

網站： https://wycswimming.blogspot.com/

適用範圍： 系統性文獻回顧與統合分析

授權： 教學與練習示範

請先登入以使用計算機

歡迎使用 Meta-Analysis Calculator

快速開始

基本操作流程

功能模組概覽

單組內統計轉換

兩組比較效果量

CI/SE 互轉

使用建議

數據準備

常見錯誤

結果解讀

單組內與描述統計轉換

何時使用此模組？

典型應用場景：

實際範例：

SE → SD

CI → Mean & SD

次序統計 → Mean & SD

Median & Range → Mean & SD

Pooled SD

Change Score SD

兩組比較與效果量

何時使用此模組？

典型應用場景：

選擇建議：

Mean Difference (MD)

Standardized Mean Difference (SMD)

Binary Outcomes (OR/RR/RD)

信賴區間與標準誤互轉

何時使用此模組？

典型應用場景：

常見轉換情境：

Effect Size ↔ CI ↔ SE

風險偏差評估工具 (Risk of Bias 2.0)

RoB 2.0 工具介紹

偏差風險判斷標準

兩種評估路徑

官方資源

五個偏差風險領域詳解

隨機化過程偏差

偏離預定介入偏差

結果數據缺失偏差

結果測量偏差

選擇性報告偏差

評估要訣

GRADE 證據品質評估

什麼是 GRADE？

選擇與評估結果重要性

結果重要性評分系統 (1-9 分)

Critical for Decision-Making

Important but Not Critical

Limited Importance / Not Important

以病人為中心的結果 (Patient-Important Outcomes)

期望效果 (Desirable Effects)

非期望效果 (Undesirable Effects)

替代結果 vs 臨床結果

臨床結果 (Clinical Outcomes)

替代結果 (Surrogate Outcomes)

結果重要性評分流程

四個證據品質等級

高品質 (High)

中品質 (Moderate)

低品質 (Low)

極低品質 (Very Low)

GRADE 評估流程

確定初始品質等級

評估五個降級因素

考慮三個升級因素

整合得出最終證據品質

五個降級因素詳解

偏差風險 (Risk of Bias / Study Limitations)

不一致性 (Inconsistency)

間接性 (Indirectness)

不精確 (Imprecision)

發表偏差 (Publication Bias)

三個升級因素（適用於觀察性研究）

大效應量 (Large Magnitude of Effect)

劑量反應關係 (Dose-Response Gradient)

殘餘混淆影響 (Plausible Residual Confounding)