經(jīng)過前面兩期的講解,我們了解了GWAS分析需要的數(shù)據(jù)類型和數(shù)據(jù)質(zhì)控方法,終于來到我們的核心內(nèi)容:關(guān)聯(lián)分析。
GWAS分析一般會(huì)構(gòu)建回歸模型檢驗(yàn)標(biāo)記與表型之間是否存在關(guān)聯(lián),其中:
① 零假設(shè)(H0 null hypothesis)是標(biāo)記的回歸系數(shù)為零, 標(biāo)記(即SNP)對表型沒有影響。
② 備擇假設(shè)(H1,Alternative Hypothesis)是標(biāo)記的回歸系數(shù)不為零,標(biāo)記(即SNP)和表型相關(guān)。
在第一期中我們提到表型數(shù)據(jù)的類型包括三種:數(shù)量性狀、質(zhì)量性狀和分級性狀,我們在進(jìn)行關(guān)聯(lián)分析之前,需要根據(jù)不同類型的表型選擇合適的關(guān)聯(lián)分析方法,同時(shí)為了減少假陽性,通常對p值進(jìn)行矯正。
1 連續(xù)性狀
連續(xù)性狀是指那些在群體中呈現(xiàn)連續(xù)分布的性狀,如身高、體重、血壓等?梢赃x擇的方法有T檢驗(yàn)(Student’s test)和線性回歸(linear regression)。
--assoc,卡方檢驗(yàn)+優(yōu)勢比,表型若為數(shù)字則視為字符,不允許有協(xié)變量;
--linear,線性回歸,表型為純數(shù)字,允許有協(xié)變量,如果考慮協(xié)變量,加上--covar即可。
# assoc關(guān)聯(lián)分析不校正/校正p值
plink --bfile test --assoc --out result_assoc
plink --bfile test --assoc --adjust --out result_assoc
注意:會(huì)多出一個(gè)*.assoc.adjusted后綴文件。
# linear關(guān)聯(lián)分析不考慮協(xié)變量、不校正/校正p值
plink --bfile test --linear --out result_linear
plink --bfile test --linear --adjust --out result_linear
注:協(xié)變量使用 --covar 參數(shù)添加。
2 閾值性狀
閾值性狀即表型值數(shù)據(jù)是兩類數(shù)據(jù):1和2(其中0和-9都表示缺失),比較常見的是對照組(用1表示)和實(shí)驗(yàn)組(用2表示)?梢赃x擇的方法有卡方檢驗(yàn)和邏輯斯蒂回歸(X2關(guān)聯(lián)分析和logistic分析)
--assoc,卡方檢驗(yàn)+優(yōu)勢比,不允許有協(xié)變量;
--logistic,邏輯回歸,允許有協(xié)變量,如果考慮協(xié)變量,加上--covar即可。
注:這里的協(xié)變量比如性別、年齡等信息。
# assoc關(guān)聯(lián)分析不校正/校正p值
plink --bfile test --assoc --out result_assoc
plink --bfile test --assoc --adjust --out result_assoc
注意:會(huì)多出一個(gè)*.assoc.adjusted后綴文件。
# logistic關(guān)聯(lián)分析不考慮協(xié)變量、不校正/校正p值
plink --bfile test --logistic --out result_logistic
plink --bfile test --logistic --adjust --out result_logistic
注:協(xié)變量使用 --covar 參數(shù)添加。
3 分級性狀
我們將通過人為觀察而可以進(jìn)行分類的離散型變量統(tǒng)稱為分級性狀。但要注意一點(diǎn),分級性狀最終的定義,還是部分依賴于我們的經(jīng)驗(yàn)。 例如,對于植物的抗病性,我們既可以按照葉片病斑的面積(0~100%),將其定義為連續(xù)型的數(shù)值型性狀,也可以人為設(shè)定閾值將其定義為分級性狀(高、中、低)?梢赃x擇的方法有卡方檢驗(yàn)和邏輯斯蒂回歸(X2關(guān)聯(lián)分析和logistic分析)。
--assoc,卡方檢驗(yàn)+優(yōu)勢比,不允許有協(xié)變量;
--logistic,邏輯回歸,允許有協(xié)變量,如果考慮協(xié)變量,加上--covar即可。
# assoc關(guān)聯(lián)分析不校正/校正p值
plink --bfile test --assoc --out result
plink --bfile test --assoc --adjust --out result_adjust
# logistic關(guān)聯(lián)分析不考慮協(xié)變量、不校正/校正p值
plink --bfile test --logistic --out result_logistic
plink --bfile test --logistic --adjust --out result_logistic
注:協(xié)變量使用 --covar 參數(shù)添加。
到這一步我們終于得到了夢寐以求的顯著性結(jié)果,可以對結(jié)果表格進(jìn)行pvalue篩選過濾假陽性,也可以進(jìn)行可視化直觀展示(即鼎鼎大名的Q-Q plot和Manhattan圖),那如何進(jìn)行可視化呢?別急,我們留到下一期。