基于cfDNA表觀基因組學(xué)+片段組學(xué)的多中心前瞻性隊(duì)列研究
瀏覽次數(shù):716 發(fā)布日期:2025-7-22
來(lái)源:本站 僅供參考,謝絕轉(zhuǎn)載,否則責(zé)任自負(fù)
近日,中國(guó)醫(yī)學(xué)科學(xué)院北京協(xié)和醫(yī)院梁乃新副教授團(tuán)隊(duì)在《Clinical and Translational Medicine》(IF6.8/Q1)期刊發(fā)表題為《Cell-free epigenomes enhanced fragmentomics-based model for early detection of lung cancer》研究論文。研究利用cfChIP-seq+cfRRBS等分析闡明了表觀遺傳修飾與片段組學(xué)特征之間的調(diào)控關(guān)系。鑒定出的表觀遺傳調(diào)控基因?yàn)殚_(kāi)發(fā)基于游離 DNA(cell-free DNA, cfDNA)片段組學(xué)的機(jī)器學(xué)習(xí)模型奠定關(guān)鍵基礎(chǔ)。該模型在臨床場(chǎng)景中展現(xiàn)出優(yōu)越性能,為其向臨床實(shí)踐轉(zhuǎn)化提供了有力支撐。
標(biāo)題:Cell-free epigenomes enhanced fragmentomics-based model for early detection of lung cancer(基于細(xì)胞游離表觀組學(xué)增強(qiáng)的片段組學(xué)模型用于肺癌早期檢測(cè))
發(fā)表時(shí)間:2025年2月5日
發(fā)表期刊:Clin Transl Med(CTM)
技術(shù)平臺(tái):cfChIP-seq、cfRRBS、cfDNA WGS等(易基因金牌技術(shù))
DOI: 10.1002/ctm2.70225
本研究是一項(xiàng)多中心、前瞻性隊(duì)列研究,旨在把“cfDNA片段組學(xué)(fragmentomics)”與“游離表觀組學(xué)(cell-free epigenomes)”整合,開(kāi)發(fā)可臨床轉(zhuǎn)化的機(jī)器學(xué)習(xí)模型,用于非侵入性早期肺癌檢測(cè)。同時(shí)采用cfDNA多組學(xué)技術(shù):cfChIP-seq(cfDNA染色質(zhì)免疫沉淀測(cè)序)、cfRRBS(cell-free簡(jiǎn)化基因組DNA甲基化測(cè)序)及l(fā)pWGS(低通量全基因組測(cè)序)分析血漿 cfDNA 的表觀基因組學(xué)和片段組學(xué)譜,從而鑒定出受多表觀層面共同調(diào)控基因(multi-epigenetically regulated genes, MERGEs),并僅基于lpWGS的片段組學(xué)特征構(gòu)建ensemble模型。模型在獨(dú)立驗(yàn)證集中對(duì)I期肺癌的靈敏度達(dá)95.1%,對(duì)微浸潤(rùn)性腺癌(minimally invasive adenocarcinoma, MIA)的靈敏度達(dá)96.2%,凸顯其在臨床早期檢測(cè)的潛力。
本研究結(jié)果表明,基于 cfDNA 片段組學(xué)的機(jī)器學(xué)習(xí)模型在獨(dú)立驗(yàn)證隊(duì)列中表現(xiàn)出出色性能。這些發(fā)現(xiàn)突出其作為肺癌早期檢測(cè)有效無(wú)創(chuàng)策略潛力。
易小結(jié)
本研究以肺癌為突破口,系統(tǒng)展示cfChIP-seq與cfRRBS在血漿cfDNA多組學(xué)中的“定位—驗(yàn)證—降維”作用:前者利用H3K4me3抗體富集啟動(dòng)子活性信息,后者以單堿基分辨率繪制DNA甲基化譜。該思路不僅證實(shí)cfDNA表觀組學(xué)在早期腫瘤檢測(cè)的核心地位,也為后續(xù)泛癌種早篩提供可復(fù)制技術(shù)路線。
未來(lái)可將cfChIP-seq擴(kuò)展至H3K27ac、H3K9me3等更多組蛋白修飾,cfRRBS亦可升級(jí)為全基因組甲基化測(cè)序,并與片段長(zhǎng)度、核小體占位、染色質(zhì)可及性聯(lián)合建模,從而在肝癌、乳腺癌乃至泛癌種聯(lián)合早檢中延續(xù)相似研究策略,推動(dòng)液體活檢從單一突變檢測(cè)邁向多維表觀-片段整合的新階段。
研究方法
(1)研究設(shè)計(jì)
訓(xùn)練集:(AHHU)191例(惡性97、良性14、健康80)。
獨(dú)立驗(yàn)證集:(PUMCH)185例(惡性114、良性19、健康52)。
納入標(biāo)準(zhǔn):≥18歲、胸部CT發(fā)現(xiàn)可疑惡性肺結(jié)節(jié)并最終取得病理;健康對(duì)照CT陰性。
排除標(biāo)準(zhǔn):既往癌癥、既往抗癌治療、多原發(fā)肺癌。
(2)樣本采集與cfDNA提取:10 mL全血收集,二次離心獲得血漿,提取cfDNA。
(3)文庫(kù)構(gòu)建與測(cè)序
cfChIP-seq:H3K4me3抗體,1 mL血漿,檢測(cè)cfDNA的組蛋白修飾。
cfRRBS:10 ng cfDNA經(jīng)MspI酶切,檢測(cè)DNA甲基化。
lpWGS:5 ng cfDNA建庫(kù)測(cè)序,檢測(cè)片段組學(xué)特征。
(4)MERGE基因篩選:癌vs良性、癌vs健康、癌vs(良性+健康)三對(duì)比。要求同一基因在≥2個(gè)比較中均顯著,且跨組學(xué)方向一致(如H3K4me3上調(diào)且甲基化下調(diào))。共609個(gè)基因被定義為MERGEs。
(5)模型構(gòu)建
結(jié)果圖形
(1)研究概況與隊(duì)列特征
作者利用376例血漿樣本設(shè)計(jì)一條從實(shí)驗(yàn)室到臨床的完整隊(duì)列:訓(xùn)練隊(duì)列191例、獨(dú)立驗(yàn)證隊(duì)列185例,惡性結(jié)節(jié)、良性結(jié)節(jié)與健康志愿者分層清晰。肺癌病理分期以I期為主(訓(xùn)練61.9%,驗(yàn)證58.7%),驗(yàn)證隊(duì)列納入了CT篩查中難以定性的0期病灶。良性結(jié)節(jié)包括肉芽腫、錯(cuò)構(gòu)瘤等。健康對(duì)照經(jīng)雙放射科醫(yī)師確認(rèn)無(wú)結(jié)節(jié)。兩組在年齡、性別、吸煙史分布匹配。

圖1:肺癌早期檢測(cè)整體策略示意圖
(A) 測(cè)序、數(shù)據(jù)分析與建模方法流程圖。從血漿樣本中提取cfDNA,依次進(jìn)行cfChIP-seq、cfRRBS和lpWGS。隨后提取并綜合分析細(xì)胞游離表觀組學(xué)特征,基于這些表觀組學(xué)圖譜篩選出腫瘤來(lái)源的表觀異;,以確定MERGE候選基因。進(jìn)一步利用lpWGS獲得的片段特征(包括片段長(zhǎng)度和末端序列)構(gòu)建經(jīng)MERGE增強(qiáng)的癌癥檢測(cè)模型。
(B) 用于模型開(kāi)發(fā)與驗(yàn)證的隊(duì)列示意圖。訓(xùn)練隊(duì)列用于MERGE基因篩選、模型訓(xùn)練和閾值確定;外部驗(yàn)證隊(duì)列用于模型性能驗(yàn)證及后續(xù)生物學(xué)功能研究。
縮寫(xiě):NDR,核小體缺失區(qū)域;MERGE,多表觀共調(diào)控基因;BN,良性結(jié)節(jié);HC,健康對(duì)照。
(2)多種游離表觀組學(xué)特征協(xié)同影響cfDNA片段組學(xué)
在非癌樣本中,將11479個(gè)基因按H3K4me3水平從高到低排序,揭示了高H3K4me3基因同時(shí)伴隨啟動(dòng)子低甲基化與低NDR動(dòng)態(tài)變化。高表達(dá)基因啟動(dòng)子區(qū)片段明顯左移(<167 bp比例升高),提示開(kāi)放染色質(zhì)更易受DNase切割。且高表達(dá)基因呈現(xiàn)更高熵值、更少DNASE1L3/DFFB來(lái)源的末端,表明切割模式更紊亂。本研究結(jié)果表明cfDNA片段特征并非隨機(jī),而受細(xì)胞內(nèi)表觀狀態(tài)“遺傳”至血漿中。

圖2:非癌樣本中多種細(xì)胞游離表觀組與片段組學(xué)特征的相關(guān)性
(A–C) 每行代表依據(jù)cfChIP-seq數(shù)據(jù)中H3K4me3水平由高到低排序,并劃分為100個(gè)百分位的基因;共納入具有可檢測(cè)H3K4me3峰的基因11479個(gè)。每個(gè)基因DNA甲基化水平通過(guò)cfRRBS檢測(cè)TSS±1.5 kb區(qū)域內(nèi)CpG甲基化比例。NDR評(píng)分基于lpWGS測(cè)序得到的TSS位點(diǎn)核小體覆蓋度確定。
(B–C)熱圖展示lpWGS數(shù)據(jù)中cfDNA片段長(zhǎng)度分布(B)及片段末端序列特征(C)。在B中,x軸以5bp為窗口展示cfDNA片段長(zhǎng)度;C中,熵值基于4-mer末端序列計(jì)算,DNase貢獻(xiàn)度則利用F-profiles解卷積矩陣結(jié)合4-mer末端序列比例計(jì)算。
(3)腫瘤來(lái)源的片段組學(xué)變化在表觀失調(diào)基因熱點(diǎn)中富集
500-bp分辨率下,僅位于H3K4me3峰、CpG島及DNase超敏位點(diǎn)附近的bin出現(xiàn)顯著差異(>2σ),如4q21.22區(qū)HNRNPD基因。將基因按H3K4me3變化排序后,發(fā)現(xiàn)癌上調(diào)基因區(qū)段短片段(50-160 bp)比例增高,并富集癌特異末端序列;下調(diào)基因則相反。研究結(jié)果證實(shí)腫瘤信號(hào)集中于表觀調(diào)控?zé)狳c(diǎn),為后續(xù)MERGE篩選奠定依據(jù)。
圖3:腫瘤來(lái)源片段組學(xué)熱點(diǎn)與細(xì)胞游離表觀組學(xué)變化
(A) 4號(hào)染色體q21.22區(qū)域,其中陰影條帶標(biāo)示各基因從啟動(dòng)子至第一外顯子的位置。圖中呈現(xiàn)了包括H3K4me3(來(lái)自健康個(gè)體P292與癌癥患者P318的cfChIP-seq數(shù)據(jù))、CpG島及開(kāi)放染色質(zhì)區(qū)(以A549肺癌細(xì)胞系的DNase I超敏位點(diǎn)為代表)在內(nèi)的表觀遺傳修飾。片段組學(xué)特征——FSR(0–150 bp與151–220 bp片段的比值)及CCG末端序列比例——以500 bp窗口在全部癌(紅色)與非癌(藍(lán)色)樣本中計(jì)算,差異用>2σ的顯著窗口高亮顯示;右側(cè)放大了兩處顯著變化(i)和(ii)。
(B) 兩組中HNRNPD與TMEM150C基因的片段長(zhǎng)度分布。
(C) 兩組間HNRNPD基因的細(xì)胞游離表觀組學(xué)變化。
(D) 每行表示按H3K4me3變化幅度(癌vs非癌,從增加到減少)排序并劃分為100個(gè)百分位的基因;中心熱圖展示片段長(zhǎng)度分布(10 bp窗口)。
(E) 對(duì)H3K4me3變化最大1%基因(增加、減少、無(wú)變化)計(jì)算癌缺失末端序列的比例。
(4)肺癌中MERGE基因的鑒定與特征
經(jīng)三對(duì)比交集分析,共鑒定出609個(gè)MERGEs;其中27個(gè)受三種表觀層面共同調(diào)控。功能富集結(jié)果顯示GTPase信號(hào)通路、EGFR/EGF通路顯著富集。轉(zhuǎn)錄因子結(jié)合motif分析顯示SP/KLF家族(SP2、KLF5/6、CTCF)顯著富集。這些基因及其通路可能是早期肺癌驅(qū)動(dòng)事件,且受Sp/KLF家族表觀調(diào)控。
圖4:多表觀共調(diào)控基因(MERGEs)的鑒定與特征
(A) 維恩圖展示三種比較分析中鑒定出的MERGEs的交集:癌 vs 健康(藍(lán)色)、癌 vs 良性(綠色)和癌 vs 非癌(黃色)。圖中數(shù)字表示各比較組特有或共有的MERGEs數(shù)量。
(B) MERGEs中表觀遺傳修飾的交叉情況。水平條形圖表示受每種表觀修飾(甲基化、NDR、H3K4me3)單獨(dú)調(diào)控的基因總數(shù);垂直條形圖展示不同修飾組合共同調(diào)控的基因數(shù)。
(C) 使用GO分子功能、Reactome和WikiPathway數(shù)據(jù)庫(kù)對(duì)MERGEs進(jìn)行功能注釋。
(D) EGFR信號(hào)通路代表基因CAV2、AP2A1和PRKCI在健康與癌癥樣本中的表觀遺傳譜。箱線圖展示H3K4me3水平(RPKM)和核小體缺失區(qū)(NDR)評(píng)分。
(E) MERGEs啟動(dòng)子區(qū)的motif富集分析。左:MEME-ChIP在TSS±1 kb內(nèi)鑒定出的5個(gè)顯著富集SP/KLF家族motif序列標(biāo)志;右:對(duì)應(yīng)motif相對(duì)TSS的富集頻率分布圖。
(F) MERGEs的遺傳擾動(dòng)相似性分析(GPSA)。點(diǎn)圖展示富集的C2H2鋅指轉(zhuǎn)錄因子。
(5)基于片段組學(xué)的MERGE集成模型實(shí)現(xiàn)肺癌精準(zhǔn)檢測(cè)
在訓(xùn)練集,MERGE模型AUC=0.94(95%CI 0.90-0.97),顯著優(yōu)于全基因組模型。驗(yàn)證集AUC=0.94(95%CI 0.90-0.98),靈敏度90.4%,特異度83.1%(表1)。亞組I期95.1%、MIA 96.2%、<1 cm結(jié)節(jié)76.5%仍保持高靈敏度。對(duì)良性結(jié)節(jié)區(qū)分AUC=0.816,提示可減少LDCT假陽(yáng)性。臨床攔截模型估算揭示年度篩查可將晚期肺癌比例降低81%,5年生存率自38.8%提至67.5%。
圖5:基于MERGE的集成模型用于肺癌檢測(cè)的構(gòu)建與評(píng)估
(A) 訓(xùn)練集中,ROC 曲線比較全基因組BPM與基于 MERGE 的 BPM 在區(qū)分癌與非癌受試者時(shí)的性能。
(B) 訓(xùn)練集中,ROC 曲線展示基于 MERGE 的集成模型與三個(gè)基本模型(BPM、FSR、FSD)性能。
(C) 驗(yàn)證集中,ROC 曲線評(píng)估基于 MERGE 的集成模型與三個(gè)基本模型的表現(xiàn)。
(D) 箱線圖呈現(xiàn)訓(xùn)練集與驗(yàn)證集中模型得分的分布。
(E) 基于 MERGE 的集成模型在不同腫瘤分期的靈敏度。
(F) 基于 MERGE 的集成模型在不同病理及影像亞組中的靈敏度。
(G) 合并隊(duì)列中,ROC 曲線評(píng)估模型區(qū)分肺癌與良性肺結(jié)節(jié)的性能。
(H) 合并隊(duì)列中,箱線圖顯示模型得分在不同病理及影像亞組中的分布。
縮寫(xiě):BPM,斷點(diǎn) motif;FSD,片段長(zhǎng)度分布;EDM,末端 motif;FSR,片段長(zhǎng)度比。
表1:基于MERGE的集成模型在訓(xùn)練集、驗(yàn)證集和組合集中的診斷性能。
(6)MERGE表觀遺傳模式比對(duì)肺腺癌進(jìn)展軌跡
對(duì)LUAD進(jìn)展譜(AAH→AIS→MIA→IAC)進(jìn)行cfDNA H3K4me3無(wú)監(jiān)督聚類(lèi)分析,分析結(jié)果揭示了從AAH即出現(xiàn)異質(zhì)性表觀變化,且隨著病變向微浸潤(rùn)、浸潤(rùn)階段推進(jìn),MERGE啟動(dòng)子H3K4me3譜與IAC的相似度逐漸升高,相關(guān)性/歐氏距離矩陣顯示MIA與IAC最接近(r=0.96),提示侵襲性獲得關(guān)鍵階段。5個(gè)代表性MERGE(KDM4C、OXSR1、RAD17、RUNX1、NPR3)的啟動(dòng)子H3K4me3水平隨病理進(jìn)展呈階梯式增強(qiáng),提示這些表觀重編程事件不僅是伴隨現(xiàn)象,更可能參與并推動(dòng)腫瘤侵襲轉(zhuǎn)移。本研究結(jié)果表明cfDNA H3K4me3可動(dòng)態(tài)監(jiān)測(cè)肺腺癌演進(jìn),為早診及干預(yù)時(shí)機(jī)提供新指標(biāo)。
圖6:多表觀共調(diào)控基因在肺腺癌進(jìn)展中的H3K4me3模式
(A) 肺腺癌發(fā)生發(fā)展過(guò)程示意圖。
(B) 基于MERGE啟動(dòng)子區(qū)H3K4me3 cfChIP-seq信號(hào)的無(wú)監(jiān)督聚類(lèi)熱圖,覆蓋肺腺癌不同病理階段。每一列代表某一亞型全部樣本的平均富集水平(mean RPKM),每一行代表一個(gè)基因;顏色從紅(高)到藍(lán)(低)表示H3K4me3豐度。
(C) 肺腺癌各亞型間H3K4me3水平的相關(guān)矩陣,數(shù)值為Pearson相關(guān)系數(shù)。
(D) 肺腺癌各亞型間H3K4me3水平的歐幾里得距離矩陣,數(shù)值為計(jì)算所得距離。
(E) 箱線圖展示健康對(duì)照與每種肺腺癌亞型之間樣本層面的H3K4me3譜歐幾里得距離。
(F) 箱線圖顯示KDM4C、OXSR1、RAD17、RUNX1和NPR3R五個(gè)基因在肺腺癌不同進(jìn)展階段的啟動(dòng)子H3K4me3富集水平(以啟動(dòng)子RPKM計(jì))。
縮寫(xiě):AAH,非典型腺瘤樣增生;AIS,原位腺癌;MIA,微浸潤(rùn)性腺癌;IAC,浸潤(rùn)性腺癌。
結(jié)論和啟示
肺癌相關(guān)cfDNA片段特征并非隨機(jī)分布,而是集中在由表觀遺傳學(xué)精細(xì)調(diào)控的基因區(qū)域。MERGE-增強(qiáng)的片段組學(xué)模型以單一低通WGS實(shí)現(xiàn)了對(duì)早期肺癌的高靈敏度、高特異度檢測(cè),兼具成本效益與臨床可落地性。未來(lái)研究可推廣到其他癌種,或進(jìn)一步結(jié)合突變、片段組學(xué)、表觀組學(xué)構(gòu)建多模態(tài)早篩體系。
cfDNA測(cè)序技術(shù)在本研究中的重要作用
cfChIP-seq:在血漿水平捕獲H3K4me3標(biāo)記的啟動(dòng)子區(qū)域,直接映射腫瘤轉(zhuǎn)錄活性。
cfRRBS:以單堿基分辨率獲得啟動(dòng)子甲基化信息,與H3K4me3形成互補(bǔ),鎖定真正被激活/抑制的基因。
lpWGS:低成本產(chǎn)生全基因組片段長(zhǎng)度、末端序列等信息,是最終臨床檢測(cè)的唯一數(shù)據(jù)輸入。
三者共同構(gòu)成“發(fā)現(xiàn)-驗(yàn)證-轉(zhuǎn)化”完整技術(shù)鏈,示范了cfDNA多組學(xué)技術(shù)的協(xié)同潛力。
參考文獻(xiàn):
Wang Y, Guo Q, Huang Z, Song L, Zhao F, Gu T, Feng Z, Wang H, Li B, Wang D, Zhou B, Guo C, Xu Y, Song Y, Zheng Z, Bing Z, Li H, Yu X, Fung KL, Xu H, Shi J, Chen M, Hong S, Jin H, Tong S, Zhu S, Zhu C, Song J, Liu J, Li S, Li H, Sun X, Liang N. Cell-free epigenomes enhanced fragmentomics-based model for early detection of lung cancer. Clin Transl Med. 2025 Feb;15(2):e70225. doi: 10.1002/ctm2.70225.