基于cfDNA表觀基因組學(xué)+片段組學(xué)的多中心前瞻性隊列研究
瀏覽次數(shù):711 發(fā)布日期:2025-7-22
來源:本站 僅供參考,謝絕轉(zhuǎn)載,否則責(zé)任自負(fù)
近日,中國醫(yī)學(xué)科學(xué)院北京協(xié)和醫(yī)院梁乃新副教授團(tuán)隊在《Clinical and Translational Medicine》(IF6.8/Q1)期刊發(fā)表題為《Cell-free epigenomes enhanced fragmentomics-based model for early detection of lung cancer》研究論文。研究利用cfChIP-seq+cfRRBS等分析闡明了表觀遺傳修飾與片段組學(xué)特征之間的調(diào)控關(guān)系。鑒定出的表觀遺傳調(diào)控基因為開發(fā)基于游離 DNA(cell-free DNA, cfDNA)片段組學(xué)的機(jī)器學(xué)習(xí)模型奠定關(guān)鍵基礎(chǔ)。該模型在臨床場景中展現(xiàn)出優(yōu)越性能,為其向臨床實踐轉(zhuǎn)化提供了有力支撐。
標(biāo)題:Cell-free epigenomes enhanced fragmentomics-based model for early detection of lung cancer(基于細(xì)胞游離表觀組學(xué)增強的片段組學(xué)模型用于肺癌早期檢測)
發(fā)表時間:2025年2月5日
發(fā)表期刊:Clin Transl Med(CTM)
技術(shù)平臺:cfChIP-seq、cfRRBS、cfDNA WGS等(易基因金牌技術(shù))
DOI: 10.1002/ctm2.70225
本研究是一項多中心、前瞻性隊列研究,旨在把“cfDNA片段組學(xué)(fragmentomics)”與“游離表觀組學(xué)(cell-free epigenomes)”整合,開發(fā)可臨床轉(zhuǎn)化的機(jī)器學(xué)習(xí)模型,用于非侵入性早期肺癌檢測。同時采用cfDNA多組學(xué)技術(shù):cfChIP-seq(cfDNA染色質(zhì)免疫沉淀測序)、cfRRBS(cell-free簡化基因組DNA甲基化測序)及l(fā)pWGS(低通量全基因組測序)分析血漿 cfDNA 的表觀基因組學(xué)和片段組學(xué)譜,從而鑒定出受多表觀層面共同調(diào)控基因(multi-epigenetically regulated genes, MERGEs),并僅基于lpWGS的片段組學(xué)特征構(gòu)建ensemble模型。模型在獨立驗證集中對I期肺癌的靈敏度達(dá)95.1%,對微浸潤性腺癌(minimally invasive adenocarcinoma, MIA)的靈敏度達(dá)96.2%,凸顯其在臨床早期檢測的潛力。
本研究結(jié)果表明,基于 cfDNA 片段組學(xué)的機(jī)器學(xué)習(xí)模型在獨立驗證隊列中表現(xiàn)出出色性能。這些發(fā)現(xiàn)突出其作為肺癌早期檢測有效無創(chuàng)策略潛力。
易小結(jié)
本研究以肺癌為突破口,系統(tǒng)展示cfChIP-seq與cfRRBS在血漿cfDNA多組學(xué)中的“定位—驗證—降維”作用:前者利用H3K4me3抗體富集啟動子活性信息,后者以單堿基分辨率繪制DNA甲基化譜。該思路不僅證實cfDNA表觀組學(xué)在早期腫瘤檢測的核心地位,也為后續(xù)泛癌種早篩提供可復(fù)制技術(shù)路線。
未來可將cfChIP-seq擴(kuò)展至H3K27ac、H3K9me3等更多組蛋白修飾,cfRRBS亦可升級為全基因組甲基化測序,并與片段長度、核小體占位、染色質(zhì)可及性聯(lián)合建模,從而在肝癌、乳腺癌乃至泛癌種聯(lián)合早檢中延續(xù)相似研究策略,推動液體活檢從單一突變檢測邁向多維表觀-片段整合的新階段。
研究方法
(1)研究設(shè)計
訓(xùn)練集:(AHHU)191例(惡性97、良性14、健康80)。
獨立驗證集:(PUMCH)185例(惡性114、良性19、健康52)。
納入標(biāo)準(zhǔn):≥18歲、胸部CT發(fā)現(xiàn)可疑惡性肺結(jié)節(jié)并最終取得病理;健康對照CT陰性。
排除標(biāo)準(zhǔn):既往癌癥、既往抗癌治療、多原發(fā)肺癌。
(2)樣本采集與cfDNA提。10 mL全血收集,二次離心獲得血漿,提取cfDNA。
(3)文庫構(gòu)建與測序
cfChIP-seq:H3K4me3抗體,1 mL血漿,檢測cfDNA的組蛋白修飾。
cfRRBS:10 ng cfDNA經(jīng)MspI酶切,檢測DNA甲基化。
lpWGS:5 ng cfDNA建庫測序,檢測片段組學(xué)特征。
(4)MERGE基因篩選:癌vs良性、癌vs健康、癌vs(良性+健康)三對比。要求同一基因在≥2個比較中均顯著,且跨組學(xué)方向一致(如H3K4me3上調(diào)且甲基化下調(diào))。共609個基因被定義為MERGEs。
(5)模型構(gòu)建
結(jié)果圖形
(1)研究概況與隊列特征
作者利用376例血漿樣本設(shè)計一條從實驗室到臨床的完整隊列:訓(xùn)練隊列191例、獨立驗證隊列185例,惡性結(jié)節(jié)、良性結(jié)節(jié)與健康志愿者分層清晰。肺癌病理分期以I期為主(訓(xùn)練61.9%,驗證58.7%),驗證隊列納入了CT篩查中難以定性的0期病灶。良性結(jié)節(jié)包括肉芽腫、錯構(gòu)瘤等。健康對照經(jīng)雙放射科醫(yī)師確認(rèn)無結(jié)節(jié)。兩組在年齡、性別、吸煙史分布匹配。

圖1:肺癌早期檢測整體策略示意圖
(A) 測序、數(shù)據(jù)分析與建模方法流程圖。從血漿樣本中提取cfDNA,依次進(jìn)行cfChIP-seq、cfRRBS和lpWGS。隨后提取并綜合分析細(xì)胞游離表觀組學(xué)特征,基于這些表觀組學(xué)圖譜篩選出腫瘤來源的表觀異常基因,以確定MERGE候選基因。進(jìn)一步利用lpWGS獲得的片段特征(包括片段長度和末端序列)構(gòu)建經(jīng)MERGE增強的癌癥檢測模型。
(B) 用于模型開發(fā)與驗證的隊列示意圖。訓(xùn)練隊列用于MERGE基因篩選、模型訓(xùn)練和閾值確定;外部驗證隊列用于模型性能驗證及后續(xù)生物學(xué)功能研究。
縮寫:NDR,核小體缺失區(qū)域;MERGE,多表觀共調(diào)控基因;BN,良性結(jié)節(jié);HC,健康對照。
(2)多種游離表觀組學(xué)特征協(xié)同影響cfDNA片段組學(xué)
在非癌樣本中,將11479個基因按H3K4me3水平從高到低排序,揭示了高H3K4me3基因同時伴隨啟動子低甲基化與低NDR動態(tài)變化。高表達(dá)基因啟動子區(qū)片段明顯左移(<167 bp比例升高),提示開放染色質(zhì)更易受DNase切割。且高表達(dá)基因呈現(xiàn)更高熵值、更少DNASE1L3/DFFB來源的末端,表明切割模式更紊亂。本研究結(jié)果表明cfDNA片段特征并非隨機(jī),而受細(xì)胞內(nèi)表觀狀態(tài)“遺傳”至血漿中。

圖2:非癌樣本中多種細(xì)胞游離表觀組與片段組學(xué)特征的相關(guān)性
(A–C) 每行代表依據(jù)cfChIP-seq數(shù)據(jù)中H3K4me3水平由高到低排序,并劃分為100個百分位的基因;共納入具有可檢測H3K4me3峰的基因11479個。每個基因DNA甲基化水平通過cfRRBS檢測TSS±1.5 kb區(qū)域內(nèi)CpG甲基化比例。NDR評分基于lpWGS測序得到的TSS位點核小體覆蓋度確定。
(B–C)熱圖展示lpWGS數(shù)據(jù)中cfDNA片段長度分布(B)及片段末端序列特征(C)。在B中,x軸以5bp為窗口展示cfDNA片段長度;C中,熵值基于4-mer末端序列計算,DNase貢獻(xiàn)度則利用F-profiles解卷積矩陣結(jié)合4-mer末端序列比例計算。
(3)腫瘤來源的片段組學(xué)變化在表觀失調(diào)基因熱點中富集
500-bp分辨率下,僅位于H3K4me3峰、CpG島及DNase超敏位點附近的bin出現(xiàn)顯著差異(>2σ),如4q21.22區(qū)HNRNPD基因。將基因按H3K4me3變化排序后,發(fā)現(xiàn)癌上調(diào)基因區(qū)段短片段(50-160 bp)比例增高,并富集癌特異末端序列;下調(diào)基因則相反。研究結(jié)果證實腫瘤信號集中于表觀調(diào)控?zé)狳c,為后續(xù)MERGE篩選奠定依據(jù)。
圖3:腫瘤來源片段組學(xué)熱點與細(xì)胞游離表觀組學(xué)變化
(A) 4號染色體q21.22區(qū)域,其中陰影條帶標(biāo)示各基因從啟動子至第一外顯子的位置。圖中呈現(xiàn)了包括H3K4me3(來自健康個體P292與癌癥患者P318的cfChIP-seq數(shù)據(jù))、CpG島及開放染色質(zhì)區(qū)(以A549肺癌細(xì)胞系的DNase I超敏位點為代表)在內(nèi)的表觀遺傳修飾。片段組學(xué)特征——FSR(0–150 bp與151–220 bp片段的比值)及CCG末端序列比例——以500 bp窗口在全部癌(紅色)與非癌(藍(lán)色)樣本中計算,差異用>2σ的顯著窗口高亮顯示;右側(cè)放大了兩處顯著變化(i)和(ii)。
(B) 兩組中HNRNPD與TMEM150C基因的片段長度分布。
(C) 兩組間HNRNPD基因的細(xì)胞游離表觀組學(xué)變化。
(D) 每行表示按H3K4me3變化幅度(癌vs非癌,從增加到減少)排序并劃分為100個百分位的基因;中心熱圖展示片段長度分布(10 bp窗口)。
(E) 對H3K4me3變化最大1%基因(增加、減少、無變化)計算癌缺失末端序列的比例。
(4)肺癌中MERGE基因的鑒定與特征
經(jīng)三對比交集分析,共鑒定出609個MERGEs;其中27個受三種表觀層面共同調(diào)控。功能富集結(jié)果顯示GTPase信號通路、EGFR/EGF通路顯著富集。轉(zhuǎn)錄因子結(jié)合motif分析顯示SP/KLF家族(SP2、KLF5/6、CTCF)顯著富集。這些基因及其通路可能是早期肺癌驅(qū)動事件,且受Sp/KLF家族表觀調(diào)控。
圖4:多表觀共調(diào)控基因(MERGEs)的鑒定與特征
(A) 維恩圖展示三種比較分析中鑒定出的MERGEs的交集:癌 vs 健康(藍(lán)色)、癌 vs 良性(綠色)和癌 vs 非癌(黃色)。圖中數(shù)字表示各比較組特有或共有的MERGEs數(shù)量。
(B) MERGEs中表觀遺傳修飾的交叉情況。水平條形圖表示受每種表觀修飾(甲基化、NDR、H3K4me3)單獨調(diào)控的基因總數(shù);垂直條形圖展示不同修飾組合共同調(diào)控的基因數(shù)。
(C) 使用GO分子功能、Reactome和WikiPathway數(shù)據(jù)庫對MERGEs進(jìn)行功能注釋。
(D) EGFR信號通路代表基因CAV2、AP2A1和PRKCI在健康與癌癥樣本中的表觀遺傳譜。箱線圖展示H3K4me3水平(RPKM)和核小體缺失區(qū)(NDR)評分。
(E) MERGEs啟動子區(qū)的motif富集分析。左:MEME-ChIP在TSS±1 kb內(nèi)鑒定出的5個顯著富集SP/KLF家族motif序列標(biāo)志;右:對應(yīng)motif相對TSS的富集頻率分布圖。
(F) MERGEs的遺傳擾動相似性分析(GPSA)。點圖展示富集的C2H2鋅指轉(zhuǎn)錄因子。
(5)基于片段組學(xué)的MERGE集成模型實現(xiàn)肺癌精準(zhǔn)檢測
在訓(xùn)練集,MERGE模型AUC=0.94(95%CI 0.90-0.97),顯著優(yōu)于全基因組模型。驗證集AUC=0.94(95%CI 0.90-0.98),靈敏度90.4%,特異度83.1%(表1)。亞組I期95.1%、MIA 96.2%、<1 cm結(jié)節(jié)76.5%仍保持高靈敏度。對良性結(jié)節(jié)區(qū)分AUC=0.816,提示可減少LDCT假陽性。臨床攔截模型估算揭示年度篩查可將晚期肺癌比例降低81%,5年生存率自38.8%提至67.5%。
圖5:基于MERGE的集成模型用于肺癌檢測的構(gòu)建與評估
(A) 訓(xùn)練集中,ROC 曲線比較全基因組BPM與基于 MERGE 的 BPM 在區(qū)分癌與非癌受試者時的性能。
(B) 訓(xùn)練集中,ROC 曲線展示基于 MERGE 的集成模型與三個基本模型(BPM、FSR、FSD)性能。
(C) 驗證集中,ROC 曲線評估基于 MERGE 的集成模型與三個基本模型的表現(xiàn)。
(D) 箱線圖呈現(xiàn)訓(xùn)練集與驗證集中模型得分的分布。
(E) 基于 MERGE 的集成模型在不同腫瘤分期的靈敏度。
(F) 基于 MERGE 的集成模型在不同病理及影像亞組中的靈敏度。
(G) 合并隊列中,ROC 曲線評估模型區(qū)分肺癌與良性肺結(jié)節(jié)的性能。
(H) 合并隊列中,箱線圖顯示模型得分在不同病理及影像亞組中的分布。
縮寫:BPM,斷點 motif;FSD,片段長度分布;EDM,末端 motif;FSR,片段長度比。
表1:基于MERGE的集成模型在訓(xùn)練集、驗證集和組合集中的診斷性能。
(6)MERGE表觀遺傳模式比對肺腺癌進(jìn)展軌跡
對LUAD進(jìn)展譜(AAH→AIS→MIA→IAC)進(jìn)行cfDNA H3K4me3無監(jiān)督聚類分析,分析結(jié)果揭示了從AAH即出現(xiàn)異質(zhì)性表觀變化,且隨著病變向微浸潤、浸潤階段推進(jìn),MERGE啟動子H3K4me3譜與IAC的相似度逐漸升高,相關(guān)性/歐氏距離矩陣顯示MIA與IAC最接近(r=0.96),提示侵襲性獲得關(guān)鍵階段。5個代表性MERGE(KDM4C、OXSR1、RAD17、RUNX1、NPR3)的啟動子H3K4me3水平隨病理進(jìn)展呈階梯式增強,提示這些表觀重編程事件不僅是伴隨現(xiàn)象,更可能參與并推動腫瘤侵襲轉(zhuǎn)移。本研究結(jié)果表明cfDNA H3K4me3可動態(tài)監(jiān)測肺腺癌演進(jìn),為早診及干預(yù)時機(jī)提供新指標(biāo)。
圖6:多表觀共調(diào)控基因在肺腺癌進(jìn)展中的H3K4me3模式
(A) 肺腺癌發(fā)生發(fā)展過程示意圖。
(B) 基于MERGE啟動子區(qū)H3K4me3 cfChIP-seq信號的無監(jiān)督聚類熱圖,覆蓋肺腺癌不同病理階段。每一列代表某一亞型全部樣本的平均富集水平(mean RPKM),每一行代表一個基因;顏色從紅(高)到藍(lán)(低)表示H3K4me3豐度。
(C) 肺腺癌各亞型間H3K4me3水平的相關(guān)矩陣,數(shù)值為Pearson相關(guān)系數(shù)。
(D) 肺腺癌各亞型間H3K4me3水平的歐幾里得距離矩陣,數(shù)值為計算所得距離。
(E) 箱線圖展示健康對照與每種肺腺癌亞型之間樣本層面的H3K4me3譜歐幾里得距離。
(F) 箱線圖顯示KDM4C、OXSR1、RAD17、RUNX1和NPR3R五個基因在肺腺癌不同進(jìn)展階段的啟動子H3K4me3富集水平(以啟動子RPKM計)。
縮寫:AAH,非典型腺瘤樣增生;AIS,原位腺癌;MIA,微浸潤性腺癌;IAC,浸潤性腺癌。
結(jié)論和啟示
肺癌相關(guān)cfDNA片段特征并非隨機(jī)分布,而是集中在由表觀遺傳學(xué)精細(xì)調(diào)控的基因區(qū)域。MERGE-增強的片段組學(xué)模型以單一低通WGS實現(xiàn)了對早期肺癌的高靈敏度、高特異度檢測,兼具成本效益與臨床可落地性。未來研究可推廣到其他癌種,或進(jìn)一步結(jié)合突變、片段組學(xué)、表觀組學(xué)構(gòu)建多模態(tài)早篩體系。
cfDNA測序技術(shù)在本研究中的重要作用
cfChIP-seq:在血漿水平捕獲H3K4me3標(biāo)記的啟動子區(qū)域,直接映射腫瘤轉(zhuǎn)錄活性。
cfRRBS:以單堿基分辨率獲得啟動子甲基化信息,與H3K4me3形成互補,鎖定真正被激活/抑制的基因。
lpWGS:低成本產(chǎn)生全基因組片段長度、末端序列等信息,是最終臨床檢測的唯一數(shù)據(jù)輸入。
三者共同構(gòu)成“發(fā)現(xiàn)-驗證-轉(zhuǎn)化”完整技術(shù)鏈,示范了cfDNA多組學(xué)技術(shù)的協(xié)同潛力。
參考文獻(xiàn):
Wang Y, Guo Q, Huang Z, Song L, Zhao F, Gu T, Feng Z, Wang H, Li B, Wang D, Zhou B, Guo C, Xu Y, Song Y, Zheng Z, Bing Z, Li H, Yu X, Fung KL, Xu H, Shi J, Chen M, Hong S, Jin H, Tong S, Zhu S, Zhu C, Song J, Liu J, Li S, Li H, Sun X, Liang N. Cell-free epigenomes enhanced fragmentomics-based model for early detection of lung cancer. Clin Transl Med. 2025 Feb;15(2):e70225. doi: 10.1002/ctm2.70225.