與翔科飛提供專業(yè)的生物信息學(xué)服務(wù),包括生物信息學(xué)軟件定制、設(shè)計(jì)及算法整合、具體疑難生物學(xué)數(shù)據(jù)分析、高通量生物學(xué)數(shù)據(jù)分析,以及基于生物信息學(xué)分析探路的實(shí)驗(yàn)路線設(shè)計(jì)等。
|
||||||||||||||||||
[發(fā)表評(píng)論] [本類其他服務(wù)] [本類其他服務(wù)商] |
服務(wù)商: 北京與翔科飛生物信息科技有限公司 | 查看該公司所有服務(wù) >> |
芯片質(zhì)量控制(Quality control,QC) 通過對(duì)數(shù)據(jù)作圖,可以評(píng)價(jià)實(shí)驗(yàn)數(shù)據(jù)的質(zhì)量,了解數(shù)據(jù)的分布規(guī)律,從而決定下一步的分析方法。
原始數(shù)據(jù)標(biāo)準(zhǔn)化(Raw data normalization) 對(duì)原始數(shù)據(jù)進(jìn)行處理,通過特定的統(tǒng)計(jì)分析,達(dá)到消除背景噪音,過濾臟數(shù)據(jù),去除同一實(shí)驗(yàn)不同block之間、不同芯片之間的實(shí)驗(yàn)誤差,使不同芯片的數(shù)據(jù)具有可比性。下圖為數(shù)據(jù)標(biāo)準(zhǔn)化前(左圖)后(右圖)數(shù)據(jù)的盒圖,表示各芯片數(shù)據(jù)的數(shù)值分布。
差異表達(dá)分析(DEG analysis) 差異表達(dá)分析是芯片數(shù)據(jù)的基本分析手段之一,不同方法適用于不同的數(shù)據(jù),常用的方法有l(wèi)imma,SAM,T-test ,F(xiàn)isher’s exact test等。
聚類分析 聚類分析可用來做疾病亞型分型(sub-classification),可用于檢測(cè)樣本群體分布情況,發(fā)現(xiàn)表達(dá)相關(guān)基因群等。常用的聚類方法有層次聚類(hierarchical cluster),K-means,自組織映射(SOM)。
基因注釋 (GO/pathway annotation) 采用不同數(shù)據(jù)庫(kù)對(duì)篩選出來的重要基因進(jìn)行注釋。
基因集富集分析 (Gene Set Enrichment Analysis, GSEA) 富集分析是基于統(tǒng)計(jì)學(xué)檢驗(yàn)的case/control高通量分析方法,可用于揭示生物學(xué)樣本(case相對(duì)于control)中被顯著激活或顯著抑 制的功能。與翔自主開發(fā)研制了不同的功能分析數(shù)據(jù)庫(kù),可以提供對(duì)GO、KEGG、BioCarta、疾病相關(guān)基因、腫瘤相關(guān)基因、轉(zhuǎn)錄因子結(jié)合位點(diǎn)等功能 的富集分析。
全基因組表達(dá)譜視圖 (Genome based visualization) 特點(diǎn):1)矢量圖(PDF格式),可無限放大不損失分辨率;2)按照染色體定位排列,非聚類分析結(jié)果,可以視為基因表達(dá)譜天然聚類結(jié)果。
差異表達(dá)趨勢(shì)聚類分析
根據(jù)實(shí)驗(yàn)設(shè)計(jì)和研究目的,選用專門處理時(shí)間序列實(shí)驗(yàn)數(shù)據(jù)的算法根據(jù)基因隨時(shí)間發(fā)展的表達(dá)水平變化趨勢(shì)對(duì)基因進(jìn)行聚類,每一類的基因具有相似的表達(dá)譜,這對(duì)研究共表達(dá)基因很有幫助。
差異表達(dá)趨勢(shì)分析可用來做處理時(shí)間、劑量變化、疾病亞型分型(sub-classification),也可用于檢測(cè)樣本群體分布情況,發(fā)現(xiàn)表達(dá)相 關(guān)基因群等。常用的聚類方法有層次聚類(hierarchical cluster),K-means,自組織映射(SOM)。
miRNA靶標(biāo)基因的預(yù)測(cè)(miRNA target prediction) 選取在十多種預(yù)測(cè)方法中至少有5種預(yù)測(cè)算法預(yù)測(cè)一致的靶基因
miRNA-mRNA調(diào)控網(wǎng)絡(luò)(miRNA regulation network) 基于MicroRNA的負(fù)調(diào)控屬性,選取顯著負(fù)相關(guān)的miRNA和gene進(jìn)行網(wǎng)絡(luò)分析
讀取基因型(Genotype call) 從CEL文件讀取SNP基因型數(shù)據(jù)
探針質(zhì)控(Quality control) 通過多種統(tǒng)計(jì)學(xué)算法過濾掉部分不適宜進(jìn)入下一步分析的探針。
DNA拷貝數(shù)變化(CNV)以及雜合性缺失分析(LOH)分析
基因型分析(Genotype) 基于卡方檢驗(yàn)等統(tǒng)計(jì)學(xué)分析,篩選在兩組或多組樣本中存在分布頻率差異的SNP位點(diǎn)。Manhattan圖可以用來觀測(cè)各個(gè)染色體中顯著差異SNP探針的數(shù)據(jù)分布。
主成分分析(PCA)
全基因組關(guān)聯(lián)分析 (GWAS) 與翔自主開發(fā)了使用多種智能機(jī)器學(xué)習(xí)算法的GWAS分析流程。經(jīng)過對(duì)數(shù)百套孤獨(dú)癥樣本和HapMap對(duì)照數(shù)據(jù)集的分析測(cè)試,對(duì)獨(dú)立樣本的準(zhǔn)確率可以達(dá)到92%。ROC曲線線下面積為0.9558。
甲基化差異區(qū)域基因富集分析 (Gene enrichment analysis in differential methylation region)
芯片質(zhì)量控制 (Quality control) 通過對(duì)數(shù)據(jù)的各項(xiàng)指標(biāo)的分析作圖,可以評(píng)估芯片實(shí)驗(yàn)質(zhì)量,了解數(shù)據(jù)的分布規(guī)律,并為下一步分析方法提供參考。
數(shù)據(jù)的標(biāo)準(zhǔn)化 對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,是為了消除背景噪音,過濾臟數(shù)據(jù)以及去除同一實(shí)驗(yàn)的不同芯片之間的實(shí)驗(yàn)誤差,將不同芯片的數(shù)據(jù)調(diào)整到同一水平,使之具有可比性。
片段化分析(Segmentation) 通過各種統(tǒng)計(jì)學(xué)方法,如DNAcopy, GLAD, BioHMM, tilingArray等,將芯片的log ratio值按照染色體物理圖譜位置平滑化和片段化,以進(jìn)一步分析基因組異?截悈^(qū)域。
差異基因組區(qū)域鑒定(Genomics alteration regions identification) 基于segmentation的分析結(jié)果,采用一定的域值和分析方法,可以得到樣本基因組的差異拷貝數(shù)區(qū)域。與翔自主開發(fā)了特色的基因組圖譜視圖,可以同時(shí)整合基因組拷貝數(shù)和基因表達(dá)譜數(shù)據(jù)。
差異基因組區(qū)域基因注釋以及功能分析(Gene annotation and functional analysis) 選取位于差異區(qū)域的基因,并結(jié)合區(qū)域CNV值(或基因表達(dá)譜)進(jìn)行功能分析。
全基因組整合視圖(Whole genome integrative visualization) 基因組拷貝數(shù)變化往往影響表達(dá)譜的改變,將各個(gè)樣本的差異基因組區(qū)域在全基因組定位,并結(jié)合基因表達(dá)譜信息,同時(shí)以染色體為背景作圖。紅色表示擴(kuò)增和表達(dá)上調(diào),藍(lán)色表示缺失和表達(dá)下調(diào),顏色的深淺反映了擴(kuò)增或缺失的程度。