『壹』 有沒有對細菌基因進行富集分析的網頁
有,這個你可以去看一下sequin這個軟體。你把所有信息都填完後,它可以幫你分析。
『貳』 富集分析結果展示(二)——富集分析圈圖
「做cox比例分析和KM曲線結合分析,閾值該怎麼選取,數據是否需要標准化等等問題的解決方法」
對基因功能富集結果的展示有很多種展示方法,有人說氣泡圖展示富集結果不好看,畢竟什麼都要看顏值的。而且氣泡圖展示的信息有限,僅展示一些通路的基本信息,無法顯示通路與基因的關系。為了滿足審美觀,開發了一個小工具——富集分析圈圖。繪制出來的圖不但能顯示感興趣的基因與通路的關系,關鍵繪制出來的圖形顏值高。
網址導航
http://sangerbox.com/Tool 點擊「富集分析圈圖快速繪制工具」
1.輸入數據
----------
富集分析結果:一共四列,第一列為富集分析term名稱,第一列為這個term包含的基因個數,第三列為P值或FDR,第四列為term中包含的基因列表,基因與基因之間一「/」隔開,如下圖所示。
點擊添加圖片描述(最多60個字)編輯
差異基因分析結果:這里去Foldchage最大的前50個基因,取出的基因與做富集時用的基因要一致。注意:這里不一定需要Fold chage,只需要一列是基因,一列對應的有意義的數字即可,如下圖所示。
點擊添加圖片描述(最多60個字)編輯
2.設置參數
----------
點擊添加圖片描述(最多60個字)編輯
3.展示結果
----------
點擊添加圖片描述(最多60個字)編輯
『叄』 怎麼做基於KEGG的生物通路富集分析
這個只是皮毛介紹一下KEGG,具體操作還要自己摸索的,用文字不好描述,我還是會一點的,就是先將基因的序列下載下來,上傳到KEGG,KEGG會將基因的信號通路網址信息發到你郵箱里,你就可以看到你的目的基因在那些信號通路里有,我有篇這方面的文章發在蠶業科學上,不過剛接受
『肆』 網頁在線做富集分析
用clusterProfiler做其實夠用了,網頁在線做沒多大必要 ,能夠起起對照作用吧。網頁在線做,後續挑出自己想要的模塊,會方便一些,但自己用包做手動挑也還好。記錄這篇,是因為網頁做了幾次,想記錄下來留個印象。
做富集分析,對於輸出結果,不能只看前多少個有顯著富集的term,應該要看符合自己設的padjust閾值的所有term,看完再挑選自己想要展示的term成圖。這樣做能避免得出的結論不全面,對於事先沒有預想的term或者是事先預想的term不全面這些情況有幫助。
clusterProfiler做富集,可以對冗餘 GOterm 去冗餘,如:merge_go <- clusterProfiler::simplify(go, cutoff=0.7, by="p.adjust", select_fun=min)。要不要去冗餘看去冗餘前後展示出的效果是不是自己想要的,來決定。
動態GO富集分析:富集結果統計圖、條形圖、氣泡圖,可動態調整
https://www.omicshare.com/tools/home/report/goenrich.html
GO富集分析高級版:富集結果統計圖、條形圖、氣泡圖、富集圈圖、富集差異氣泡圖、有向無環網路圖,不可動態調整 https://www.omicshare.com/tools/Home/Soft/gogseasenior
動態KEGG富集分析:富集結果統計圖、條形圖、氣泡圖,可動態調整
https://www.omicshare.com/tools/home/report/koenrich.html
KEGG富集分析高級版: 富集結果統計圖、條形圖、氣泡圖、富集圈圖、富集差異氣泡圖、kegg網路圖,不可動態調整 https://www.omicshare.com/tools/Home/Soft/pathwaygseasenior
GO總共有三個ontology(本體),分別描述基因的 分子功能(molecular function)、細胞組分(cellular component)、參與的生物過程(biological process) 。GO的基本單位是term(詞條、節點),每個term都對應一個屬性。
x軸是Rich Factor,表示目的基因富集到該通路的基因數目與背景基因富集到該通路的基因數目的比值,所以比值越大,富集到該通路的基因數目越多;
y軸是富集出來的通路名稱,一般根據P-value或Q-value從小到大排列順序(最上面是最小的),挑選富集通路前20或30的通路來繪圖;點的大小表示Gene數目,點越大,表示富集到該通路的基因越多;點的顏色漸變最為重要,代表P值的高低,-log10(Pvalue)越大,P值越小,表示該通路越顯著。
P值是在進行富集分析時利用超幾何檢驗計算出來的結果。Q值是計算得到的P值進一步經過多重檢驗校正後的值。所以一般情況下Q值比P值的檢驗更嚴格。 這時候也可以分兩種情況,第一種是經過Q值的檢驗篩選後得到了與實驗設計相關的通路,那此時就可以用Q值來繪圖。第二種是經過Q值檢驗沒有得到滿意的結果,那可以換P值檢驗,得到與實驗相關的通路。
P-value是正常數值顯示還是取10的對數的負值來顯示,主要看P-value的大小,如果P-value非常小時,就可以對數據歸一化處理;如果數據較大,但又小於0.05時,可以不用對數據做處理。
圓圈的大小代表基因的數目,圓圈的顏色代表P-value,也就是說 Rich Factor越大,P-value越小,gene count圈越大,這事就越可信。
三個Ontology(C, F, P)會分別展示。以生物過程(biological process)為例子,如下表:
第一列為GO term的ID,點擊GO ID,可顯示這個GO term包含的所有基因:
再點擊這個GO ID,就可以鏈接到 http://amigo.geneontology.org 官網,可以查看GO的具體信息。
第二列為GO term的功能描述;
第三列:數字為目的基因中富集到這個GO term的基因數,out 括弧里數字為目的基因在 BP/MF/CC 里的總數,括弧內百分比等於Generatio。
第四列:數字為背景基因中富集到這個GO term的基因數,All括弧里數字為背景基因在 BP/MF/CC 里的總數,百分比為Bgratio
第五列:P value,即第三列的百分比與第四列的百分比相比,是否有顯著差異。將小於0.05的P value標紅顯示; 這些GO term是按照P value從小到大排列的,方便找差異富集結果。即最上面的 term 為在目的基因中富集最顯著的GO term,說明目的基因顯著富集於這個功能。
包含了pathway名稱、 目的基因中注釋到該pathway的基因數目以及占總目的基因數目的比例 、 所有背景基因中注釋到該pathway的基因數目以及占總背景基因數目的比例 、P值、Q值、pathway 的ID(ko號)。點擊pathway名稱可以查看該pathway包含的基因ID,繼續點pathway名稱可以鏈接到KEGG官網上pathway相應的通路圖
存放的就是每個pathway的map圖和相應的KEGG官網鏈接。
Pathway的B級分類基因注釋數目的統計圖:縱坐標黑色字體為A級分類名稱,彩色字體為B級分類名稱。橫坐標表示注釋到相應B級pathway的基因數目。
顯著富集pathway去前多少個根據 富集結果表(out.htm)再調整,用p值比用q值條件要松,顏色代表p值,柱狀長短(氣泡大小)代表富集到此通路基因的數量,橫坐標RichFactor代表目的基因中位於該pathway條目的基因數目與背景基因中位於該pathway條目的基因總數的比值,比值越大,富集程度則越大。
參考:
https://www.omicshare.com/forum/thread-826-1-1.html
https://www.omicshare.com/forum/thread-6821-1-1.html
https://www.omicshare.com/forum/thread-6822-1-1.html
https://www.omicshare.com/forum/forum.php?mod=viewthread&tid=7295&highlight=KEGG
https://zhuanlan.hu.com/p/35065777
https://www.jieandze1314.com/post/cnposts/164/
『伍』 「GO富集分析」從原理到實踐 ~ 零基礎掌握
原本,我並無寫這一稿件的想法。主要原因有二:
如果要找合理解釋,那麼針對第一點,就是每天仍然有大量新接觸生信數據分析的朋友;針對第二點,......在前兩天我推的文稿《零基礎快速完成基因功能注釋 / GO / KEGG / PFAM...》中,評論區答應了下,閱讀過5000,那就寫一寫富集分析。於是,如果不寫,總是不對。如果要寫,只能現在寫。畢竟有些事情,現在不做,以後真的不會做。
對於這一塊,完全陌生的朋友,尤其是不少生物學背景朋友,有必要溫習一下數理統計基礎。這一稿件只做原理最簡單的但使用最廣泛其速度最快的Over-Represence Analysis模式的富集分析講演。其他模式,不涉及。
回到主題,先舉個經典的抽球例子:
小紅小綠小藍三個人自稱有超能力,可以用手摸摸球就分辨出黑球白球,於是我們找來黑袋子,放100個球,其中20個白球80個黑球,讓三人分別無放回地抽取。
小紅隨機抽出來10個球,其中2個白球8個黑球,情況即,
抽球中白球比例與背景白球比例完全一致,說明小紅抽球結果隨機。
球放回去,小綠來抽球,抽出來的10個球,其中3個白球7個黑球,情況即,
這是經典的抽球案例,抽取到的白球個數的概率分布為超幾何分布。基於此,我們可以簡單計算抽取到比小綠抽取到球個數(或更多即更極端)的概率如何,在 R語言中計算,即
而對於小藍的情況,那麼概率如何?
在 TBtools 中也可以計算,只是寫法有點區別
可以看到,盡管這只是一次抽球,小綠抽球中白球比例(或更極端情況)出現的概率是31.88%+,還是挺高的,於是我們有較高的把握說,小綠嘛,只是走了狗屎運。相反,小藍抽球中白球比例或更極端情況出現的概率幾乎為 0 ,我們幾乎沒啥把握說,小藍走狗屎運....換句話說,我們有理由相信,或許小藍真有抽白球的超能力.....
說了這么多,那麼跟基因集合富集分析有啥關系?....基因集合功能富集分析。那麼我們就需要有一個基因集合(如差異表達基因集合或ChIP-seq的Peaks或GWAS定位的系列區間),還有一個功能標簽(如 生長素信號轉導相關 )。於是黑白球案例可以簡單調整一下。假定現在這個物種一共有100個基因,其中20個基因與生長素信號轉導相關,80個沒有注釋到與生長素信號轉導相關(換句話說,約等於無關),我們做了對植株做了處理,和CK分別測定轉錄表達譜,通過差異表達分析,鑒定到10個差異表達基因,其中2個與生長素信號轉導相關,而另外8個則沒注釋到生長素信號轉導相關,簡單畫一下,即
好,剩下的兩個就不替換了。整體上,ORA模式的富集分析,本身就是經典的抽球案例,感興趣的自行替換就可以了。
基本原理,相信都搞清楚了。不過還是有兩三點需要注意:
具體如何做物種所有基因的背景注釋,請參考前述推文《零基礎快速完成基因功能注釋 / GO / KEGG / PFAM...》。
首先,打開 TBtools GO 富集分析界面
整體如上,一共三個文件:
具體示例如下
點擊 Start ,隨後等待即可。完成時會有彈窗提示。查看輸出文件
(寫到這里,突然覺得這些都沒啥意思,不知為何....就不詳細寫了,大夥自己看看列名,猜猜吧)
很多時候,我們會選擇,篩選第一列,只看 Biological Process。一般這些與我們的生物學認知會貼近一些。
基因集合功能富集分析,是一個常常被談起的話題,甚至近期都有不少新方法或演算法被提出。感興趣的朋友可以去了解。這份教程,只與大夥說最簡單,但也是使用最為廣泛的一種富集分析模式。無論是不是 TBtools 用戶,理論上來說,都可以輕松理解並掌握,從原理到實踐。
寫到一半,其實我已經不想寫了。原因非常簡單,這也是為什麼在我之前,並沒有一個人寫出來 TBtools 類似的工具。不是寫不了,而是不想寫。有時候,隨著能力增長和知識積累,往往不再願意做一些簡單的事情。或許這還涉及到年齡的增長,角色的轉變,責任的變化....雲雲。
小時候,我以為寫 TBtools 玩玩;
後來,我以為我會一直寫下去;
現在,,,,,,
『陸』 非模式生物GO、KEGG富集分析
GO、KEGG富集分析是我們做生信分析較為常用的部分,它可以將基因與功能相聯系起來。
GO指的是Gene Ontology,是基因功能國際標准分類體系。目的在於建立一個適用於各種物種的,對基因和蛋白質功能進行限定和描述的,並能隨著研究不斷深入而更新的語言詞彙標准。GO分為分子功能(Molecular Function)(MF)、生物過程(Biological Process)(BP)、和細胞組成(Cellular Component)(CC)三個部分。
KEGG指的是京都基因與基因組網路全書,通常我們使用KEGG中的pathway模塊,將基因映射到某些通路上,了解基因參與生物體中的代謝過程等。
對於模式生物,GO和KEGG富集分析實現起來比較容易,對於非模式生物來說還是需要花點時間和精力。對於模式生物的GO和KEGG富集分析,網上教程案例挺多的。對於非模式生物,以小麥為例,進行下面一些基本的富集分析。
做富集分析,我們需要了解一下幾個概念。
1、前景基因:指的是我們所要進行富集的基因,一般是基因的ID
2、背景基因:指的是前景基因在某個基因集合進行富集,這個基因集合就是背景基因
3、描述信息:每個GO的Term的屬性,或者是每個KO號或者map號的屬性。
我們具備前景基因,背景基因以及描述信息我們就可以做富集分析啦。
1、前景基因:這是必須的啦。有時候需要進行ID轉換,但是個人覺得ID轉換根據需要來就行。如果前景基因裡面的基因ID是包括在背景基因裡面,那就需要進行轉換。如果前景基因在是新的基因或者在背景基因沒有被注釋到的,就不用進行ID轉換。下面這個就是融合基因,在背景基因裡面沒有注釋到的,那麼我就不要轉換。
2、背景基因:一個基因可能具備多個GO term,一個基因也可能參與多個通路,與之相對應的有多個map號
這個案例中背景基因文件構建思路如下圖
3、描述文件
跑完之後就會得到一些結果:
生成一些簡單的氣泡圖,條形圖,GO二級分類圖
『柒』 什麼是GO富集分析,常說的GO功能分析、功能分析、Pathway分析是什麼意思
Gene Ontology可分為分子功能(Molecular Function),生物過程(biological process)和細胞組成(cellular component)三個部分。蛋白質或者基因可以通過ID對應或者序列注釋的方法找到與之對應的GO號,而GO號可對於到Term,即功能類別或者細胞定位。
功能富集分析: 功能富集需要有一個參考數據集,通過該項分析可以找出在統計上顯著富集的GO Term。該功能或者定位有可能與研究的目前有關。
GO功能分類是在某一功能層次上統計蛋白或者基因的數目或組成,往往是在GO的第二層次。此外也有研究都挑選一些Term,而後統計直接對應到該Term的基因或蛋白數。結果一般以柱狀圖或者餅圖表示。
1.GO分析
根據挑選出的差異基因,計算這些差異基因同GO 分類中某(幾)個特定的分支的超幾何分布關系,GO 分析會對每個有差異基因存在的GO 返回一個p-value,小的p 值表示差異基因在該GO 中出現了富集。
GO 分析對實驗結果有提示的作用,通過差異基因的GO 分析,可以找到富集差異基因的GO分類條目,尋找不同樣品的差異基因可能和哪些基因功能的改變有關。
2.Pathway分析
根據挑選出的差異基因,計算這些差異基因同Pathway 的超幾何分布關系,Pathway 分析會對每個有差異基因存在的pathway 返回一個p-value,小的p 值表示差異基因在該pathway 中出現了富集。
Pathway 分析對實驗結果有提示的作用,通過差異基因的Pathway 分析,可以找到富集差異基因的Pathway 條目,尋找不同樣品的差異基因可能和哪些細胞通路的改變有關。與GO 分析不同,pathway 分析的結果更顯得間接,這是因為,pathway 是蛋白質之間的相互作用,pathway 的變化可以由參與這條pathway 途徑的蛋白的表達量或者蛋白的活性改變而引起。而通過晶元結果得到的是編碼這些蛋白質的mRNA 表達量的變化。從mRNA 到蛋白表達還要經過microRNA 調控,翻譯調控,翻譯後修飾(如糖基化,磷酸化),蛋白運輸等一系列的調控過程,mRNA 表達量和蛋白表達量之間往往不具有線性關系,因此mRNA 的改變不一定意味著蛋白表達量的改變。同時也應注意到,在某些pathway 中,如EGF/EGFR 通路,細胞可以在維持蛋白量不變的情況下,通過蛋白磷酸化程度的改變(調節蛋白的活性)來調節這條通路。所以晶元數據pathway 分析的結果需要有後期蛋白質功能實驗的支持,如Western blot/ELISA,IHC(免疫組化),over expression(過表達),RNAi(RNA 干擾),knockout(基因敲除),trans gene(轉基因)等。
3.基因網路分析
目的:根據文獻,資料庫和已知的pathway 尋找基因編碼的蛋白之間的相互關系(不超過1000 個基因)。
『捌』 什麼是GO富集分析,常說的GO功能分析、功能分析、Pathway分析是什麼意思
Gene
Ontology可分為分子功能(
Molecular
Function),
生物過程
(
biological
process)和細胞組成(cellular
component
)三個部分。蛋白質或者基因可以通過ID對應或者序列注釋的方法找到與之對應的GO號,而GO號可對於到Term,即功能類別或者細胞定位。
功能富集分析:
功能富集需要有一個參考
數據集
,通過該項分析可以找出在統計上顯著富集的GO
Term。該功能或者定位有可能與研究的目前有關。
GO功能分類是在某一功能層次上統計蛋白或者基因的數目或組成,往往是在GO的第二層次。此外也有研究都挑選一些Term,而後統計直接對應到該Term的基因或蛋白數。結果一般以
柱狀圖
或者
餅圖
表示。
1.GO分析
根據挑選出的
差異基因
,計算這些差異基因同GO
分類中某(幾)個特定的分支的
超幾何分布
關系,GO
分析會對每個有差異基因存在的GO
返回一個
p-value
,小的p
值表示差異基因在該GO
中出現了富集。
GO
分析對實驗結果有提示的作用,通過差異基因的GO
分析,可以找到富集差異基因的GO分類條目,
尋找不同
樣品的差異基因可能和哪些基因功能的改變有關。
2.Pathway分析
根據挑選出的差異基因,計算這些差異基因同Pathway
的超幾何分布關系,Pathway
分析會對每個有差異基因存在的pathway
返回一個p-value,小的p
值表示差異基因在該pathway
中出現了富集。
Pathway
分析對實驗結果有提示的作用,通過差異基因的Pathway
分析,可以找到富集差異基因的Pathway
條目,尋找不同樣品的差異基因可能和哪些細胞通路的改變有關。與GO
分析不同,pathway
分析的結果更顯得間接,這是因為,pathway
是蛋白質之間的相互作用,pathway
的變化可以由參與這條pathway
途徑的蛋白的表達量或者蛋白的活性改變而引起。而通過晶元結果得到的是編碼這些蛋白質的mRNA
表達量的變化。從mRNA
到蛋白表達還要經過microRNA
調控,翻譯調控,
翻譯後修飾
(如
糖基化
,
磷酸化
),蛋白運輸等一系列的調控過程,mRNA
表達量和蛋白表達量之間往往不具有
線性關系
,因此mRNA
的改變不一定意味著蛋白表達量的改變。同時也應注意到,在某些pathway
中,如EGF/EGFR
通路,細胞可以在維持蛋白量不變的情況下,通過蛋白磷酸化程度的改變(調節蛋白的活性)來調節這條通路。所以晶元數據pathway
分析的結果需要有後期蛋白質功能實驗的支持,如Western
blot/ELISA,IHC(
免疫組化
),over
expression
(過表達),RNAi(RNA
干擾),knockout(基因敲除),trans
gene(轉基因)等。
3.基因網路分析
目的:根據文獻,資料庫和已知的pathway
尋找基因編碼的蛋白之間的相互關系(不超過1000
個基因)。