生物信息學(xué)的主要研究開發(fā)內(nèi)容
2004-10-13 00:00:00 來源：基因潮點擊數(shù)：評論：0 我要評論

基因組包含了構(gòu)成和維持一個生活有機體所必備的基本信息，由細胞內(nèi)進行的多種分子生物學(xué)反應(yīng)將這些信息轉(zhuǎn)化為真正的生命現(xiàn)象?；蚪M的一部分編碼蛋白質(zhì)和RNA，其它部分調(diào)控這些大分子的表達。表達的蛋白質(zhì)及RNA折疊成高度專一的三維結(jié)構(gòu)，在體內(nèi)的特定位置上實現(xiàn)其功能。這些過程的大量細節(jié)都是在分子生物學(xué)研究的實驗室里揭示出來的，所形成的大量數(shù)據(jù)，存儲于數(shù)據(jù)庫中。生物信息學(xué)試圖從這些數(shù)據(jù)中提取新的生物學(xué)信息和知識，是一門深深植根于全面深入的實驗事實和數(shù)據(jù)的理論生物學(xué)。從目前生物信息學(xué)的研究情況來看，國際上公認(rèn)的生物信息學(xué)的研究內(nèi)容，大致包括以下幾個方面：

生物信息的收集、存儲、管理與提供。包括建立國際基本生物信息庫和生物信息傳輸?shù)膰H聯(lián)網(wǎng)系統(tǒng)；建立生物信息數(shù)據(jù)質(zhì)量的評估與檢測系統(tǒng)；生物信息的在線服務(wù)；生物信息可視化和專家系統(tǒng)。

基因組序列信息的提取和分析。包括基因的發(fā)現(xiàn)與鑒定，如利用國際EST 數(shù)據(jù)庫 (dbEST) 和各自實驗室測定的相應(yīng)數(shù)據(jù)，經(jīng)過大規(guī)模并行計算發(fā)現(xiàn)新基因和新SNPs以及各種功能位點；基因組中非編碼區(qū)的信息結(jié)構(gòu)分析，提出理論模型，闡明該區(qū)域的重要生物學(xué)功能；進行模式生物完整基因組的信息結(jié)構(gòu)分析和比較研究；利用生物信息研究遺傳密碼起源、基因組結(jié)構(gòu)的演化、基因組空間結(jié)構(gòu)與DNA折疊的關(guān)系以及基因組信息與生物進化關(guān)系等生物學(xué)的重大問題。

功能基因組相關(guān)信息分析。包括與大規(guī)?；虮磉_譜分析相關(guān)的算法、軟件研究，基因表達調(diào)控網(wǎng)絡(luò)的研究；與基因組信息相關(guān)的核酸、蛋白質(zhì)空間結(jié)構(gòu)的預(yù)測和模擬，以及蛋白質(zhì)功能預(yù)測的研究。

生物大分子結(jié)構(gòu)模擬和藥物設(shè)計。包括RNA(核糖核酸)的結(jié)構(gòu)模擬和反義RNA的分子設(shè)計；蛋白質(zhì)空間結(jié)構(gòu)模擬和分子設(shè)計；具有不同功能域的復(fù)合蛋白質(zhì)以及連接肽的設(shè)計；生物活性分子的電子結(jié)構(gòu)計算和設(shè)計；納米生物材料的模擬與設(shè)計；基于酶和功能蛋白質(zhì)結(jié)構(gòu)、細胞表面受體結(jié)構(gòu)的藥物設(shè)計；基于DNA結(jié)構(gòu)的藥物設(shè)計等。

生物信息分析的技術(shù)與方法研究。包括發(fā)展有效的能支持大尺度作圖與測序需要的軟件、數(shù)據(jù)庫以及若干數(shù)據(jù)庫工具，諸如電子網(wǎng)絡(luò)等遠程通訊工具；改進現(xiàn)有的理論分析方法，如統(tǒng)計方法、模式識別方法、隱馬爾科夫過程方法、分維方法、神經(jīng)網(wǎng)絡(luò)方法、復(fù)雜性分析方法、密碼學(xué)方法、多序列比較方法等；創(chuàng)建一切適用于基因組信息分析的新方法、新技術(shù)。包括引入復(fù)雜系統(tǒng)分析技術(shù)、信息系統(tǒng)分析技術(shù)等；建立嚴(yán)格的多序列比較方法；發(fā)展與應(yīng)用密碼學(xué)方法以及其他算法和分析技術(shù)，用于解釋基因組的信息，探索DNA序列及其空間結(jié)構(gòu)信息的新表征；發(fā)展研究基因組完整信息結(jié)構(gòu)和信息網(wǎng)絡(luò)的研究方法等；發(fā)展生物大分子空間結(jié)構(gòu)模擬、電子結(jié)構(gòu)模擬和藥物設(shè)計的新方法與新技術(shù)。

應(yīng)用與發(fā)展研究。匯集與疾病相關(guān)的人類基因信息，發(fā)展患者樣品序列信息檢測技術(shù)和基于序列信息選擇表達載體、引物的技術(shù)，建立與動植物良種繁育相關(guān)的數(shù)據(jù)庫以及與大分子設(shè)計和藥物設(shè)計相關(guān)的數(shù)據(jù)庫。

總的來說近期生物信息學(xué)將在以下幾方面迅速發(fā)展：大規(guī)?；蚪M測序中的信息分析；新基因和新SNPs（單核苷酸多態(tài)性）的發(fā)現(xiàn)與鑒定；完整的比較基因組研究；大規(guī)?；蚬δ鼙磉_譜的分析；生物大分子的結(jié)構(gòu)模擬與藥物設(shè)計。而其長遠任務(wù)是非編碼區(qū)信息結(jié)構(gòu)分析和遺傳密碼起源與生物進化的研究。讀懂人類基因組，發(fā)現(xiàn)人類遺傳語言的根本規(guī)律，從而闡明若干生物學(xué)中的重大自然哲學(xué)問題，像生命的起源與進化等。

以下就若干方面再做一定的介紹

1．數(shù)據(jù)庫

據(jù)保守估計，目前世界上平均每一分鐘就有一個序列增加到核酸序列數(shù)據(jù)庫中，能夠從飛速增長的序列數(shù)據(jù)更高效的提取信息，建立生物信息中心，通過互聯(lián)網(wǎng)實現(xiàn)全球范圍內(nèi)的信息共享成為必然。歐美各國及日本等西方國家相繼成立了生物信息資源和研究中心，如美國國家生物技術(shù)信息中心(National Center for Biotechnology Information，NCBI)、位于英國的歐洲生物信息研究所(European Bioinformatics Institute，EBI)、位于瑞士日內(nèi)瓦的蛋白質(zhì)專家分析系統(tǒng)(The Expert Protein Analysis System，ExPaSy)、日本國立遺傳學(xué)研究院(National Institute Genetics，簡稱NIG)等。以西歐各國為主的歐洲分子生物學(xué)網(wǎng)絡(luò)組織European Molecular Biology network (EMBnet)，成立于1988年，是目前國際上最大的分子生物信息研究、開發(fā)和服務(wù)機構(gòu)。它把歐洲乃至世界各國的生物信息中心聯(lián)系在一起，實現(xiàn)信息共享，并合作進行開發(fā)、研究、培訓(xùn)。

2．基因組

在后基因組時代，生物信息學(xué)家不僅有大量的序列和基因而且有越來越多的完整基因組。有了這些資料人們就能對若干重大生物學(xué)問題進行分析。生物信息學(xué)為分子生物學(xué)家提供了一條尋找和研究新基因的新思路，即從高度自動化的實驗出發(fā)，經(jīng)過數(shù)據(jù)的獲取與處理、序列片段的拼接、可能基因的尋找、基因功能的預(yù)測一直到基因的分子進化研究。這個過程的每一個環(huán)節(jié)，都是生物信息學(xué)研究的重要內(nèi)容。

高度自動化的實驗數(shù)據(jù)的獲得、加工和整理。如何將實驗室中得到的生物學(xué)信息轉(zhuǎn)化為計算機能夠處理的數(shù)字信息，是生物信息學(xué)的一個重要課題。這種轉(zhuǎn)化大量地體現(xiàn)在各種自動化分子生物學(xué)儀器應(yīng)用上，如DNA測序儀，PCR儀等。這類儀器將實驗所得的物理化學(xué)信號轉(zhuǎn)化為數(shù)字信息，并對其作簡單分析，再將分析結(jié)果用于實驗條件的控制，完成高度自動化的實驗過程。從事大規(guī)模EST測序和DNA物理圖譜構(gòu)建的實驗室都已建立起高度自動化的機器人系統(tǒng)來完成大部分的實驗工作。伴隨著實驗過程的高度自動化甚至工廠化，從事大規(guī)模分子生物學(xué)項目的實驗室，每天需要存儲的數(shù)據(jù)可以輕易地超過幾千兆字節(jié)。這樣大的數(shù)據(jù)量必須用專門的實驗室數(shù)據(jù)管理系統(tǒng)進行處理，以自動完成包括實驗進程和數(shù)據(jù)的記錄，常規(guī)數(shù)據(jù)分析，數(shù)據(jù)質(zhì)量檢測和問題的自動查找，常規(guī)的數(shù)據(jù)說明和數(shù)據(jù)輸人數(shù)據(jù)庫在內(nèi)的各項工作。由于不同實驗室需處理的數(shù)據(jù)類型各不相同，目前各個實驗室都是各自開發(fā)自己的系統(tǒng)，還沒有成熟的可用于不同實驗室的分子生物學(xué)數(shù)據(jù)管理系統(tǒng)。但隨著測序逐漸成為實驗室的常規(guī)工作，對這種系統(tǒng)的需求會越來越大，此類系統(tǒng)的發(fā)展將成為大勢所趨。

序列片段的拼接。目前DNA自動測序儀每個反應(yīng)只能測序500bP左右。如何將這些序列片段拼接成完整的DNA順序就成為接下來的一個重要工作。傳統(tǒng)的測序技術(shù)通常將克隆進行亞克隆并對亞克隆進行排序。這些工作需要大量的人力物力?，F(xiàn)在生物信息學(xué)提供了自動而高速地拼接序列的算法，即根據(jù) Lander－ Waterman模型利用鳥槍法進行測序，再將大量隨機測序的片段用計算機進行自動拼接。這種技術(shù)不僅避免了亞克隆排序所需的大量繁瑣的工作，還使序列具有一定的冗余性（redundancy，即一定數(shù)量的重復(fù)）以保證序列中每個堿基的準(zhǔn)確性。

3．基因組序列分析

在基因組測序的原始數(shù)據(jù)發(fā)表后，仍有許多信息研究需要開展，比如注釋、同源性分析、基因分類、基因結(jié)構(gòu)分析等，這方面的研究需要建立較優(yōu)化的數(shù)理統(tǒng)計模型，大規(guī)模的數(shù)據(jù)庫檢索，模式識別和可視化等。在確認(rèn)了基因的基礎(chǔ)上，通過與已知的基因產(chǎn)物的結(jié)構(gòu)和功能、代謝途徑和其它生物功能對照，可以實現(xiàn)新基因產(chǎn)物功能的預(yù)報，結(jié)合定向的生物實驗，可以證實預(yù)報的功能。

基因區(qū)域的預(yù)測。在完成序列的拼接后，我們得到的是很長的DNA序列，甚至可能是整個基因組的序列。這些序列中包含著許多未知的基因，下一步就是將基因區(qū)域從這些長序列中找出來。所謂基因區(qū)域的預(yù)測，一般是指預(yù)測DNA順序中編碼蛋白質(zhì)的部分，即外顯子部分。不過目前基因區(qū)域的預(yù)測已從單純外顯子預(yù)測發(fā)展到整個基因結(jié)構(gòu)的預(yù)測。這些預(yù)測綜合各種外顯子預(yù)測的算法和人們對基因結(jié)構(gòu)信號（如 TATA box和加尾信號）的認(rèn)識，預(yù)測出可能的完整基因。

基因功能預(yù)測。實驗手段證實一個預(yù)測的新基因后，下一步要做的就是尋找這個基因的功能。生物信息學(xué)為此提供了一系列方法，使我們的研究能夠有的放矢。序列同源比較往往是得到新基后預(yù)測其功能的第一步。通過同源比較來預(yù)測基因功能是基于這樣一個假設(shè)：如果基因A與基因B有相當(dāng)?shù)耐葱?，那么基因A可能具有類似基因B的功能。利用同源比較算法，將待檢測的新基因序列到DNA和蛋白質(zhì)序列數(shù)據(jù)庫中進行同源檢索后，我們可以得到一系列與新基因同源性較高的基因或片段。這些基因和片段的以知的功能信息就為進一步研究新基因功能提供了具有相當(dāng)參考價值的導(dǎo)向。

通過同源檢索，我們可能推測待檢的新基因是某個蛋白質(zhì)家族的新成員，下一步就是尋找新基因中包含的該蛋白質(zhì)家族的保守序列，這樣也就為進一步深入研究其功能作好了準(zhǔn)備。多序列同源比較，或稱為多序列對齊（multiple－sequence alignment），是將多個序列進行同源比較以發(fā)現(xiàn)其共同的結(jié)構(gòu)特征的方法，被廣泛用來尋找基因家族或蛋白質(zhì)家族中的保守部分。由于保守部分往往與家族成員的功能密切相關(guān)，所以通過這些方法建立蛋白質(zhì)家族數(shù)據(jù)庫，能夠幫助科學(xué)家更好地認(rèn)識基因的功能。這些數(shù)據(jù)庫可以幫助我們把新基因所屬的蛋白質(zhì)家族及其保守部分找出來，并提供這個家族其他成員的結(jié)構(gòu)和功能信息。

4．蛋白質(zhì)結(jié)構(gòu)與功能預(yù)測

核酸和蛋白質(zhì)序列以及蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)是生物信息學(xué)的主要研究對象。由于測序技術(shù)的快速發(fā)展及蛋白質(zhì)結(jié)構(gòu)測定技術(shù)的相對滯后，使得現(xiàn)在分子數(shù)據(jù)庫中的序列數(shù)據(jù)量與結(jié)構(gòu)數(shù)據(jù)量形成了巨大的反差。鑒于此，序列分析已經(jīng)成了這一領(lǐng)域現(xiàn)階段的首要任務(wù)。開發(fā)有效的數(shù)據(jù)分析工具，將序列信息轉(zhuǎn)換成生物化學(xué)和生理學(xué)知識，弄清它們所蘊含的結(jié)構(gòu)和功能信息，最終了解它們所代表的生物學(xué)意義。

現(xiàn)階段揭示序列數(shù)據(jù)所隱含的生物學(xué)意義的主要方法是模式識別技術(shù)。顧名思義，模式識別的基本思想是利用存在于蛋白質(zhì)序列或結(jié)構(gòu)中的某些特征模式識別相關(guān)蛋白質(zhì)的性質(zhì)。如果某一蛋白質(zhì)序列或結(jié)構(gòu)中的一部分具有保守性，這種保守性或者與蛋白質(zhì)的生物活性有關(guān)，或者與蛋白質(zhì)的折疊方式有關(guān)；那么，這種特征模式可以用來識別該蛋白質(zhì)家族中的新成員。換句話說，如果將已知蛋白質(zhì)的特征序列模式和特征結(jié)構(gòu)模式搜集起來，構(gòu)建成數(shù)據(jù)庫，則可以用來確定新測定的蛋白質(zhì)序列中是否具有某種特征模式，從而確定該未知蛋白屬于哪個蛋白質(zhì)家族。

蛋白質(zhì)二級結(jié)構(gòu)預(yù)測的方法有三種。一是由已知結(jié)構(gòu)統(tǒng)計各種氨基酸殘基形成二級結(jié)構(gòu)的構(gòu)象趨勢，其中最常用的是Chou 和 Fasman法；二是基于氨基酸的物理化學(xué)性質(zhì)，包括堆積性、疏水性、電荷性、氫鍵形成能力等；三是通過序列比對，由已知三維結(jié)構(gòu)的同源蛋白推斷未知蛋白的二級結(jié)構(gòu)。盡管Chou和Fasman法被公認(rèn)為是經(jīng)典的二級結(jié)構(gòu)預(yù)測方法，但其準(zhǔn)確性只能達到65%。究其原因，是因為用作統(tǒng)計二級結(jié)構(gòu)構(gòu)象趨勢的蛋白質(zhì)空間結(jié)構(gòu)數(shù)據(jù)庫中非同源蛋白的數(shù)量還不夠多?；诙嘈蛄斜葘Φ亩壗Y(jié)構(gòu)預(yù)測方法其精度可提高幾個百分點。蛋白質(zhì)三級結(jié)構(gòu)預(yù)測，特別是基于二級結(jié)構(gòu)預(yù)測的三級結(jié)構(gòu)預(yù)測，盡管已經(jīng)由個別成功的例子，總的說來，還遠遠沒有成熟。

利用數(shù)據(jù)庫搜索找出未知蛋白的同源序列，是序列分析的基礎(chǔ)。其基本出發(fā)點，是基于序列的相似性比對。相似性(similarity)和同源性(homology)是兩個不同的概念。確切地說，相似性概念來自于蛋白質(zhì)結(jié)構(gòu)分析。它具有兩層含義?？梢灾附Y(jié)構(gòu)相似或折疊方式相似。也可以指序列或結(jié)構(gòu)雖不具有相似性，但它們具有相似的空間構(gòu)型。可以認(rèn)為，相似關(guān)系是趨同進化的結(jié)果。是從不同的進化起點出發(fā)，達到相似的生物功能。

有時一個可能的新基因通過同源檢索找不到任何同源基因。這種序列就稱為"孤兒"基因。生物信息學(xué)也提供一些預(yù)測孤兒基因功能的方法。這就是通過基于結(jié)構(gòu)的同源比較（structure－structure alignment）尋找結(jié)構(gòu)同源的基因或直接預(yù)測其高級結(jié)構(gòu)來推測其可能的功能。有許多蛋白質(zhì)高級結(jié)構(gòu)數(shù)據(jù)庫提供結(jié)構(gòu)同源比較的檢索。另一方面，直接預(yù)測基因產(chǎn)物的高級結(jié)構(gòu)的算法現(xiàn)在已經(jīng)有不少，然而，由于蛋白質(zhì)的折疊結(jié)構(gòu)實在太復(fù)雜，使得計算最佳構(gòu)象非常困難。如果結(jié)構(gòu)生物學(xué)在這方面的研究能夠有所突破，無疑將大大推動基因功能的預(yù)測。

5．基因多態(tài)性分析與藥物設(shè)計

即使一個基因的序列已經(jīng)確定，它只是有代表性的序列之一。在群體的分布中，仍存在有基因的多態(tài)性。由于多態(tài)性的存在，生物表型及對環(huán)境、外源物和藥物的反應(yīng)都有所不同。研究基因多態(tài)性可以對群體的基因共性及其中的基因個性都有明確的認(rèn)識，從而在保健、預(yù)防、治療以及制藥方面實現(xiàn)個性化最優(yōu)化。

生物信息學(xué)所提供的數(shù)據(jù)資料，可以指導(dǎo)對藥物作用靶位的選定和藥物分子的設(shè)計。這種方法有快速高效的特點，它的研究包括大分子結(jié)構(gòu)功能的模擬和預(yù)報，藥物分子與大分子結(jié)合的模擬，關(guān)鍵性基因的致病機制，及生物分子同源性的分析，生物分子在指定細胞的分布和位點以及個體差異等等。

6．分子進化

根據(jù)多種生物的基因組數(shù)據(jù)及對垂直進化和平行演化的研究，可以對生命至關(guān)重要的基因結(jié)構(gòu)及它的調(diào)控進行研究，對此需要建立較完整的生物進化模型，用基因組的數(shù)據(jù)來鑒別出環(huán)境因素對其進化的影響。這次研究成果應(yīng)對生態(tài)環(huán)境，環(huán)境衛(wèi)生提出指導(dǎo)性影響，對研究生命起源也有科學(xué)意義。

如我們可以通過比較蛋白質(zhì)殘基同源序列來考察進化關(guān)系。在同源序列中，有必要將不同種屬中具有相同功能的蛋白質(zhì)和一個個體中既有一定關(guān)系卻又不相同的蛋白質(zhì)加以區(qū)別，前者稱直系同源物(orthologues)，后者稱旁系同源物(paralogues)。直系同源蛋白的序列比較，為分子考古學(xué)提供了方向。在某些情況下，利用構(gòu)建進化樹的方法，可以揭示細菌、酵母、昆蟲、動物、植物之間的關(guān)系。這些關(guān)系只能從分子水平才能得以闡明。旁系同源蛋白的研究，對進化的內(nèi)在機制提供了較為深入的線索。旁系同源蛋白是從同一個基因經(jīng)連續(xù)的復(fù)制而形成。復(fù)制所得基因經(jīng)歷了各自的進化途徑，新物種通過變異和適應(yīng)而產(chǎn)生。

7．基于遺傳的流行病

流行病學(xué)研究是醫(yī)學(xué)信息學(xué)的重要課題之一。將流行病學(xué)的遺傳和非遺傳性的研究與分子基因信息結(jié)合起來，會導(dǎo)致對疾病的機理、個體對某種疾病的易感性和疾病在群體中的分布有更明確的認(rèn)識，對疾病的預(yù)防和治療有極大的指導(dǎo)意義。

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

生物信息學(xué)的主要研究開發(fā)內(nèi)容2004-10-13 00:00:00 來源：基因潮 點擊數(shù)： 評論：0 我要評論

生物信息學(xué)的主要研究開發(fā)內(nèi)容
2004-10-13 00:00:00 來源：基因潮點擊數(shù)：評論：0 我要評論