您的位置:首頁

蛋白質結構預測的介紹

如今對於蛋白質大家應該是非常熟悉的,是我們人體必需的主要營養物質。由氨基酸組成,是另一種重要的供能物質。蛋白質能維持組織的生長、更新和修復:膳食中必須提供足夠質和量的蛋白質,才能維持組織、細胞的生長、更新和修復。下面就來為大家講下蛋白質結構預測。

蛋白質一種生物體的基因組規定了所有構成該生物體的蛋白質,基因規定了組成蛋白質的氨基酸序列。雖然蛋白質由氨基酸的線性序列組成,但是,它們只有折疊成特定的空間構象才能具有相應的活性和相應的生物學功能。瞭解蛋白質的空間結構不僅有利於認識蛋白質的功能,也有利於認識蛋白質是如何執行其功能的。確定蛋白質的結構對於生物學研究是非常重要的。目前,蛋白質序列資料庫的資料積累的速度非常快,但是,已知結構的蛋白質相對比較少。儘管蛋白質結構測定技術有了較為顯著的進展,但是,通過實驗方法確定蛋白質結構的過程仍然非常複雜,代價較高。因此,實驗測定的蛋白質結構比已知的蛋白質序列要少得多。另一方面,隨著DNA測序技術的發展,人類基因組及更多的模式生物基因組已經或將要被完全測序,DNA序列數量將會急增,而由於DNA序列分析技術和基因識別方法的進步,我們可以從DNA推導出大量的蛋白質序列。這意味著已知序列的蛋白質數量和已測定結構的蛋白質數量(如蛋白質結構資料庫PDB中的資料)的差距將會越來越大。人們希望產生蛋白質結構的速度能夠跟上產生蛋白質序列的速度,或者減小兩者的差距。那麼如何縮小這種差距呢?我們不能完全依賴現有的結構測定技術,需要發展理論分析方法,這對蛋白質結構預測提出了極大的挑戰。20世紀60年代後期,Anfinsen首先發現去折疊蛋白或者說變性(denatured)蛋白質在允許重新折疊的實驗條件下可以重新折疊到原來的結構,這種天然結構(native structure)對於蛋白質行使生物功能具有重要作用,大多數蛋白質只有在折疊成其天然結構的時候才能具有完全的生物活性。自從Anfinsen提出蛋白質折疊的資訊隱含在蛋白質的一級結構中,科學家們對蛋白質結構的預測進行了大量的研究,分子生物學家將有可能直接運用適當的演算法,從氨基酸序列出發,預測蛋白質的結構。本章主要著重介紹蛋白質二級結構及空間結構預測的方法。

基因是生命的藍圖,蛋白質是生命的機器。來自於四種字元字母表(A,T(U),C,G)的核酸序列中蘊藏著生命的資訊,而蛋白質則執行著生物體內各種重要的工作,如生物化學反應的催化、營養物質的輸運、生長和分化控制、生物信號的識別和傳遞等。蛋白質序列由相應的核酸序列所決定,通過對基因的轉錄和翻譯,將原來四字元的DNA序列,根據三聯密碼規則翻譯成20字元的蛋白質氨基酸序列。

蛋白質具有不同的長度、不同的氨基酸排列和不同的空間結構,實驗分析表明蛋白質能夠形成特定的結構。蛋白質中相鄰的氨基酸通過肽鍵形成一條伸展的鏈,肽鏈上的氨基酸殘基形成局部的二級結構,各種二級結構組合形成完整的折疊結構。蛋白質分子很大,其折疊的空間結構會將一些區域包裹在內部,而將其它的區域暴露在外。在蛋白質的空間結構中,序列上相距比較遠的氨基酸可能彼此接近。在水溶液中,肽鏈折疊成為特定的三維結構。主要的驅動力來自於氨基酸殘基的疏水性,氨基酸殘基的疏水性要求將氨基酸疏水片段放置于分子的內部。圖7.1(a)是酪氨酸磷酸酶的蛋白質序列,圖7.1(b)是對應的二級結構,其中H 代表螺旋,E 代表折疊,B表示β橋,G表示310螺旋,I表示π螺旋,T表示氫鍵轉角,S代表轉向,圖7.1(c)顯示的是該蛋白質的折疊結構。

研究蛋白質的結構意義重大,分析蛋白質結構、功能及其關係是蛋白質組計畫中的一個重要組成部分。研究蛋白質結構,有助於瞭解蛋白質的作用,瞭解蛋白質如何行使其生物功能,認識蛋白質與蛋白質(或其它分子)之間的相互作用,這無論是對於生物學還是對於醫學和藥學,都是非常重要的。對於未知功能或者新發現的蛋白質分子,通過結構分析,可以進行功能注釋,指導設計進行功能確認的生物學實驗。通過分析蛋白質的結構,確認功能單位或者結構域,可以為遺傳操作提供目標,為設計新的蛋白質或改造已有蛋白質提供可靠的依據,同時為新的藥物分子設計提供合理的靶分子結構。

生物資訊學的一個基本觀點是:分子的結構決定分子的性質和分子的功能。因此,生物大分子蛋白質的空間結構決定蛋白質的生物學功能。但是,蛋白質的空間結構又是由什麼決定的呢?當一個蛋白質的空間結構被破壞以後,或者蛋白質解折疊後,可以恢復其自然的折疊結構。大量的實驗結果證明:蛋白質的結構由蛋白質序列所決定。雖然影響蛋白質空間結構的另一個因素是蛋白質分子所處的溶液環境,但是,決定蛋白質結構的資訊則是被編碼於氨基酸序列之中。然而,這種編碼是否能被破譯呢?或者說是否能夠直接從氨基酸序列預測出蛋白質的空間結構呢?

從數學上講,蛋白質結構預測的問題是尋找一種從蛋白質的氨基酸線性序列到蛋白質所有原子三維座標的映射。典型的蛋白質含有幾百個氨基酸、上千個原子,而大蛋白質(如載脂蛋白)的氨基酸個數超過4500。所有可能的序列到結構的映射數隨蛋白質氨基酸殘基個數呈指數增長,是天文數字。然而幸運的是,自然界實際存在的蛋白質是有限的,並且存在著大量的同源序列,可能的結構類型也不多,序列到結構的關係有一定的規律可循。因此,蛋白質結構預測是可能的。

蛋白質結構預測主要有兩大類方法。一類是理論分析方法或從頭算方法(Ab initio),通過理論計算(如分子力學、分子動力學計算)進行結構預測。該類方法假設折疊後的蛋白質取能量最低的構象。從原則上來說,我們可以根據物理、化學原理,通過計算來進行結構預測。但是在實際中,這種方法往往不合適。主要有幾個原因,一是自然的蛋白質結構和未折疊的蛋白質結構,兩者之間的能量差非常小(1kcal/mol 數量級),二是蛋白質可能的構象空間龐大,針對蛋白質折疊的計算量非常大。另外,計算模型中力場參數的不準確性也是一個問題。

另一類蛋白質結構預測的方法是統計方法,該類方法對已知結構的蛋白質進行統計分析,建立序列到結構的映射模型,進而根據映射模型對未知結構的蛋白質直接從氨基酸序列預測結構。映射模型可以是定性的,也可以是定量的。這是進行蛋白質結構預測較為成功的一類方法。這一類方法包括經驗性方法、結構規律提取方法、同源模型化方法等。

所謂經驗性方法就是根據一定序列形成一定結構的傾向進行結構預測,例如,根據不同氨基酸形成特定二級結構的傾向進行結構預測。通過對已知結構的蛋白質(如蛋白質結構資料庫PDB、蛋白質二級結構資料庫DSSP中的蛋白質)進行統計分析,可以發現各種氨基酸形成不同二級結構的傾向,從而形成一系列關於二級結構預測的規則。

與經驗性方法相似的另一種辦法是結構規律提取方法,這是更一般的方法。該方法從蛋白質結構資料庫中提取關於蛋白質結構形成的一般性規則,指導建立未知結構的蛋白質的模型。有許多提取結構規律的方法,如通過視覺觀察的方法,基於統計分析和序列多重比對的方法,利用人工神經網路提取規律的方法。

同源模型化方法通過同源序列分析或者模式匹配預測蛋白質的空間結構或者結構單元(如鋅指結構、螺旋-轉角-螺旋結構、DNA結合區域等)。其原理基於下述事實:每一個自然蛋白質具有一個特定的結構,但許多不同的序列會採用同一個基本的折疊,也就是說,具有相似序列的蛋白質傾向于折疊成相似的空間結構。一對自然進化的蛋白質,如果它們的序列具有25~30%的等同部分或者更多,則可以假設這兩個蛋白質折疊成相似的空間結構。這樣,如果一個未知結構的蛋白質與一個已知結構的蛋白質具有足夠的序列相似性,那麼可以根據相似性原理給未知結構的蛋白質構造一個近似的三維模型。如果目標蛋白質序列的某一部分與已知結構的蛋白質的某一結構域區域相似,則可以認為目標蛋白質具有相同的結構域或者功能區域。在蛋白質結構預測方面,預測結果最可靠的方法是同源模型化方法。

蛋白質的同源性比較往往是借助於序列比對而進行的,通過序列比對可以發現蛋白質之間進化的關係。在蛋白質結構分析方面,通過序列比對可以發現序列保守模式或突變模式,這些序列模式中包含著非常有用的三維結構資訊。利用同源模型化方法可以預測10~30%蛋白質的結構。然而,許多具有相似結構的蛋白質是遠端同源的,它們的等同序列不到25%。也就是說,具有相似空間結構的蛋白質序列等同程度可能小於25%。這些蛋白質的同源性不能被傳統的序列比對方法所識別。如果通過一個未知序列搜索一個蛋白質序列資料庫,並且搜索條件為序列等同程度小於25%的話,那麼將會得到大量不相關的蛋白質。因此,搜索遠端同源蛋白質就像在乾草堆裡尋找一根針。尋找遠端同源蛋白質是一項困難的任務,處理這項任務的技術稱為“線索(THREADING)技術”。對於一個未知結構的蛋白質,僅當我們找不到等同序列大於25%的已知結構的同源蛋白質時,才通過線索技術尋找已知結構的遠端同源蛋白質,進而預測其結構。找到一個遠端同源蛋白質後,就可以利用遠端同源建模方法來建立蛋白質的結構模型。

如果既沒有找到一般的同源蛋白質,又沒有找到遠端同源蛋白質,那麼如何進行結構預測呢?一種可行的辦法就是充分利用現有資料庫中的資訊,包括二級結構和空間結構的資訊,首先從蛋白質序列預測其二級結構,然後再從二級結構出發,預測蛋白質的空間結構;或者採用從頭算方法進行結構預測。

通過以上對蛋白質結構預測的介紹,大家現在都有所瞭解了吧。這裡要提醒的是:人體每日需要的能量,主要來自於糖類及脂 肪。當蛋白質的量超過人體的需要,或者飲食中的糖類、脂肪供給不足時,蛋白質亦可作為熱量 的來源