<form id="1tbf9"><nobr id="1tbf9"></nobr></form>

          <address id="1tbf9"></address>

            <address id="1tbf9"></address>

                    <form id="1tbf9"></form>

                    ./t20191216_933702_taonews.html
                    專題
                    首頁  >  專題  >  媒體視點  >  名刊精選  >  《科學通報》

                    《科學通報》

                    開博時間:2019-09-06 16:50:00

                    《科學通報》是主要報道自然科學各學科基礎理論和應用研究方面具有創新性、高水平和重要意義的研究成果。報道及時快速,文章可讀性強,力求在比較寬泛的學術領域產生深刻影響。

                    文章數
                    分享到:

                    從生物大數據到知識大發現: 十年進展與未來展望

                    2019-12-16 13:36:00

                      15年前, 2001年2月15日Nature雜志發表了長達62頁的論文《人類基因組的初始測序與分析》, 標志著歷時十幾年、耗資約27億美元的人類基因組計劃初步完成, 人類對生命科學的探索進入了一個新的時代。在人類基因組計劃開始初期, 還有人懷疑花費如此巨大的人力物力獲取人類基因組數據是否有價值, 但這種懷疑很快被打破, 以DNA測序、基因芯片、生物信息學算法等為代表的大規模生物數據獲取與處理技術, 迅速登上了生命科學的核心舞臺, 數據成為生命科學研究的基本資源。2005年7月, Science雜志在紀念創刊125周年之際刊登了125個最具挑戰性的科學問題, 其中一個重要的問題就是, 怎樣才能從生物數據的海洋中獲得生物學的大圖景(How will big pictures emerge from a sea of biological data?)。文章指出, 基于海量生物學數據的系統生物學研究被認為是獲得對復雜生命系統全面認識的必由之路, 將對生物醫學尤其是理解疾病的風險因素產生巨大作用。但是, 人們尚不知道, 這種數學、工程學與生物學高度交叉的研究以及迅速提升的計算能力, 是否能夠對生命的工作機理帶來深入的、高度結構化的全面認識。又一個十年過去了, 在這十年里, 生物數據的獲取和分析技術都取得了突飛猛進的發展, 我們有必要重新審視一下當初提出的這個挑戰, 回顧人類朝向用數據去理解生命奧秘這一目標所邁出的步伐。

                      新一代測序技術快速發展

                      在過去的十年里, 生物和醫學領域一個引人矚目的發展, 是新一代測序技術的快速發展和由此帶來的一系列應用。21世紀初完成的人類基因組計劃, 全世界幾十個實驗室合作花費了十幾年時間, 耗資近30億美元。2005年開始, 以大規模并行測序為特點的第二代測序技術得到了突飛猛進的發展, 以單分子實時測序為特點的第三代測序技術也迅速崛起, 到目前為止, 很多測序機構已經能夠用1000美元以下的成本完成一個人的全基因組測序。已經有人開始大膽地預測, 測序一個人的基因組的成本將會降到100美元以下。

                      新一代測序技術的發展, 為現代生命科學研究帶來了多方位的革命, 數據成為很多研究的核心。一方面, 完成基因組測序的物種數目迅速增加; 另一方面, 對人群的遺傳多樣性的研究也進一步深入。千人基因組計劃(1000 Genomes Project)已經完成, 大量全外顯子測序計劃迅速開展, 在各種公共數據庫中已經積累了至少2504個人類個體的全基因組數據、涉及1302002個個體的全基因組關聯分析(GWAS)數據(http://www.ncbi.nlm.nih.gov/gap/)、涉及60706個個體的全外顯子測序數據(http://exac.broadinstitute.org/)等。美國2015年啟動精準醫學計劃, 擬針對癌癥采集一百萬人規模的基因組數據。人們對人類遺傳多樣性的研究, 已經從集中在對人群中發生頻率5%以上的遺傳多態性位點的研究, 擴展到對發生頻率在1%甚至0.1%的遺傳多態性位點的研究。

                      新一代測序技術的應用遠遠不止于對基因組DNA序列的測序, 而是通過與其他多種技術的結合深入到分子和系統生物學的各個方面。通過反轉錄進行RNA測序, 已經迅速成為繼基因芯片之后研究轉錄組的主要技術手段, 為研究基因表達、基因的選擇性剪接和非編碼基因提供了有效手段。通過與染色質免疫沉降技術結合的ChIP-Seq技術, 可以高分辨率獲取轉錄因子等DNA結合蛋白在基因組上的結合位點, 為解讀復雜的基因轉錄調控系統打開了一個重要缺口; 可以獲得各種組蛋白修飾的全基因組圖譜, 揭示組蛋白修飾對基因轉錄、組織特異性表達等的組合調控作用。通過對RNA結合蛋白的抓取, CLIP-Seq技術可以獲得RNA轉錄后調控因子在RNA上的結合位點, 精確揭示RNA調控。通過亞硫酸鹽測序(Bisulfite-Seq), 可以對全基因組范圍內的DNA甲基化進行高分辨率檢測。通過染色質構象捕獲技術(3C, Hi-C)及其擴展技術, 可以獲得基因組三維結構和長程相互作用等。這些技術, 很多已經發展到能夠對單個細胞或少量細胞進行觀測, 出現了單細胞DNA測序、單細胞RNA測序、單細胞基因組和RNA聯合測序等單細胞測序技術, 為精細研究干細胞發育和分化、癌癥發生發展等重要過程中的細胞異質性提供了有效的研究手段。與此同時, 以單分子實時測序為代表特點的第三代測序技術也在不斷發展和走向成熟, 通過第三代測序技術, 不但能夠直接讀取很長的DNA或RNA片段, 還能夠通過實時的DNA合成過程中的動態數據推斷DNA修飾, 為同時讀取基因組序列和表觀遺傳修飾信息開辟了新的道路。

                      這些新技術的發展, 使得各種基因組學、表觀基因組學、轉錄組學和微生物群落宏基因組學數據迅速增加。2008年啟動的千人基因組計劃到2015年已經完成, 在其最新的數據中已包含了來自26個人種2504個個體的全基因組數據, 世界各國啟動了多個目標在幾十萬到上百萬人的全基因組測序計劃。在美國NCBI用于存儲公開的測序數據的數據庫SRA中, 到2016年數據總量已經達到5×1015堿基的數量級。

                      測序數據大大推動了醫學遺傳學發展

                      隨著測序通量的提高和測序成本的降低, 外顯子組測序技術和全基因組測序技術在解析人類疾病致病遺傳因素的研究中獲得了廣泛應用。外顯子組測序通過捕獲和富集外顯子區域DNA再進行高通量測序來檢測發生在蛋白質編碼區的遺傳變異, 具有成本相對較低、靈敏度高、可解釋性強等優點, 不僅是鑒定罕見疾病致病遺傳因素最有效的策略, 還被成功應用于復雜疾病易感基因的研究和臨床診斷中?;谕怙@子組測序技術, 目前已成功檢測了導致米勒綜合征、兒童自閉癥、肌萎縮性側索硬化(漸凍人) 、精神分裂癥、心血管疾病、糖尿病、關節炎等疾病的多個致病遺傳變異。

                      全基因組測序通過對個人DNA序列進行擴增和高通量測序來檢測所有可能的遺傳變異, 具有覆蓋面廣的優點, 不僅可以檢測大量的單核苷酸變異, 還能檢測插入刪除位點、結構變異位點和拷貝數變異片段。隨著測序成本的快速降低, 全基因組測序已經被越來越廣泛地應用于遺傳疾病的研究中。這種基于全基因組測序的遺傳學研究, 目前已在混合性軟骨瘤病、腓側肌萎縮等罕見疾病以及嬰兒癲癇性、自閉癥等常見疾病的致病機理研究上取得顯著進展。

                      除了科研應用, 外顯子組測序和全基因組測序作為遺傳學檢測的重要手段, 近兩年來已開始被應用于基因檢測以輔助臨床診斷。

                      基因組學的發展推動了基因組編輯與合成生物學的革命

                      隨著基因組研究的快速發展, 近年來基因編輯技術得到了多項重要突破, 人們對基因組信息的研究從“只讀模式”開始邁向“讀寫模式”。以TALE和CRISPR/Cas為代表的基因組編輯方法極大地改變了人們研究功能基因組尤其是哺乳動物基因功能的方式。以CRISPR系統為例, 它最早被發現是一種細菌中用于抵抗外來噬菌體病毒的一種獲得性免疫機制。通過改造后的CRISPR/Cas系統在人工設計合成的特異性sgRNA引導下, 通過RNA與DNA的堿基配對, 可以定點切割基因組DNA, 從而可以定點導致目標基因功能失活, 或在特定位置插入外源基因序列。應用這一技術, 通過對胚胎細胞基因組編輯實現對動物甚至人的基因組進行人工改寫已經成為可能, 這項技術因此受到科學家和全社會的廣泛關注。但實際上, 基因編輯技術的應用非常廣泛, 比如, 人們將這種方法與DNA芯片合成及測序技術相結合, 開發出了功能強大的高通量基因功能篩選方法?;舅悸窞獒槍γ恳粋€基因人工設計若干個能敲除該基因的sgRNA序列。利用基因芯片的寡核苷酸序列并行合成技術, 在芯片上一次性合成10萬余種的不同DNA序列, 每種DNA序列編碼一種特定的sgRNA。通過克隆建立攜帶這些編碼sgRNA序列的質粒文庫, 用慢病毒包裝后感染目的細胞。通過調整病毒感染的效能, 可以使得每個被感染細胞平均只攜帶一種sgRNA編碼序列, 即該細胞內只有這種sgRNA對應的基因被敲除。這樣通過細胞群體中含有的sgRNA編碼序列的高通量測序, 就可以知道帶有這種特定基因敲除的細胞在群體中所占的比例。比較使用不同藥物作用下細胞群體中攜帶各種sgRNA編碼序列比例的變化, 經統計學模型計算, 就可以知道攜帶哪些類型基因敲除的細胞其增殖速率相對較快(較慢), 從而推測這些基因在該種藥物作用下促進(抑制)細胞增殖。這種方法可以用來高通量篩選在特定因素或藥物作用下的靶點和功能基因, 大大加快了人們對藥物靶點基因的篩選能力。

                      以DNA序列合成、組裝以及基因組編輯等為代表的合成生物學新技術為我們定量研究基因網絡的調控機理提供了新的途徑和思路。例如, 我們可以利用熒光蛋白等報告基因構建人工合成的基因線路并將其植入細胞內, 如同傳感器一樣來感知分子濃度的變化, 實現對細胞狀態的實時定量觀測。由于人工合成基因線路具有可控、可調的特點, 通過改變人工基因線路的作用方式和強度, 可以幫助我們理解不同的參數和網絡結構對基因調控的影響, 從而建立定量的數學模型來描述分子調控的本質規律。例如, 我們將系統生物學建模分析與合成生物學實驗相結合, 建立了microRNA調控的數學模型, 構建對應的合成基因線路并植入細胞中模擬microRNA靶基因的競爭性調控效應, 證實了靶RNA和microRNA濃度對競爭性調控效應的閾值現象, 發現了microRNA的靶位點結合能力對競爭性調控效應強度影響的函數關系, 闡述了microRNA通路和RNAi通路競爭效應的不對稱性, 并從理論上提出了RNAi技術的改進方向, 為理解復雜的microRNA調控系統和未來用RNAi技術有效設計疾病基因靶向治療等提供了理論基礎。又如, 通過這樣“以建而學”的方式, 研究人員提出了艾滋病病毒(HIV)潛伏和激活的隨機模型, 為治療HIV的藥物研發提供了新的線索; 提出了解析調控網絡中直接與間接相互作用的數學理論工具; 以及實現了對微小RNA噪聲調控效應的觀測和建模, 等等。

                      組學數據推動下的癌癥研究與精準醫學

                      癌癥是人類健康的重大威脅, 最新統計數據表明我國每年新發癌癥病例數將高達約430萬, 死亡人數約280萬。近年來, 基于組學技術的生物醫學大數據極大地促進了癌癥的分子分型、分子標志物和藥物靶點等方面的研究進展, 也為揭示癌癥的分子機制提供了大量新的線索。臨床醫學實踐中對癌癥的診療主要是在器官、組織層面, 隨著腫瘤生物學的研究進展, 人們認識到要更好地實現癌癥診療, 必須深入到細胞、生物分子等多個層次去理解其生物學的機制。以癌癥基因組圖譜(the cancer genome altas, TCGA)為代表的大規模癌癥基因組學研究, 希望用組學技術對多種癌癥發生的分子變異進行系統的刻畫, 目前TCGA已完成約30種癌癥約15000例臨床樣本的多組學檢測, 并對乳腺癌、大腸癌、肺癌等常見癌癥開展了系統的描述, 繪制了癌癥分子變異圖譜(http://cancergenome.nih.gov/)。癌癥基因組學研究還有更大的目標, 就是希望從分子變異角度對癌癥進行重新分類定義。

                      癌癥分子生物學與基因組學等方向的研究表明, 不同組織來源的癌癥有很多共同的生物學基礎, 如持續增殖、基因組不穩定、免疫逃逸等。人們提出了泛癌癥(pan-cancer)的概念: 尋找泛癌癥的分子變異可更好地找到驅動腫瘤發生發展的共同的生物學機制, 也能對不同類型的癌癥提供更系統的理解; 從信息的角度考慮, 將不同癌癥類型的分子數據放在一起可顯著提高樣本數量, 有利于發現低頻的具有驅動作用的分子變異。

                      基因組學對癌癥臨床實踐也有重要的貢獻, 近年來癌癥靶向藥物的快速研發, 使得基于分子變異的癌癥精準分型成為當前精準醫學的核心。比如, 針對BRAF-V600E突變的靶向藥對結腸癌、黑色素瘤等多種癌癥類型的突變攜帶患者均具有很好的療效; 近年來的明星藥物, 作用于免疫檢驗點(immune check point)PD1/PD-L1通路的抑制劑, 對具有豐富新生抗原(neoantigen)的多種癌癥有明顯抑制作用。一項基于大規模組學數據的計算分析表明, 利用分子分型, 可將已通過臨床實驗的靶向藥物潛在受益人群從5.9%擴展到40.2%。除了靶向藥物, 基因組學數據對常用化療藥也有一定的預測作用。

                      基因組學和系統生物學基礎研究的迅速發展、基因組檢測技術的快速普及, 使得生物大數據在臨床醫學上的大規模應用成為一個重要的發展趨勢。人類基因組計劃的一個主要初衷, 就是為復雜疾病的研究建立基礎。在“向癌癥宣戰計劃”和“人類基因組計劃”這兩個美國政府主導生物醫學發展的科學計劃之后, 2015年1月20日, 美國總統奧巴馬宣布啟動“精準醫學計劃”, 致力于通過對健康記錄和基因組信息進行整合分析, 實現對癌癥等疾病的個性化治療。2016年3月16日, 中國政府正式啟動國家重點研發計劃精準醫學研究重點專項, 旨在通過整合臨床表型、生命組學、影像組學等生物醫學大數據, 實現對腫瘤、罕見病、慢性病的個性化防診治, 從整體上提高我國的醫學水平。隨著大規模組學數據的積累, 可以期待我們對癌癥的認識將會更加系統、深入, 癌癥的精準分型與用藥將在臨床上得到更加廣泛的應用。

                      宏基因組數據推動對人體和環境微生物群落的新認識

                      人體的健康不但取決于人自身的細胞和基因, 在人體體內和體表多個部位存在著大量微生物, 它們是人體不可或缺的重要伙伴甚至是組成部分, 與人體健康密切相關。據估計, 這些微生物細胞總量可能比人自身細胞總數多出一個數量級, 而它們所包含的遺傳物質總量則比人類基因組高2~3個數量級。從這個意義上, 人體并不是單個物種的獨立個體, 而是由人和眾多共生微生物組成的一個復雜生態系統。

                      人體各部位上的微生物是一個復雜的群落, 通常被稱作“微生物組”(microbiome或microbiota)。一個微生物群落中往往包含成百上千種微生物, 其中多數很難分離和培養, 最有效的研究手段是對其中全部遺傳物質進行混合的DNA測序, 稱作元基因組或宏基因組(metagenome)測序。有人把這個系統中來自微生物的遺傳信息總和稱作我們的“第二基因組”。近十年來, 隨著第二代高通量測序技術快速發展, 宏基因組測序成為微生物組研究的主流方法, 大量數據不斷產生, 人們在此基礎上發現了很多關于微生物組構成與宿主健康狀態之間的關聯, 比如, 肥胖和營養性疾病與微生物組的關系, 口腔疾病、消化道疾病、糖尿病、癌癥甚至是神經發育類疾病與微生物組之間的關系, 等等。同時, 人們已開始對微生物組與人類代謝系統、免疫系統之間的相互作用機理展開研究, 并嘗試把改造微生物組構成作為干預某些疾病的手段。

                      為了理解微生物組的基本規律, 多個國家和地區設立了多個科學計劃, 系統獲取來自人體多個部位的微生物組數據, 試圖建立人類微生物組基本圖譜。在歐洲的EBI宏基因組數據庫中, 已經包含了來自全球632個微生物組項目的10418個宏基因組和1025個宏轉錄組的數據樣本。這些進展充分說明了微生物組對人類健康有重要作用, 同時也揭示出宏基因組數據的高度復雜性和現有數據分析方法的局限和不足。2015年底, Science 和Nature 雜志上分別發表評述, 呼吁對微生物組及其信息學進行更系統和深入的研究。2016年5月,美國啟動了國家微生物組計劃,對人體、植物、土壤、海洋和大氣中的微生物組開展大規模深入研究(https://www.whitehouse.gov/the-press-office/2016/05/12/fact-sheet-announcing-national-microbiomeinitiative)。

                      展望與討論

                      進入21世紀以來, 生物醫學大數據的種類、性質和內容都在不斷拓展, 如何通過這些大數據獲得出對生命理解的大圖景, 這不僅是Science 雜志的提問, 更是整個科技界乃至全社會的提問?;仡欉@短暫的十幾年, 我們欣慰地看到, 不論是生物信息學與系統生物學對生命基本規律的認識, 還是合成生物學對生命的改造, 還是精準醫學對人類疾病的控制和干預能力上, 都得到了快速的發展。但是, 生命是高度復雜的系統, 人們對它的認識仍處在從局部走向全面的過程中, 對于生命個體發育、疾病、生命的演化、生命與非生命構成的生態系統等等, 人們的認識仍然剛剛開始。獲取大量和多尺度的生物學和醫學大數據并加以智能處理與挖掘, 是加快這一認識過程的重要路徑。

                      以高通量測序技術為代表的組學大數據已經為生物學研究帶來巨大變革。隨著這些技術的進步, 還將不斷催生新的衍生技術, 從不同角度和不同層次解析基因的表達調控過程。例如以單分子測序和單細胞檢測為代表的新技術, 將使我們能在前所未有的精細尺度上解析生命過程。而隨著這些組學實驗成本的快速下降, 未來除了獲取更多的樣本外, 另一個重點是對研究對象在不同的時間尺度上獲取更多的觀測數據, 例如跟蹤疾病的整個發生發展過程。這將為探索生物復雜現象的全貌和疾病的發生機理提供重要的基礎。

                      但是, 我們也必須清醒地認識到, 這些數據中包含了巨大的寶藏, 但要有效地挖掘出這些寶藏, 還需要大量艱苦的生物信息學與系統生物學理論、方法與技術研究, 人們可以用越來越低的成本獲得測序數據, 而對數據的分析任務卻變得越來越繁重和充滿挑戰。數據本身并不能產生知識, 只有有效地對數據進行處理、分析和挖掘, 才能發揮出數據的價值。值得高興的是, 近十幾年來, 在組學數據大發展的同時, 信息科學領域中以機器學習為代表的人工智能技術和大數據計算和存儲技術都有了突飛猛進的發展, 將統計學、機器學習與大數據計算與生物組學大數據有效地結合起來, 為我們探索生命的奧秘開拓了廣闊的天地。

                      應當看到, 以基因組學數據為代表的生物組學大數據, 只是與生命相關的大數據中的一部分, 還有很多其他類型的生物大數據, 例如近年來代謝組學和蛋白質組學都取得了重要進展。從人類醫療健康角度看, 更多的和更普遍的數據是各種表型和生理、病理數據。隨著信息技術在日常醫療健康領域中的應用日益普及, 以電子病歷、醫學影像資料和新近發展的各種可穿戴設備所記錄的日常生理數據為核心的醫療大數據, 包含了更大量的信息。但是, 這些信息的采集是日常醫療實踐和健康體檢過程中積累起來的, 具有結構化程度弱、噪聲大、不同醫院甚至不同科室之間技術銜接不佳等問題, 而數據來源和分布上比通過實驗設計采集的數據具有更大的自發性和隨意性, 對數據處理和分析的方法都提出了新的要求。實現醫院內部信息管理系統的互聯互通和數據整合, 進而從政府層面對地區乃至全國的海量醫院管理數據進行深度挖掘, 已經在醫療政策、醫保管理等領域展現出迫切需求和極大的潛在價值。通過大數據技術手段整合各種生物組學大數據, 以及臨床表型、影像組學、醫院管理、公共衛生等醫學大數據, 再使用統計分析、自然語言處理、影像分析、深度學習與模式識別、智能搜索推薦等人工智能技術對這些數據進行深度挖掘, 將使生物和醫療大數據早日邁向造福于人民健康的知識大發現, 這必將成為人類醫療健康事業發展的必由之路。

                    本文來自《科學通報》

                    上一篇:對話姚檀棟 走近第二次青藏高原綜合科學考察
                    下一篇:Hiawatha撞擊作用是新仙女木事件的誘因嗎
                    ©2011-2020 版權所有:中國數字科技館
                    未經書面許可任何人不得復制或鏡像
                    京ICP備11000850號 京公網安備110105007388號
                    信息網絡傳播視聽節目許可證0111611號
                    國家科技基礎條件平臺
                    久久这里只精品国产免费99热4_一起射久久_久久在线视频_日日天天夜夜久久_日日扞夜夜燥国产