谷歌希望憑借人類基因組云端服務Google Genomics在基因組研究市場占有一席之地,如今,公司正忙于用最好的工具來填滿這個工具箱。
Google Genomics是谷歌2013年推出的一項云端服務,幫助大學實驗室和醫院等機構將患者或科研對象的生物基因儲存到云端上,推進人類基因組信息的存儲、對比和分析。
Google Genomics和基因數據創業公司Tute Genomics日前宣布,Tute Genomics將把其海量基因信息數據庫放到Google Genomics平臺上以便于查詢。Google Genomics托管的其他基因數據庫還包括1000 Genomes Project、Illumina Platinum Genomes和MSSNG Database for Autism Researchers等。
Google Genomics工程主管、Google+項目前工程主管大衛·格雷澤(David Glazer)曾表示,搜索不是搜索關鍵字,研究人員可以搜索基因組的特定片段及基因組序列,從而找到具有共同變異的基因組片段。
Google Genomics產品經理喬納森·秉海姆(Jonathan Bingham)表示,為了區分自己不僅僅是一個數據存儲平臺,Google Genomics還將利用谷歌的搜索工具和計算設施來處理和分析基因數據。
用戶在Google Genomics上存儲數據后,還可以共享給任何想共享的人。此外,Google Genomics還支持基因組數據的處理,包括變異調用、三級結構分析(tertiary analysis)和群組對比等。
Google Genomics除了存儲數據,還提供數據分析服務。秉海姆稱:“Google Genomics建立在Google Cloud云平臺之上,我們需要解決的一個問題是可存儲性。此外,還要便于研究人員進行分析,在速度和靈活性方面要有保證。”
秉海姆還稱,BigQuery就是Google Cloud平臺上的一個云數據分析引擎,之前已被證明對于基因組數據分析大有幫助。BigQuery是谷歌推出的一項Web服務,允許開發者使用谷歌架構運行SQL語句對超級大數據庫進行分析,TB級數據十幾秒便可返回結果。
“向BigQuery加載數據后,如來自特定父母群體的基因變異數據,用戶就可以對一些問題進行查詢,如等位基因頻率、全基因組關聯、與表型性狀或藥物治療的關聯等,幾秒鐘便可返回結果。”
但BigQuery是針對無結構數據(unstructured data)進行設計的,因此Google Genomics團隊還對BigQuery引擎進行了調整,使之適應基因組數據。
秉海姆表示,此次與Tute Genomics合作后,將允許用戶通過BigQuery進行更深層的數據挖掘。 “人們已經意識到,Google Genomics和BigQuery的結合允許人們利用基因變異和之前的相關知識做一些十分有意義的事情。如果你之前做過基因測序研究,或者有了新的人類基因組,可以加入到Tute Genomics數據庫中,然后咨詢一些問題。例如,如果我給患者做了基因測序,如何能知道他們的變異?哪些與疾病的關聯度最高?如何知道他們對藥物的反應?”
這項服務的成本和速度分別是:88 GB的人類基因組變異信息加入到Tute Genomics數據庫僅30秒鐘,費用不到1美元。
Tute Genomics基因數據庫是一個“注釋型”數據庫,對許多基因變異進行了解讀,所使用的標準包括SIFT、PolyPhen2、PhyloP、GERP++、MutationTaster、MutationAssessor、FATHMM、MetaLR和MetaSVM等。同時,Tute Genomics數據庫也整合了自身的預測系統,可預測單核苷酸多態性(SNP)或插入缺失標記(InDel)是否與孟德爾表型(Mendelian phenotypes)相關。
Tute Genomics數據庫還整合了公眾數據,如來自1000 Genomes Project和NHLBI ESP-6500等基因組項目的數據。此外,Tute Genomics數據庫還包含了來自NCBI的ClinVar數據庫的臨床注釋。Tute Genomics首席科學官(CSO)大衛·米特曼(David Mittelman)稱,Tute Genomics基因數據庫是其他基因變異數據庫的補充。
谷歌與Tute Genomics的合作始于去年。當時,Tute Genomics CEO雷德·羅比遜(Reid Robison)與谷歌Google Genomics工程主管格雷澤在一次會議上相遇,發現兩家公司的產品很適于合作。
米特曼說:“我們對Google Genomics感到很興奮,它不僅允許你存儲基因數據,還能對其進行分析。在Tute Genomics,我們的工作重心集中在整個注釋層面,但基因變異的背后又意味著什么呢?如何與我們當前的已知內容結合起來呢?就是搜索引擎的任務了。”
今年2月底,谷歌加入了全球基因組學與健康聯盟(Global Alliance for Genomics and Health),旨在推進基因組和臨床數據的安全和有效共享。對于谷歌這種做法,米特曼表示支持。
米特曼說:“如果你擁有一個知名品牌,招募了一群優秀的工程師,正在制定一個開放標準,這些就是成功的關鍵要素。如果想白手起家,從頭打造自己的體驗,或者與毫無經驗的人合作,那意義不大。”
米特曼認為,當前的基因組社區仍在探索研究與合作的方向,但他對谷歌正在打造的社區印象深刻。米特曼說:“人們不只是想把數據上傳到云端,他們還想進行適當的互動。谷歌的該戰略就是測試市場的好方法,看看人們是否愿互動。如果人們能夠積極互動,我相信將催生出更多創新。”
Google Genomics產品經理秉海姆稱,除了Tute Genomics,谷歌還對與其他更多平臺合作持開放態度。
Tute Genomics首席科學官米特曼說:“我們將繼續在Google Cloud平臺上為我們的數據庫打造一系列新工具和功能。這只是我們合作的開始,未來數月還會進行更深入地整合。”
茶樹是以收獲新梢為主的葉用經濟作物,茶芽大小不僅直接影響鮮葉的產量和品質,還與茶類適制性密切相關。解析茶樹芽大小的遺傳調控機制,有助于改良茶樹品種、提高茶葉產量。近日,中國農業科學院茶葉研究所種質資源......
人類基因組中超98%的遺傳變異位于非編碼區,這些變異通過調控染色質可及性、三維構象、剪接加工等多種分子機制影響基因表達,最終導致疾病發生。由于調控機制的復雜性和細胞類型特異性,目前解讀非編碼變異的分子......
玉米作為全球重要的糧食、飼料和工業原料作物,其高產對保障糧食安全至關重要。近日,東北農業大玉米遺傳育種團隊完成的研究在《農業科學學報(英文)》(JournalofIntegrativeAgricult......
植物性狀是表征環境適應策略與資源分配模式的關鍵指標,為理解物種分布、群落構建及生態系統功能提供了重要基礎。近年來,全球及區域尺度的植物性狀數據庫不斷完善,推動了宏觀生態學、功能生態學及生物多樣性保護等......
水稻作為起源于熱帶或亞熱帶的糧食作物,其生長發育對低溫脅迫敏感。伴隨全球氣候變化加劇,極端低溫事件發生頻率顯著上升,發掘耐冷基因并解析分子機制,有利于水稻高產穩產遺傳改良。目前,利用自然群體挖掘的水稻......
隨著人工智能(AI)、自動化等技術的持續突破,利用傳感器進行數據采集與高速傳輸,并通過物聯網存儲海量數據,正持續推進智能化養殖業發展,逐漸成為推動豬育種向精準化、高效化、智能化轉型的核心驅動力。從整個......
2025年4月13日,“中國尿計劃”第二次學術研究會在中國醫學科學院基礎醫學研究所召開,會議采用線上線下結合的方式,吸引了北京、上海、深圳等多地近200位業界學者參與。值此之際,分析測試百科網專訪了項......
東南亞人群基因組計劃概念圖。受訪者供圖東南亞是全球最重要的人類演化區域之一。該地區人群擁有極高的遺傳多樣性,但基因組學研究卻長期缺失,制約了人類環境適應性進化與疾病遺傳機制的深度解析,因而被稱為全球人......
近日,中國科學院生物物理研究所徐濤研究組和何順民研究組在《基因組、蛋白質組與生物信息學報》雜志發表論文。兩位科學家牽頭的“女媧”中國人群基因組計劃旨在構建中國人群的全基因組數據資源,支撐中國人群的疾病......
中外團隊歷時10年,在東南亞人群基因組研究領域取得里程碑式突破。北京時間14日晚,“東南亞人群基因組計劃”首期成果發表在國際期刊《自然》上,東南亞人群的遺傳演化之謎被揭開。論文通訊作者之一、中國科學院......