一條DNA單鏈放下整部維基百科?這家美國公司做到了
我們的祖輩,用紙筆寫下族譜并保護起來。因為作為介質的紙,一場大火足以付之一炬;
我們的父輩,開始用磁帶、軟盤和光盤,保存重要的資料。然而現如今,想要找到讀取它們的設備越來越難;
今天,關于這一代所有的記錄,都可以在我們的手機、電腦、錢包里的U盤和遠方的“云”上找到。
一次次的科技進步,為我們帶來更小、更高效、更持久和抗摧毀的數據存儲方式。
但是很多人都沒意識到,大自然也有著一項“天然”且十分“保險”的存儲介質。它極其微小,且被每一個人所擁有。在遺傳學家看來,這一介質承載了作為物種的人類,從類人猿進化到智人的所有數據記錄。
這一介質,就是 DNA。
最近,一家位于美國波士頓的醫學科技公司 Catalog 宣布,在人造 DNA 作為數據存儲介質的研究方面實現重要里程碑。
該公司成功在一條人造 DNA 單鏈當中,保存了整部維基百科(英文版)。
“人類在工程上的許多壯舉,來自于我們對其它物種的模仿。我們看到會飛的鳥,發明了能讓人類也飛起來的飛機,”Catalog 科學家 Milena Lazova 在一則視頻里表示,“DNA 也是同理,我們看到人體存儲了信息,為什么不用 DNA 來存儲數據呢?”
DNA(脫氧核糖核酸)是一種生物大分子,構成基因的主要方式。通常,DNA 是以雙螺旋結構 (double helix),也即兩條鏈相互配對且緊密結合的形態存在的。
許多人可能都在生物課中學過 DNA 工作的基本原理。通俗來講,DNA 鏈條上通常包含四種堿基 (A, T, C, G),而不同堿基的排列組合方式,最終決定了我們的長相、智力,以及不同病癥的發病風險等。
對于包括人類在內的大部分物種,正是因為 DNA 上面含有信息,才能決定遺傳的結果。
在過去的幾年里,用于醫學的基因技術取得了長足的進展。人們現在可以在極小的、可接受的誤差范圍內,對已有的基因序列進行“Ctrl-x、c 和 v”。這一技術使得人類有機會攻克一些曾被認為無法根除的絕癥,但也引發了一些道德爭議[1]。
從 DNA 結構首次被發現到今天已經過去了將近70年,基因學家仍無法百分之百明確 DNA 序列的全部意義并利用它;但是,在數據存儲的語境下,一切其實并沒那么復雜:畢竟大部分的數據信息,最終還是回到1和0。
科學家將A、T、C、G分別定義為 01、10、00和11。這樣,一條含有四種堿基排列組合的 DNA 單鏈實際上就變成了一條二進制的數字串。
而 Catalog 的厲害之處,在于他們找到了一種更快、更廉價地按照要求排列堿基,從而將數據編碼到 DNA 分子里的方法:簡單來說,大規模排列提前生產好的堿基片段,再進行合成。
比方說 bagel 這個詞:
研究人員只需要把上面這五段堿基序列,再用酶合成,就制成了一條 DNA;同理,一句話,一本書里的全部單詞,甚至是一張 JPEG 照片,都可以轉化成二進制編碼,再編碼到 DNA 里。
Catalog 自主開發了一臺“DNA寫入機”(詳細資料不足,目測大約一臺冰箱大小)。這臺機器每天可以寫入1TB左右的數據,從而實現了大規模人工編寫 DNA 信息。
市面上買到 DNA 測序儀并不難,所以任何人(只要有錢)都可以重新讀取這些 DNA 信息,把它們轉化為原來的文字或圖片格式。
Catalog 由兩位科學家聯合創建,團隊不足10人。CEO 樸顯俊 (Hyunjun Park) 在威斯康辛州大學麥迪遜分校完成微生物學博士學位,創業前在麻省理工學院擔任博士后研究員。首席技術創新官 Nathaniel Roquet 擁有哈佛大學生物物理學博士學位。
樸顯俊和 Roquet 在2016年參加了 IndieBio 生物科技加速器。在當時,他們還沒有發明出前面提到的那臺機器,Roquet 必須用滴管來完成操作,花了足足4個小時,做完手都腫了。
幸運的是,他們完成了概念驗證,首次成功在一段 DNA 中注入了美國著名詩人羅伯特·弗羅斯特的《未選擇的路》,一段大約1KB的信息[2]。
在靠創始團隊自己出資支持兩年之后,Catalog 終于在2018年獲得了恩頤投資 (NEA)、DataCollective 等在內的約800萬美元注資。從《未選擇的路》,到《銀河系漫游指南》,到今天的英文版維基百科——因為DNA寫入機的成功開發,Catalog 的數據錄入效率越來越高。
對于大部分人,Catalog 開發的技術屬于“殺雞焉用牛刀”,畢竟基于硬盤或閃存芯片的本地或云端存儲,目前已經十分廉價。
最適合使用 DNA 存儲信息的,其實是那些需要長期存儲海量數據,或者對于海量數據的全球運輸有頻繁需求的機構,比如數據中心和云計算公司。
硬盤本身的確便宜,但在數據中心里讓大量機柜持續運轉,費用極高,而且對于一些存儲方案來說,斷電會導致數據丟失,因此還要考慮災備的進一步成本。
相比之下,DNA 的信息存儲密度大約是閃存的一百萬倍。
據 Catalog 計算,一座大型數據中心的存儲容量大約在 1EB(一千PB或一百萬TB)左右。而1EB數據如果寫入到 DNA 上,大約只有一塊方糖大小。
因為存儲密度大,DNA 還很適合用于海量數據的運輸。
舉例:你的公司最近要把10PB的數據遷移到亞馬遜 AWS 上,知道 AWS 會怎么做嗎?
答案:AWS 會派來一輛卡車,把你的數據都保存到硬盤上,放到集裝箱里,再運到數據中心里上傳,費用大約是50萬美元;當然,你也可以選擇把硬盤寄給亞馬遜。
為什么:數據量太大,帶寬不夠,效率太低。集裝箱實際上是最高效的運輸手段。
如果用 DNA 存儲呢?這些數據還不到剛才那一枚方糖的大小。所以,在紙上滴一滴 DNA,寄給對方就可以了。
而且,把 DNA 存儲當作災備方案也很合適,因為 DNA 分子鏈很穩定,保存長達幾千甚至上萬年都不會丟失數據——當然,前提是未來的人們還在用 DNA 測序儀。
更進一步,如果未來人類真的走到行將滅絕的路口,需要提前將所有歷史、知識、數據進行數字化保存……使用 DNA 進行存儲的話,全人類的文明只要一個冰箱就能裝下。
“我熱愛發明前人未曾想到的東西。但是更讓我們感到激動的,是想到我們的發明能夠為將來的世界帶來巨大的價值。”Roquet 表示。
