Човечеството има проблем за съхранението на данни. Повече данни са били създадени през последните 2 години, отколкото през цялата предшестваща история. Потокът от информация може скоро да изпревари способността на твърдите дискове, да я запишат. Сега изследователи съобщават, че са намерили нов начин за кодиране на цифрови данни в ДНК, за да създадат мащабна схема за съхранение на данни с най-високата плътност някога измислена. С възможност за съхраняване на 215 петабайта (215 милиона гигабайта) в един грам ДНК, системата може по принцип да съхранява всяка данна, регистрирана някога от хората, в контейнер с размера и теглото на няколко пикапа. Но дали тази технология ще се развие, зависи от нейната себестойност.
ДНК има много предимства за съхраняване на цифрови данни. Тя е свръхкомпактна и може да издържи стотици хиляди години, ако се съхранява на хладно и сухо място. И докато човешките общества могат да четат от и записват на ДНК, те ще бъдат в състояние да я декодират. „ДНК няма да се разгради с течение на времето, както касетите и компактдисковете, и няма да се превърне в остаряла технология – казва Янив Ерлих, компютърен учен в Колумбийския университет. – И за разлика от други подходи с висока плътност, като манипулиране на отделни атоми върху повърхност, новите технологии могат да пишат и четат големи количества ДНК едновременно.“
Учените съхраняват цифрови данни в ДНК от 2012 г., когато генетиците Джордж Чърч, Шри Косури и колегите им от Харвардския университет, кодират книга от 52 000 думи в хиляди фрагменти от ДНК, използвайки нишки от четири буквената азбука на ДНК от A, G, T, и C за кодиране на 0-и и 1-ници на дигитализиран файл. Тяхната специфична схема за кодиране обаче е относително неефективна и може да съхранява само 1,28 петабайта на грам от ДНК. Други подходи са били по-добри. Но никой не е бил в състояние да съхранява повече от половината от това, с което изследователите смятат, че ДНК може действително да се справи – около 1,8 бита данни на нуклеотид на ДНК. (Броят не е 2 бита, поради редките, но неизбежни грешки на писане и четене на ДНК.)
Ерлих смята, че може да е по-близо до тази граница. Така че той и Дина Зилински, асоцииран учен в Геномния център на Ню Йорк, са прегледали алгоритмите, които са били използвани за кодиране и декодиране на данни. Самите те използват шест файла, включително пълна компютърна операционна система, компютърен вирус, френски филм от 1895, наречен „Пристигането на влака в Ла Сюта“ и проучване от 1948 година на информация теоретик Клод Шанън. Те първо превръщат файловете в двоични низове от 1-ици и 0-и, компресират ги в един главен файл и след това разделят данните на кратки низове от двоичен код. Те разработват алгоритъм, наречен ДНК фонтан, който произволно пакетира низовете в така наречените капчици, за които се прибавят допълнителни тагове, за да се сглобят в правилния ред по-късно. Като цяло изследователите генерират цифров списък от 72 000 вериги на ДНК, всяка дълга 200 бази.
Те ги изпращат като текстови файлове до Twist Bioscience, стартираща компания от Сан Франциско, Калифорния, които след това синтезират ДНК веригите. Две седмици по-късно Ерлих и Зилински получили по пощата един флакон с петънце от ДНК с кодираните им файлове. За да ги декодира, двойката използва модерна ДНК технология. Поредиците са въведени в компютър, който превежда генетичния код обратно в двоичен и използва таговете, за да сглоби шестте оригинални файла. Подходът е работил толкова добре, че новите файлове не съдържали грешки, според статията им, публикувана в Science. Те също са били в състояние да направят практически неограничен брой безгрешни копия на файловете си чрез полимеразна верижна реакция, стандартна техника за ДНК копиране. Нещо повече, Ерлих казва, те са в състояние да кодират 1,6 бита данни на нуклеотид, 60% по-добро постижение от всяка друга група учени досега и 85% от теоретичната граница.
Въпреки това, Косури и Ерлих отбелязват, че новият подход все още не е готова за използване в голям мащаб. Той струва $7000, за да се синтезират 2 мегабайта данни във файлове и още $2000, за да се прочетат. Вероятно цената ще спадне с течение на времето, но технологията все още има дълъг път, казва Ерлих. И в сравнение с други форми на съхранение на данни, писането на и четенето от ДНК е сравнително бавно. Така че едва ли новият подход ще е свръхскоростен, ако данните са необходими незабавно, а ще бъде по-подходящ за архивни приложения. Но кой знае? Може би тези гигантски Facebook и Amazon центрове за данни един ден ще бъдат заменени с няколко пикапа ДНК.
Източник: American Association for the Advancement of Science.