реклама
Бургер менюБургер меню

Эдуард Сероусов – Протокол EDEN (страница 2)

18

Рейчел встала из-за стола и прошла к окну.

За стеклом был Сингапур: рассвет уже добрался до верхних этажей башни напротив, вода в заливе отражала небо – серо-розовое, плоское, влажное. Где-то внизу шли первые автобусы. Город начинал работать.

Она смотрела на воду и пыталась придумать объяснение. Любое правдоподобное.

Гипотеза первая: артефакт секвенирования. Что-то в протоколе нанопорового ридера создаёт систематическую ошибку именно в этом позиционном диапазоне. Проверяемо. Она запустила контрольный анализ синтетических последовательностей из своего же банка данных – известный, проверенный, без биологического материала. Паттерна нет. Артефакт исключён.

Гипотеза вторая: неизвестная функциональная консервация. Этот регион выполняет какую-то функцию, которую она не знает, и поэтому отбор давит на него так же сильно, как на кодирующие последовательности. Возможно. Но тогда паттерн должен иметь смысл с точки зрения хроматиновой структуры или взаимодействия с белками – а первичный структурный анализ ничего подобного не показывал. Кандидаты на взаимодействие отсутствуют.

Гипотеза третья.

Она не позволила себе её сформулировать. Не потому что была суеверной – она не была суеверной. Просто потому что третья гипотеза требовала бы принять нечто, что противоречило всей логике того, как работает эволюция, как работает метилирование, как работает репликация. Третья гипотеза была безумной.

Она вернулась к столу.

Безумная гипотеза – это не та, от которой нужно отмахиваться. Это та, которую нужно проверить.

В 08:47 пришёл Ма Лэй.

Она услышала карточку на считывателе у входа, потом его шаги – лёгкие, аккуратные, он всегда двигался так, будто боялся потревожить оборудование. Двадцать девять лет, аспирант, второй год работал у неё ассистентом. Хороший – нет, лучше: точный. Протоколы соблюдал безупречно, ошибок в работе с секвенатором не допускал, документацию вёл так, как не велась документация ни в одной другой лаборатории Института.

– Доброе утро, доктор Чен, – сказал он, не глядя на неё: уже снимал пиджак, вешал на крючок у двери. – Вы рано сегодня.

– Как обычно.

– Ночной прогон прошёл?

– Да. Есть кое-что интересное.

Она не стала объяснять. Ма Лэй не спросил. Это тоже было одним из его достоинств – он понимал, когда не стоит спрашивать.

Он занял свой стол – напротив, чуть в стороне – и начал разбирать пробирки из вчерашнего протокола. Его руки работали быстро и без лишних движений. Рейчел краем взгляда наблюдала за ним секунду, потом вернулась к своим данным.

Третья гипотеза ждала.

Информационно-теоретический тест был не её изобретением – он существовал в арсенале биоинформатики уже лет двадцать, использовался в основном для анализа энтропии кодирующих последовательностей. Применить его к паттернам метилирования она пробовала однажды, три года назад, из чистого любопытства, и получила ожидаемый результат: энтропия близка к максимальной, паттерн случаен. Так и должно быть.

Сейчас она собиралась применить его к выделенному региону.

Суть теста была простой: если паттерн случаен, его энтропия по Шеннону должна быть максимальной – каждый бит несёт ровно один бит информации. Если паттерн содержит структуру – энтропия ниже максимума: можно угадать часть битов из предыдущих. Разница между максимальной и наблюдаемой энтропией – это информационная избыточность. У случайных последовательностей она нулевая. У сжатого кода – высокая. У языка – тоже высокая, именно поэтому тексты поддаются сжатию.

Она запустила тест.

Ждала. Смотрела на экран.

Ма Лэй за соседним столом работал с центрифугой – тихий щелчок крышки, нарастающий гул, потом тишина. Пахло изопропанолом – острый, почти сладкий запах дезинфекции, к которому она давно привыкла, но сегодня почему-то замечала.

Результат появился.

Информационная избыточность в регионе 200–400: 68.3%.

Она перечитала цифру. 68.3%.

Для сравнения: информационная избыточность в русском языке – около 70%. В английском – около 65%. В стандартизированном двоичном коде с коррекцией ошибок – 50–60%, в зависимости от алгоритма.

68.3%.

В теломерном регионе, который должен был содержать случайный биологический шум.

Рейчел сидела совершенно неподвижно. Потом медленно, с усилием, как будто из воды, сказала:

– Ма Лэй. Проверь, пожалуйста, параметры ридера на позавчерашнем прогоне. Диапазон пор. Время считывания. Меня интересует любое отклонение от стандарта.

– Конечно. – Он не поднял головы. – Через пятнадцать минут.

Пятнадцать минут. Хорошо.

Она взяла чистый лист бумаги – настоящей, она всегда держала бумагу на столе, потому что иногда нужно было рисовать от руки, без экрана – и начала писать.

Не формулы. Просто слова. Фиксировать.

Паттерн метилирования. Регион Т2-Т4 (условное обозначение). Присутствует у всех 847 видов. Консервация: статистически значимая. Энтропия по Шеннону: 68.3% избыточности. Артефакт секвенирования исключён.

Она остановилась. Посмотрела на написанное.

Артефакт секвенирования исключён. Это было важно. Это означало, что данные реальные. Что паттерн существует. Что вопрос теперь не в том, есть ли он – а в том, что именно он делает.

Она написала ниже: Гипотезы:

Функциональная консервация – неизвестный механизм. Проверить: взаимодействие с белками, хроматиновая структура.

Второй пункт она не написала. Пока.

Ма Лэй вернулся через двенадцать минут.

– Доктор Чен. Параметры ридера в норме. Диапазон пор в допустимых границах, время считывания стабильное. Никаких отклонений.

– Уверен?

– Уверен. – Небольшая пауза. – Хотите, я распечатаю лог?

– Не надо. Спасибо.

Он вернулся к своему столу. Рейчел смотрела в экран.

Гул вентиляции. Запах изопропанола. Синий огонь криобанка за стеклом – ровный, медленный.

Функциональная консервация как гипотеза не закрыта, но требует дополнительных данных. Она не могла проверить взаимодействие с белками прямо сейчас – это другой протокол, другое оборудование, минимум неделя работы. Но она могла сделать кое-что другое.

Она могла проверить, нет ли в паттерне смысла.

Не биологического смысла – структурного. Информационно-теоретического. Если паттерн – это шум с высокой избыточностью, то его структура должна быть случайной второго порядка: случайной внутри структуры, но без более глубокого уровня организации. Если паттерн – что-то другое, то в нём должен быть детектируемый алфавит. Повторяющиеся единицы. Иерархия.

Она написала скрипт за сорок минут.

Небольшой, грубый – она программировала достаточно хорошо для своих нужд, не более того – но он делал то, что ей было нужно: сканировал паттерн метилирования на наличие повторяющихся субъединиц разной длины. Если паттерн – код, там должны быть повторы. Если паттерн – шум, повторы случайны.

Она запустила скрипт.

47 минут обработки. Она дождалась.

Ма Лэй ушёл на обед в 12:30. Она не пошла. Кофе давно кончился. Она не вставала.

На экране был результат, который она перечитала четырежды. Не потому что не понимала – потому что понимала слишком хорошо.

Паттерн содержал три уровня повторяющихся субъединиц.

Первый уровень: базовые единицы из 4-8 позиций. Детектированы 47 уникальных субъединиц. 47 – не случайное число: это достаточно для алфавита, достаточно для кодирования информации. Недостаточно для случайного шума.

Второй уровень: группы базовых единиц, образующие более крупные структуры. Повторяемость второго уровня – статистически значимая. p < 10⁻¹⁸.

Третий уровень: Рейчел запустила тест на детекцию разделителей – стандартный инструмент из арсенала криптографии. Разделители – это маркеры, разграничивающие единицы смысла в потоке кода. У языка они есть: пробелы, знаки препинания. У кода – тоже.

Разделители были.

Она нашла их на третьем прогоне, когда изменила параметры окна поиска. Три уникальных метилирования-маркера, встречающихся регулярно, с предсказуемой периодичностью, разграничивающих блоки субъединиц второго уровня.