Эдуард Сероусов – Код Хейфлика (страница 1)
Эдуард Сероусов
Код Хейфлика
Часть I: Аномалия
Глава 1. Решётка
Запах реагентов она давно перестала замечать. Формальдегид, изопропанол, тот едва уловимый пластиковый привкус, который даёт нагревающаяся электроника, – всё это ушло куда-то в область фона, как уходит фоновый шум собственного дыхания. Рейчел Чен работала в этих стенах восемнадцать лет, и лаборатория давно перестала быть местом, которое она замечает. Она была продолжением её самой – немного холодным, немного равнодушным, абсолютно честным.
В семь двадцать три она уже сидела за рабочим столом. Январский рассвет над Рейном только начинал разбеляться – не светать по-настоящему, а скорее нехотя отступать от черноты, как отступает усталый человек от спора, который он уже проиграл. Из окна была видна старая мельничная сторона, мост Миттлере с его аккуратными арками, вода цвета расплавленного свинца. Рейчел смотрела на это каждое утро и каждое утро не видела.
Кофемашина у входа скрипнула – третья ступенька от левого угла, на которой расходился паркет. Она знала этот звук, не поворачивая головы. Значит, Линь пришла.
– Доброе утро, – сказала Рейчел, не отрываясь от экрана.
– Ты уже здесь, – ответила Линь вместо приветствия. Это не было вопросом.
– Данные подгружались ночью. Хотела посмотреть до летучки.
Кофемашина зашумела, плюясь паром. Рейчел открыла первую папку. На экране развернулся знакомый беспорядок: хроматографические пики, контрольные треки, метаданные секвенирования. Обычное утро. Обычные данные.
Она начала работу.
Гранта она ждала полтора года. Не потому что рецензенты были несправедливы – рецензенты Базельского исследовательского фонда крайне редко бывают несправедливы, что само по себе является проблемой: они педантичны, последовательны и требуют доказательств там, где любой другой научный совет удовлетворился бы предположениями. Рейчел уважала их за это и ненавидела с той же равной силой. Первую заявку они отклонили: «Сравнительное исследование консервативных последовательностей теломерных повторов у 47 видов эукариот, разошедшихся в эволюции 1,5 млрд лет назад, не демонстрирует достаточной методологической новизны». Она переписала заявку. Добавила контрольные группы, уточнила протокол секвенирования, подробнее описала потенциальные приложения в онкологии. Рецензенты одобрили. Финансирование пришло в октябре.
По существу, исследование было необходимой скукой. Теломерные повторы у эукариот консервативны – это факт, известный с 1980-х, многократно подтверждённый и настолько освоенный научным сообществом, что стал чем-то вроде учебниковой иллюстрации: смотрите, как похоже устроена жизнь у дрожжей и у слонов, как верна природа своим собственным решениям. TTAGGG – шесть нуклеотидов, повторяющиеся тысячи раз, оберегающие хромосомы от деградации. У большинства эукариот – именно эта последовательность, или нечто настолько близкое к ней, что разница измеряется единицами из тысяч. Ничего удивительного. Эволюция консервативна там, где решение найдено правильно.
Новизна её исследования была в другом: Рейчел собиралась проследить
Для этого ей нужен был хороший алгоритм выравнивания, и именно здесь в дело вошёл Ннамди.
Ннамди Обиора появился в её жизни восемь месяцев назад на онлайн-конференции по вычислительной биологии – скорее фоном, чем событием: молодой нигерийский биоинформатик из Лагоса, представивший доклад о новом алгоритме множественного выравнивания для повторяющихся последовательностей. Рейчел смотрела доклад вполуха, занимаясь параллельно своими данными, и зацепилась только за одну деталь в методологии – нестандартный подход к взвешиванию позиционных вероятностей. Она написала ему короткое сообщение в чат конференции: «Слайд 14, функция весовых коэффициентов – вы тестировали на теломерных повторах?»
Он ответил через сорок минут, явно не ожидая вопроса: «Нет. А почему вы спрашиваете?»
Они переписывались два часа. Алгоритм был написан для анализа транспозонов, но Рейчел видела, что он справится с теломерами. Ннамди согласился. Прислал код. «Это бета, – написал он, – и я, честно говоря, не тестировал его нигде, кроме собственных данных. Попробуй, он быстрее стандартного раза в три».
Она запустила его на тестовом наборе. Он действительно был быстрее. Она интегрировала его в свой пайплайн. Никаких тревожных сигналов.
То, что произошло в январе, она не могла отнести ни к алгоритму, ни к пайплайну, ни к чему-либо, что поддавалось немедленному объяснению.
Первый прогон завершился в 11:47. Рейчел к тому времени успела провести летучку, ответить на три письма, обсудить с Линь контрольный набор образцов для параллельного проекта и выпить второй кофе. Она открыла результаты без особого интереса – первый прогон обычно показывает только то, что данные загрузились корректно. Артефакты, шумовые треки, технические ошибки секвенирования. Отправную точку.
На экране появилась визуализация.
Рейчел смотрела на неё секунды три, прежде чем разум начал формулировать то, что видели глаза.
Она ожидала облако. Точнее – рассеянное распределение, какое всегда даёт сравнительное выравнивание повторяющихся последовательностей между видами, разошедшимися полтора миллиарда лет назад: дрейф, накопленные мутации, видоспецифичные сдвиги. Некоторые позиции будут консервативны, большинство – нет. Пятно с размытыми краями. Ожидаемая картина.
То, что она видела, было решёткой.
Не метафорой. Буквально – геометрически правильной структурой: модифицированные нуклеотиды в строго фиксированных позициях, воспроизводящиеся с интервалами, которые не совпадали ни с известными функциональными сайтами, ни с консенсусными последовательностями теломерного шаблона. Не случайный консерватизм – паттерн. Регулярный, повторяющийся, организованный.
Все 47 видов. От
Рейчел откинулась на спинку кресла. Посмотрела в окно. Рейн блестел холодным январским светом.
Она вернулась к экрану.
Она открыла документацию к алгоритму. Прочитала. Открыла исходный код. Прочла функцию взвешивания позиций – ту самую, которая зацепила её на конференции. Ннамди использовал адаптивную схему: коэффициент для каждой позиции пересчитывался на основе распределения в обучающей выборке. Теоретически это
Она запустила алгоритм на синтетических данных – случайно сгенерированных повторах без биологического смысла. Пятно с размытыми краями. Никакой решётки.
Значит, не алгоритм.
Она сидела минуту, глядя на два экрана рядом. Решётка в биологических данных. Облако в синтетических.
К 14:30 Линь ушла на обед. Рейчел осталась одна в лаборатории. Секвенатор в соседней комнате работал тихо, почти бесшумно – только лёгкое гудение вентиляции, которое она научилась не слышать. За стеной кто-то из аспирантов включил музыку, потом выключил. Тишина вернулась.
Она разложила проблему методично, как раскладывала любую проблему: источники систематической ошибки секвенирования, которые могли бы создать видимость структуры в теломерных данных. Их было несколько. Она проверила каждый.
Первое – PCR-дупликаты. Артефакт амплификации при библиотечной подготовке, классический источник ложных паттернов. Она открыла метрики дедупликации по каждому образцу. Процент дупликатов был в норме: от 12 до 23% в зависимости от вида. Ни один образец не выбивался из диапазона, принятого для теломерных библиотек. Не это.
Второе – систематическое смещение при базовом колле. Некоторые секвенаторы имеют проблемы с гомополимерными повторами – ошибки накапливаются в строго определённых позициях, создавая псевдоструктуру. Она проверила распределение q-scores по позиции для каждого прогона. Стандартное убывание к концу рида, никаких аномальных провалов. Не это.
Третье – контаминация референсными последовательностями. Если где-то в пайплайне произошла контаминация, чужая ДНК могла накладываться на сигнал и создавать структуру. Она просмотрела логи библиотечной подготовки. Все образцы готовились в разные дни, разными операторами, из разных хранилищ. Контаминация единственным источником – исключена статистически.
Она закрыла все логи. Открыла визуализацию снова.
Решётка смотрела на неё с экрана.
Контрольный прогон вручную означал следующее: взять четыре вида – по одному из каждой основной эволюционной ветви в её наборе – и выровнять их теломерные последовательности стандартными инструментами. Не алгоритмом Ннамди. MUSCLE, старым добрым, проверенным на тысячах работ. И посмотреть.