Эдуард Сероусов – Грамматика тишины (страница 6)

Шрифт

Или – на котором написано, но ты не умеешь читать.

Он стоял у окна и думал о тау Кита. О ночи в 1991 году. О пике на экране спектроанализатора. О трёх секундах уверенности, после которых мозг включил скепсис, и скепсис спас его – от ошибки, от позора, от ложного крика «нашёл!», который разрушает карьеры и целые дисциплины. Скепсис был его бронёй, его инструментом, его формой любви к науке – потому что любить науку означало защищать её от себя самого, от своего желания найти.

Но.

Четыре целых семь десятых.

Волков вернулся к столу. Сел. Открыл файл с конфигурацией ROSETTA и начал читать – медленно, строчку за строчкой, так, как читал тридцать три года назад показания спектроанализатора после того, как пик исчез. Тогда он искал ошибку, которая объяснила бы появление пика. Сейчас он искал ошибку, которая объяснила бы появление грамматики. Тогда – нашёл: помеха от спутника, отражённая ионосферой. Сейчас – ещё не нашёл. Но не потому что ошибки нет. Потому что он ещё не дочитал.

Он будет читать весь день. Он будет проверять каждый параметр, каждый слой сети, каждое решение, принятое при обучении. Он будет искать причину, по которой результат неверен, – потому что результат обязан быть неверен, потому что альтернатива означает, что Вселенная устроена так, как ни один физик – ни один, за всю историю дисциплины – не предполагал: не как механизм, не как процесс, не как случайность, а как высказывание.

А Волков не был готов жить во Вселенной, которая говорит.

Он не был готов – и он знал почему. Потому что если Вселенная говорит, значит тридцать лет, которые он провёл, слушая, были не поиском, а глухотой. Не героической, не трагической – просто глухотой. Он слушал неправильно. Он искал звук, а нужно было искать форму. Он ждал сигнала, а нужно было увидеть структуру. И единственный человек, который это понял, – та, которая не слышала ни единого звука с рождения.

Волков посмотрел на фотографию на стене – на себя, молодого, рядом с Дрейком. Два человека, которые верили. Один умер, не услышав. Второй – пока жив, пока не услышал. Пока.

Он снял очки – привычка, когда нужно было подумать: без очков мир размывался, терял детали, становился набором цветных пятен, и в этой нечёткости думалось легче, потому что детали отвлекали. Лампа гудела. Кондиционер работал. Где-то за стеной звучали голоса – обычные голоса обычных людей, обсуждающих обычные вещи: графики, данные, обеды. Звуки, которые Вера Ланг никогда не слышала.

Он надел очки. Повернулся к экрану. 4.7 сигма.

Прежде чем вы решите, что нашли сигнал, – найдите три причины, почему это не сигнал. Его собственное правило. Он начал искать.

Причина первая: артефакт обучения. Нейросеть могла усилить реальные, но тривиальные корреляции между константами до нетривиального уровня. Это объяснило бы всё – и при этом не потребовало бы пересмотра физики. Волков открыл спецификацию обучающего набора.

Причина вторая: систематическая ошибка в данных. Спектры квазаров, на которых обучалась ROSETTA, были получены разными телескопами в разные годы. Межинструментальная калибровка – вечная головная боль радиоастрономии. Сдвиг нуля, разное покрытие uv-плоскости, разные модели атмосферной коррекции – каждый из этих факторов мог внести ложную корреляцию.

Причина третья. Волков остановился. Причина третья не приходила. Он знал, какой она должна быть – «человеческий фактор: предвзятость исследователя» – но это было нечестно, потому что ROSETTA не была человеком. Она не хотела найти. Она не боялась не найти. У неё не было трёх секунд уверенности, за которыми следовали тридцать три года сомнений. Она считала – и выдавала результат. Предвзятость могла быть заложена в архитектуру, в обучающие данные, в постановку задачи, – но не в сам акт вычисления. Машина не видит лица в облаках. Она видит то, на что её натренировали.

На что Вера натренировала ROSETTA?

Искать структуру в шуме. Не конкретную структуру – любую. Максимально агностический подход, минимум допущений. Если ROSETTA нашла контекстно-свободную грамматику, значит, либо грамматика присутствует в данных, либо архитектура сети порождает артефакт, имитирующий грамматику. Третьего варианта нет.

Волков смотрел на экран и не находил третью причину. Две были. Третья – нет. Его собственное правило требовало три. Две недостаточно. С двумя – ты ещё не уверен, что это не сигнал.

Он закрыл файл. Встал. Снова сел. Потянулся к телефону – набрать Веру, сказать: «Что вы нашли?» Остановился. Положил телефон.

Если он позвонит сейчас – если напишет, – это будет означать, что он принял результат всерьёз. А он не мог этого позволить. Не себе – результату. Результат должен пройти проверку, прежде чем к нему можно отнестись серьёзно. Это не трусость. Это – он искал слово и нашёл единственное честное – это гигиена.

Волков развернулся к монитору. Открыл конфигурацию ROSETTA. Начал читать, строчку за строчкой, с самого начала.

За окном пустыня не менялась. Она и не должна была – ей четыре с половиной миллиарда лет, и за это время она видела всё, кроме ответа. Кондиционер гудел на до-диез. Где-то на пяти тысячах метрах над уровнем моря Вера Ланг, вероятно, спала, впервые за двое суток, и ей, вероятно, ничего не снилось – или снилось что-то такое, чего нельзя услышать.

А Волков читал код и искал ошибку, которая спасла бы его от открытия.

Глава 3. Лексема

Вера не спала семьдесят один час.

Она знала точную цифру, потому что вела лог – не из дисциплины, а из привычки: фиксировать параметры среды, в которой получен результат, чтобы потом, при анализе, отделить находку от шума. Шум в данном случае включал: недосыпание (71 час), гипоксию (высота 4900 м, SpO₂ колеблется между 84 и 89%), обезвоживание (менее литра воды за последние сутки, она забывала пить), гипогликемию (последний приём пищи – энергетический батончик, четырнадцать часов назад, обёртка лежала на краю стола, как маленький блестящий труп). Каждый из этих факторов мог влиять на когнитивные функции. Каждый мог быть причиной того, что она видела в данных нечто, чего там не было.

Но данные не менялись. Она проверяла – и они не менялись.

Первые двадцать четыре часа после обнаружения аномалии Вера потратила на то, что должен делать любой учёный, столкнувшийся с невероятным результатом: она пыталась его уничтожить. Систематически, методично, без жалости. Она перезапускала ROSETTA на подмножествах данных – убирала квазары, оставляла реликтовое излучение; убирала реликтовое излучение, оставляла измерения констант из CODATA; оставляла только барионные акустические осцилляции. Паттерн исчезал в каждом отдельном подмножестве. Он появлялся только в комбинации. Это могло означать, что структура была межмасштабной – существовала не в отдельных наборах данных, а в отношениях между ними. Или что нейросеть использовала перекрёстные корреляции между наборами для создания артефакта. Оба объяснения были валидны. Оба были несовместимы друг с другом.

Вера провела серию тестов с инъекцией шума – добавляла к реальным данным случайный гауссовский шум возрастающей амплитуды и смотрела, при каком уровне паттерн разрушается. Если паттерн был артефактом обучения – он должен быть устойчив к шуму, потому что порождён не данными, а архитектурой сети. Если паттерн был реальным – он должен деградировать с ростом шума, потому что шум размывает реальную структуру. Паттерн деградировал. Плавно, предсказуемо, с кривой, характерной для реального сигнала: уровень значимости падал линейно с логарифмом отношения сигнал/шум. При SNR < 3 – исчезал полностью. Именно так ведёт себя реальная структура. Артефакт вёл бы себя иначе.

Это не было доказательством. Это было свидетельством. В науке, как в суде, между ними – пропасть.

Вторые двадцать четыре часа Вера провела, анализируя саму структуру. На первом экране – граф: узлы и связи, фрактальное самоподобие, четыре уровня рекурсии. На втором – таблица с математическим описанием: каждая связь между узлами была функцией, и Вера, выписывая эти функции одну за другой, обнаружила нечто, что заставило её отложить ручку и минуту сидеть неподвижно, глядя в стену.

Функции были не произвольными. Они подчинялись правилам.

Правило первое: каждая функция имела ровно два аргумента. Один – «порождающий», определяющий структуру связи. Другой – «модифицирующий», определяющий параметры. В лингвистике это называлось бы «голова» и «зависимый» – как в словосочетании «красный дом», где «дом» – голова, определяющая категорию, а «красный» – зависимый, определяющий свойство.

Правило второе: функции вкладывались друг в друга рекурсивно, и глубина вложенности определяла масштаб – от космологического (соотношение гравитационной постоянной и постоянной Хаббла) до субатомного (постоянная тонкой структуры и масса электрона). Рекурсия не была бесконечной: на четвёртом уровне данные обрывались – не потому что структура заканчивалась, а потому что точность измерений была недостаточной для более глубокого анализа.

Правило третье – и это было то, от чего Вера минуту смотрела в стену, – функции подчинялись иерархии, в которой каждый уровень генерировался из предыдущего по единообразному набору правил. Это означало: структура не просто самоподобна. Она порождена грамматикой.

5 6 7 8 Вперед