Юрий Васильев – Искусственный интеллект в лучевой диагностике: Per Aspera Ad Astra (страница 4)
Наглядной иллюстрацией этих событий служит всплеск публикационной активности в биомедицинских журналах. Например, по данным библиографической системы Pubmed, в 2010—2015 гг. количество статей об ИИ в рецензируемых медицинских журналах плавно нарастало от 4500 до 6800 в год, а в 2016 г. начался стремительный рост этого показателя с практически удвоением ежегодного числа публикаций в 2019—2020 гг. (порядка 16 400 и 22 600 статей в год соответственно). В 2024 г. на тему ИИ в биомедицинских журналах, индексируемых Pubmed, опубликована почти 51 тысяча статей.
Вместе с тем за истекшие 10 лет «ИИ-революции» в здравоохранении не произошло. Нейросети не заменили врачей, в большинстве экономически развитых стран мира применение технологий ИИ в медицине носит довольно ограниченный характер (во всяком случае принципиально меньший, чем предрекали всяческие «айти-гуру»).
Хайп искусственного интеллекта привел в отрасль здравоохранения новых специалистов и множество больших и малых научных групп, что проявилось колоссальным ростом научной продукции, но минимальным внедрением реально работающих продуктов. В чем же причина такого диссонанса?
Ответ очевиден – низкое качество научных исследований и игнорирование принципов доказательной медицины. Огромный энтузиазм пришедших в отрасль немедицинских специалистов сочетался с игнорированием ими всех устоев медицинской науки. Принцип Noli Nocere! воспринимался исключительно как ретроградный подход «вечно консервативных врачей». Необходимость доказывать безопасность, качество и эффективность предлагаемых инструментов на основе ИИ (по аналогии со всеми иными средствами, применяемыми в медицине) не воспринималась, а нередко и прямо высмеивалась.
Очевидно, что в такой ситуации отношение профессионального медицинского сообщества к технологиям ИИ оставалось настороженным, а пенный поток хайпа только добавлял в это отношение еще и предвзятости. Объективным подтверждением сказанного служат статьи совершенно независимых авторов.
В 2019 г. научная группа из Южной Кореи опубликовала анализ 516 научных статей о применении ИИ для анализа медицинской визуализации (как наиболее перспективной области для внедрения ИИ). Включенные статьи были изданы в 2018 г., фактически – на самой волне ажиотажа под лозунгом «заменим всех рентгенологов на ИИ!».
Проанализировав 516 публикаций в рецензируемых биомедицинских журналах, ученые установили, что 99,0% из них представляют собой доказательства концепции (proof-of-concept study) и технические обоснования (feasibility study). Нелишним будет подчеркнуть, что с позиций доказательности такие публикации представляют для врачебного сообщества фактически нулевую ценность. Только 1,0% статей написан в дизайне диагностического исследования в соответствии с принципами доказательной медицины. Но и здесь были колоссальные проблемы: в 94,0% случаев авторы статей и разрабатывали, и тестировали свои алгоритмы на одних и тех же наборах данных. В свою очередь, 97,0% использованных датасетов формировалось из данных только одной медицинской организации. В целом внешняя валидация ИИ на незнакомых данных была проведена только в 6,0% исследований7.
Таким образом, для медицинского сообщества огромный массив публикаций был совершенно неинформативен, а жалкий 1,0% диагностических исследований содержал колоссальные методические недостатки. Более того, воспроизводимость результатов работы ИИ вообще не изучалась. На закономерный и спокойный вопрос врача: «Как ваш ИИ будет работать на данных из другой больницы?» многочисленным «айти-гуру» оставалось только хвастаться инвестициями в свой стартап и ругать консервативных врачей.
В 2020 г. научная группа из Великобритании опубликовала статью с систематическим анализом дизайна, стандартов отчетности, рисков предвзятости, а также доказательности результатов исследований, сравнивающих эффективность и точность алгоритмов ИИ и опытных врачей. Областью применения ИИ вновь стала медицинская визуализация.
В исследование включены 236 статей, опубликованных с 2010 по 2019 гг. и позиционируемых как «клинические исследования». Углубленный анализ показал, что 96,0% из них выполнены в ретроспективном дизайне, то есть представляли собой тестирование алгоритмов на эталонных наборах данных. Действительно, дизайн рандомизированного клинического исследования (ценного и информативного с позиций доказательной медицины) имели всего лишь 4,2% статей. И даже из этого крошечного числа многие работы были выполнены в «экспериментально-лабораторных условиях». Лишь 2,5% статей содержали результаты работы ИИ в реальных условиях практического здравоохранения. Во многих включенных статьях утверждалось преимущество ИИ над врачом, при этом алгоритмы сравнивали в среднем с 4 специалистами (количество включенных врачей колебалось от 2 до 9)8. Таким образом, и «клинические исследования» точности ИИ были откровенно слабы, а их результаты неубедительны.
Невзирая на бурную публикационную активность, явно ощущаемый потенциал технологий ИИ оставался совершенно нераскрытым для медицины и здравоохранения. Ценность и убедительность доказательств качества и преимуществ ИИ были мизерными. Отдельную проблему составляли манипуляции со статистикой, полностью обесценивавшие публикации об ИИ для врачей. Очевидно, что использование ограниченных наборов данных (авторам этого текста встречалась работа, выполненная на 5 МРТ!) не позволяло получать адекватные показатели точности. Недобросовестные авторы пытались это скрывать путем манипуляций со статистическими показателями, внесением изменений в стандартные формулы чувствительности и специфичности, необоснованным вводом неких новых критериев, совершенно не принятых в биомедицинской статистике. При этом те критерии, которые позволили бы прямо сопоставить заявленную точность с иными опубликованными данными, полностью игнорировались. Пропасть непонимания между врачебным и математическим, ИТ-сообществами нарастала…
В целом, эта ситуация наглядно иллюстрирует описанную К. Боулдингом (K. Boulding; 1910—1993) «глухоту специализации» в научной работе9, когда понятийный и методологический аппарат жестко ограничивается рамками строго конкретной научной дисциплины. В современной науке такой подход в принципе безнадежно устарел, и слепое следование ему искусственно и атавистично, тем более, если речь идет о научно обоснованной цифровизации медицины и здравоохранения.
Колоссальный рост интереса со стороны настоящих профессионалов в области математики, компьютерных наук, инженерии к проблематике медицины, обусловленный шумихой вокруг ИИ, нельзя и недопустимо было игнорировать. Как тут не вспомнить слова выдающегося ученого в области научной организации труда, стандартизации и менеджмента Алексея Капитоновича Гастева (1882—1939): «Свой бешеный энтузиазм сохрани, но введи его в график расчета»10. Требовался системный научный междисциплинарный подход, который позволил бы решить проблемы качества, стандартизации и доступности наборов данных, единства и точности методик оценки ИИ, а также объективно (в том числе сравнительно) оценить точность и воспроизводимость результатов работы ИИ, его безопасность и качество в условиях практического здравоохранения. Ответом на этот запрос науки и практики и стал Московский эксперимент, реализуемый на научных принципах доказательной медицины.
Эксперимент задуман и реализован как исследование со смешанными методами, но ключевой его составляющей является именно проспективное многоцентровое клиническое исследование точности и качества технологий ИИ при анализе результатов пяти основных видов лучевых исследований (рентгенографии, флюорографии, маммографии, компьютерной и магнитно-резонансной томографии).
Московский эксперимент как научное исследование одобрен Независимым этическим комитетом МРО РОРР (протокол 2/2020 от 20.02.2020).
Для представления результатов Московского эксперимента на международном уровне (включая публикации в высокорейтинговых научных изданиях) он зарегистрирован как научное исследование в базе данных Clinical Trials с присвоением идентификационного номера ID Clinical Trials NCT04489992.
Амбициозные цели Московского эксперимента требовали ведения научных изысканий сразу по нескольким направлениям, каждое из которых весьма объемно. В течение 5 лет в рамках каждого направления велись многочисленные исследования. За счет постоянного притока новых знаний появлялись новые гипотезы, требовавшие проверки, соответственно уточнялись и дополнялись конкретные задачи. Общая научная программа отличалась большой динамичностью. Кроме того, появлялись и «ответвления» от основных тематик, из которых зачастую формировались самостоятельные исследования (радиомика, ИИ для контроля качества лучевых исследований, синтетические наборы данных и т.д.).
Сводная научная программа Московского эксперимента за период 2020—2024 гг.:
1. Обосновать клинический контекст, задачи и сценарии применения технологий ИИ в лучевой диагностике.
2. Разработать, внедрить и валидировать методологию создания наборов данных для обучения и тестирования технологий ИИ с учетом этапов жизненного цикла и клинического контекста применения.