Анна Хоружая – Цифровые технологии в лучевой и инструментальной диагностике (страница 4)

Шрифт

Так же, как и в отечественной научной литературе, зарубежные авторы крайне поверхностно изучили результаты внедрения ИИ в работу отделений лучевой диагностики. Доказанные результаты внедрения ИИ приведены только в одном (3%) метаанализе [116]. Его авторы выявили три оригинальные статьи с доказанными результатами внедрения ИИ в клиническую практику. Все указанные работы относятся к сфере нейровизуализации с использованием КТ. Два научных коллектива поместили модель ИИ в начало клинического пути – она осуществляет предварительную сортировку перед интерпретацией результатов исследования врачом-рентгенологом. В одной из указанных работ благодаря ИИ сокращено с 512 до 19 минут среднее время описания «несрочных» исследований (в эту категорию ИИ помещал результаты, подлежащие пересмотру). Во второй работе отмечено достоверное снижение за счет автоматизации среднего времени описаний для амбулаторных (с 674 до 70 минут, р <0,001) и стационарных больных (с 390 до 352 минут, р = 0,002). Вместе с тем для экстренных случаев сокращение длительности подготовки протокола не выявлено. Необходимо отметить, что обе работы проигнорировали анализ потенциального вреда и отсрочки оказания медицинской помощи из-за ложноотрицательных результатов. Между тем удельный вес таких результатов составил 7,5 и 11,6% соответственно [116].

В двух работах, включенных в метаанализ S. Agarwal и соавторов (2023), программное обеспечение на основе технологий ИИ использовано для второго просмотра после интерпретации результатов лучевого исследования врачом-рентгенологом. Посредством автоматизированного анализа выявлено до 1,2% ложноотрицательных результатов врачей-рентгенологов, что позволило провести мероприятия по повышению качества работы отделений лучевой диагностики [116].

Во всех обобщающих публикациях отмечается высокий потенциал для внедрения ИИ в практику, вместе с тем это утверждение обычно является декларативным. Реальные результаты приводятся только в одном метаанализе; причем соответствующее обобщение строится лишь на трех оригинальных статьях. Результаты использования ИИ в клинической практике неоднозначны. С одной стороны, автоматизация дала экономию времени при «несрочных» исследованиях, но такого эффекта нет в неотложных ситуациях. В качестве инструмента верификации качества работы врачей-рентгенологов ИИ эффективно выявлял ложноотрицательные результаты, но одновременно точность выявления ложноположительных решений врача оказалась неудовлетворительной.

В процессе изучения 38 метаанализов применения ИИ в лучевой диагностике нами выявлены серьезные методологические дефекты многих научных работ, существенно влияющие на результаты и выводы.

Прежде всего, отмечается критично недостаточное число проспективных исследований (преобладает дизайн «случай – контроль») и работ с внешней валидацией данных (что, впрочем, отмечается и авторами самих метаанализов). Далее, фиксируется значительный разброс в размерах выборок пациентов между исходными публикациями, достигающий иногда 3—4 порядков. В некоторых статьях выборка экстремально мала и может не превышать двух десятков пациентов. Отмечается необоснованность критериев исключения, что также служит важным фактором снижения качества исследований. Типовой ошибкой является использование перекрывающихся наборов данных (выборок) в качестве обучающих, тестовых и валидирующих.

Довольно часто недостаточно детальное описание методики исследования приводит к снижению ценности его результатов. В ряде исследований неясны характер и способ заслепления, количество и компетенции врачей, время между индексным и референсным тестами. В целом фиксируется низкий уровень стандартизации дизайна и методов исследований, при том, что неоднородность подходов и методов приводит к высокой неоднородности диагностических оценок.

Надо отметить, что в более чем 50,0% метаанализов включены лучевые исследования разных модальностей, что чрезвычайно повышает неоднородность данных и затрудняет их обобщение.

В большинстве метаанализов риск предвзятости публикаций оценен как низкий. Однако отсутствие публикаций с отрицательными результатами дает основание пересмотреть градацию данного риска в пользу более значимой его выраженности.

Таким образом, в глобальной перспективе результаты исследований применимости и качества ИИ в лучевой диагностике показывают достаточно высокую диагностическую точность технологий искусственного интеллекта, но эти результаты в подавляющем большинстве случаев получены в исследованиях с некорректным дизайном, способом проведения и отчетностью, что фактически гарантированно приводит к систематическим ошибкам и переоценке эффективности алгоритмов. Еще раз подчеркнем преобладание ретроспективных исследований на дискретных наборах данных, а также отсутствие полноценных исследований в реальных клинических условиях.

1. 3. Развитие технологий искусственного интеллекта в лучевой диагностике в Российской Федерации

Вопросы применения технологий искусственного интеллекта в различных клинических направлениях активно изучаются российскими учеными. Ведутся исследования применимости ИИ в гематологии [72], урологии и онкоурологии [79], кардиологии и функциональной диагностике [105, 89], дерматологии (преимущественно для скрининга злокачественных новообразований кожных покровов) [89], гастроэнтерологии [81], неонатологии [105], патоморфологии [5, 18], лабораторной диагностике [28, 31]; также разрабатываются прогностические системы поддержки принятия врачебных решений [29]. Отдельным перспективным направлением можно считать применение ИИ при проведении эндоскопических исследований желудочно-кишечного тракта и мочевыводящих путей [32, 53, 87]. Особенность здесь состоит в необходимости автоматизированного анализа динамичных видеоизображений в режиме реального времени с немедленным отображением результатов. Схожая проблематика существует и для ультразвуковой диагностики [57, 100]. Достаточно успешны разработки на основе ИИ для ретроспективного анализа электронных медицинских карт. Соответствующие решения в разных форматах внедрялись в субъектах Российской Федерации для выполнения задач профилактической медицины [26, 55]. Особенно значителен прогресс в офтальмологии, где показана принципиальная достижимость для ИИ точности врача-офтальмолога при интерпретации изображений глазного дна в контексте скрининга диабетической ретинопатии, глаукомы и некоторых иных наиболее распространенных заболеваний [35, 49, 54, 71].

В области лучевой диагностики также отмечается научная и публикационная активность. Разработана и протестирована модель глубокого обучения (подход 3D-классификации с помощью модели DenseNet) для типирования глиом на результатах МРТ головного мозга. Авторы использовали один набор данных (n = 707), разделив его на две части: 80,0% – для обучения, 20,0% – для тестирования. В таких условиях достигнута точность 83,0%, площадь под характеристической кривой составила 0,95. Авторы отметили достижение цели – принципиальная возможность использования ИИ для конкретной клинической задачи в области лучевой диагностики достигнута [33].

В 2020 году опубликованы результаты ретроспективной оценки точности программного обеспечения на основе ИИ, имеющего статус медицинского изделия (RU.96876180.62.01.29—01). Исследование проведено на результатах 75 флюорографий. Авторы отметили 100,0% чувствительность этой разработки, снабдили свою статью эмоциональными высказываниями («ИИ прекрасно распознавал патологии органов грудной клетки») и рекомендовали продукт к дальнейшей клинической валидации. Несколько странно звучит данная рекомендация в отношении уже зарегистрированного медицинского изделия. Явными ограничениями исследования являются: ретроспективный характер, малый объем выборки (ничем не обоснованный предварительно), а также довольно произвольное использование общепринятых показателей диагностической точности [4].

В 2022 году опубликованы результаты совместной разработки ФГБУ «НМИЦ колопроктологии им А. Н. Рыжих» Минздрава России и одной из коммерческих компаний. С использованием набора данных из 900 результатов магнитно-резонансной томографии прямой кишки разработана «базовая модель искусственного интеллекта» на основе нейросетей SegResNet, TransUnet, 3D Unet. На исходном наборе данных (то есть без внешней валидации или проверки на новых данных) получена точность 77,0%, чувствительность – 98,1%, специфичность – 45,1%, положительная прогностическая ценность – 72,9%, отрицательная прогностическая ценность – 94,1%. Низкую специфичность авторы объяснили высоким удельным весом «ложноположительных результатов у здоровых пациентов» (то есть при анализе изображений без признаков онкологической патологии). Авторы наметили пути дальнейшего развития своей разработки (улучшение специфичности, расширение анализируемых параметров, экспериментирование с параметрами обучения, увеличение набора данных) [39]. Однако они обошли вниманием необходимость внешней валидации; также проигнорирован аспект оценки точности и надежности разработки в проспективном режиме, в реальных клинических условиях.

Достаточно объемным исследованием последних лет стала серия научных работ А. А. Мелдо с соавторами. Обосновав актуальность применения технологий ИИ для выявления признаков злокачественных новообразований на результатах компьютерной томографии органов грудной клетки (КТ ОГК) органы грудной клетки, авторы подробно описали этапы разработки технического решения на основе сиамских нейронных сетей, включая признаки формы, внутреннюю структуру и архитектуру дифференциальной диагностики. Также были предложены оригинальные математические методики для классификации анализируемых объектов на изображении, способ понижения размерности данных для повышения эффективности и скорости обучения моделей. Приводятся показатели точности авторской системы: чувствительность – 75,0—93,0%, специфичность – 84,0—97,0%, точность – 81,0—95,0% (колебания обусловлены конкретной архитектурой нейросети) [64, 65, 66, 67, 70]. Вместе с тем принятая информация о процессе оценки точности, объемах и характеристиках использованных данных, внешней независимой проверке, наконец, клиническом применении системы не представлена. Авторы фокусируются на технологических аспектах, алгоритмизации процессов дифференциальной диагностики, но вопросы воспроизводимости результатов, работы на реальных клинических данных полностью упущены.

3 4 5 6 Вперед