Юрий Васильев – Искусственный интеллект в лучевой диагностике: Per Aspera Ad Astra (страница 18)
Инструменты полуавтоматической сегментации. Полуавтоматическая сегментация служит одной из самых важных частей ПО для разметки. Она предполагает ввод определенных данных человеком, например, области интереса или ключевых точек, либо требует дополнительной ручной настройки параметров. Алгоритмы, лежащие в основе полуавтоматических методов, способны реализовать различные подходы. Это могут быть классические подходы или же подходы на основе методов машинного обучения (нейронные сети, классические алгоритмы машинного обучения).
Автоматическая сегментация. Только небольшая часть рассмотренного ПО (3D Slicer, Medseg) содержит готовые модули для автоматической сегментации. Большинство модулей являются моделями глубокого обучения и связаны с сегментацией различных органов. Так, например, в 3D Slicer есть плагины по сегментации височной кости, дыхательных путей, опухолей молочной железы, печени и ее сосудов, других сосудов, мозга, сердца и других структур по КТ/МРТ-изображениям. В программе Medseg есть модели, сегментирующие легкие, печень, почки, поджелудочную железу и другие органы, и виды патологии по КТ/МРТ-снимкам. Недостаток Medseg, ограничивающий возможность применения моделей, – невозможность локальной установки.
Проведенный обзор может быть использован при принятии решений относительно выбора программного обеспечения с открытым исходным кодом для разметки результатов лучевых исследований.
2.2.5. Специальные и перспективные наборы данных
Сложные наборы данных. Любому практикующему врачу знакомо выражение «студенческий случай», означающее проявление данного заболевания в максимальном соответствии классическому его описанию. В этой ситуации семиотика и симптоматика настолько типичны, что требуются лишь элементарные знания в предметной области для точной диагностики. Вместе с тем в реальной медицинской практике такие случаи не слишком распространены, чаще всего врач вынужден проводить сложный аналитический процесс и глубокую дифференциальную диагностику. Подавляющее большинство современных медицинских СИИ обучают именно на «студенческих случаях». С одной стороны, это представляет собой закономерный этап развития, с другой – создает значительные ограничения для масштабирования применения соответствующих технологий. Требуется создание наборов данных, содержащих клинические случаи со сложными, нетипичными, неочевидными проявлениями патологического процесса. В НПКЦ ДиТ ДЗМ ведутся соответствующие научные исследования.
Морфометрические наборы данных. В контексте расширения возможностей СИИ и использования их не только в качестве классификаторов важнейшую роль играет морфометрия (автоматизация рутинных измерений). Будучи весьма перспективным, это направление одновременно является и одним из наименее изученных: в мировой практике крайне мало опыта по применению таких технологий, а обоснованные методики подготовки НД и тестирования ИИ-сервисов вовсе отсутствуют. Тем более сложной и вместе с тем интересной становится задача подготовки морфометрических наборов данных88. Среди нерешенных вопросов – оценка выбросов в измерениях, обоснование количества разметчиков и стратегии разметки данных, стандартизация методик измерений, стратегии применения морфометрии. Данное направление появилось в Московском эксперименте в конце 2023 года, и на сегодняшний день немногие ИИ-сервисы смогли решить отдельные задачи измерения анатомических структур. Методологии создания морфометрических наборов данных и оценки качества соответствующих ИИ-сервисов – предмет текущих научных исследований НПКЦ ДиТ ДЗМ.
Обогащенные наборы данных. Обогащенные клинической информацией наборы данных – одно из перспективных направлений развития СИИ, потенциально реализующих типичный именно для практического здравоохранения комплексный подход к диагностике заболеваний. Объединение максимально возможного количества данных из медицинской документации пациента может не только расширить возможности диагностики и прогнозирования течения заболевания, но и позволит искать новые зависимости, совершать открытия в области медицины и развивать профилактическое направление. Основные препятствия при создании обогащенных НД: неструктурированное представление информации в медицинской документации; ограничение доступа к документации, сформированной в разных медицинских организациях; отсутствие единых стандартов, в том числе в части терминологии, величин измерений и т. д. Благодаря наличию и возможностям ЕРИС ЕМИАС перечисленные препятствия медленно, но верно преодолеваются89. Разработаны стратегии (создание НД «с нуля» или обогащение уже готового набора изображений) и подходы к определению объема выборки, уточнены особенности работы с литературой и медицинской информационной системой при выборе и внесении клинических параметров. Научно-практическая работа в данном направлении активно продолжается. Обеспечивается автоматизация процессов работы с клиническими данными, ведется совершенствование алгоритмов работы с неструктурированными данными, разработка методик сбора и обработки данных и т. д.
Динамические наборы данных. Оценка динамических изменений в состоянии здоровья пациента по результатам серии лучевых исследований – актуальная и весьма распространенная практическая задача. Для ее решения с помощью СИИ требуются специальные динамические НД, отражающие, например, рост новообразований, прогрессирование демиелинизации, течение репаративных процессов и т. д. Практическое развитие соответствующих ИИ-сервисов сталкивается с проблемами технического характера на этапе организации их работы с действующими информационными системами в сфере здравоохранения. Эти проблемы еще предстоит решить. В рамках решения методологических задач в НПКЦ ДиТ ДЗМ ведутся научные исследования по анализу ошибок в динамическом ряду изображений, а также осуществляется доработка программы «Платформа подготовки наборов данных» для поиска и сбора данных в динамике90. Представляет значительный интерес комбинация динамических и обогащенных наборов данных.
Наборы данных для оценки технического качества. Автоматизация оценки качества результатов лучевых исследований актуальна для двух направлений:
1. Непрерывное повышение качества работы рентгенолаборантов (в том числе путем выявления типичных ошибок при выполнении исследования, определения и устранения их причин), устранение необходимости повторных исследований одного и того же пациента с соответствующим снижением затрат и недопущением конфликтных ситуаций.
2. Снижение числа ложных срабатываний СИИ путем предварительной оценки и исключения из анализа результатов исследований, выполненных с технологическими дефектами. К нарушениям технического качества относятся некорректные DICOM-теги, нарушения укладки, инородные тела, нарушения экспозиции дозы, «обрезка» областей изображения, артефакты различного происхождения и проч.91 Перспективно формирование соответствующих наборов данных по видам исследований и анатомическим областям.
«Умение» ИИ-сервисов обнаруживать исследования с дефектами и исключать их из анализа обязательно проверяется в рамках Московского эксперимента. Случаи с техническими дефектами обязательно входят в наборы данных, применяемые для функционального тестирования (см. параграф 2.6). В НПКЦ ДиТ ДЗМ разработан оригинальный ИИ-сервис для анализа технологического качества результатов рентгенографии органов грудной клетки92. Очевидно, что создание и тестирование этого инструмента потребовало формирования соответствующего набора данных93. ИИ-сервис интегрирован в программу «Платформа подготовки наборов данных» для внутреннего контроля качества создаваемых НД, а также тестируется в рамках пилотного проекта в медицинских организациях г. Москвы.
Синтетические наборы данных. В настоящее время генеративный ИИ рассматривается как универсальное средство синтеза необходимых визуальных данных.
Большие генеративные модели – модели искусственного интеллекта, способные интерпретировать (предоставлять информацию на основании запросов, например, об объектах на изображении или о проанализированном тексте) и создавать мультимодальные данные (тексты, изображения, видеоматериалы и тому подобное) на уровне, сопоставимом с результатами интеллектуальной деятельности человека или превосходящем их94.
В глобальной перспективе методы и инструменты синтеза результатов лучевых исследований и связанных с ними данных потенциально позволяют95:
– генерировать новые изображения для обогащения наборов данных;
– создавать дополнительные изображения других модальностей: КТ из МРТ, ПЭТ из МРТ, контрастно-усиленные исследования из бесконтрастных;
– улучшить качество изображений путем шумоподавления, удаления артефактов и реконструкции изображений;
– предсказывать динамику патологии.
Проблематика синтетических наборов данных в текущий момент времени рассматривается преимущественно в рамках сугубо научных исследований. В подавляющем большинстве таковых в качестве визуальной генеративной модели применяются генеративно-состязательные сети – GAN (от англ. Generative adversarial network). GAN состоят из двух противоборствующих сверточных сетей: генератора, который пытается сгенерировать реалистичные изображения, и дискриминатора, который определяет, является ли изображение реальным или синтетическим. Именно данный подход применяется в указанных выше научных исследованиях. Вместе с тем известны общие недостатки GAN-подхода. Во-первых, для GAN, как и для ИИ в целом, характерна зависимость результата от качества и объема обучающих данных. Во-вторых, для GAN-моделей актуальна проблема сходимости и коллапса модели, вызывающих появление одного и того же результата при различных входных данных. В рамках проведения научно-исследовательских и опытно-конструкторских работ научным коллективом НПКЦ ДиТ ДЗМ был разработан подход к синтезу бесконтрастных КТ-изображений сосудов из контрастно-усиленной фазы КТ-ангиографического исследования. В качестве решения предложен альтернативный подход к преобразованию размеченных контрастированных КТ-изображений в бесконтрастные с сохранением корректной экспертной разметки. Разработанное для данных целей программное обеспечение не использует машинное обучение и основано на специально разработанном математическом алгоритме подавления контрастирования. Разработанный подход позволяет подавлять контраст-индуцированную детерминированную компоненту сигнала рентгеновской плотности в области брюшного отдела аорты на КТ-изображениях; получать КТ-изображения брюшного отдела аорты, статистически значимо не отличающегося от окружающих мышечных тканей по величине рентгеновской плотности. Главным отличием предложенного подхода от существующих решений является то, что предложенный подход не использует методы синтетической генерации и машинного обучения. Разработанный алгоритм основан на математическом анализе исходных данных, используемая модель позволяет выделить детерминированную компоненту сигнала рентгеновской плотности, что дает возможность получать исходные данные бесконтрастной фазы вместо их синтетической генерации. Таким образом, создание бесконтрастных изображений происходит автоматически и лишено характерных для GAN-подхода недостатков96.