Юрий Васильев – Искусственный интеллект в лучевой диагностике: Per Aspera Ad Astra (страница 11)

Шрифт

Отдельным важнейшим аспектом технической и методической подготовки, тесно связанным с предыдущими этапами, стала стандартизация настроек диагностических устройств. В тесном взаимодействии с производителями оборудования унифицированы номенклатура, протоколы, заполнение DICOM-тегов. Тем самым обеспечен единый стандарт лучевых исследований в сети медицинских организаций ДЗМ.

Первые версии БФТ и БДТ опубликованы в монографии с обобщением результатов первого года Московского эксперимента33.

Таким образом, основным методологическим подходом при внедрении ИИ в практическое здравоохранение служит триада стандартизированных документов:

1. Перечень обоснованных клинико-диагностических задач (направлений), решаемых в рамках стандартизированного производственного процесса в актуальном клиническом контексте.

2. Базовые диагностические требования.

3. Базовые функциональные требования.

Надо подчеркнуть, что решение каждой клинико-диагностической задачи представляет собой автоматизацию определенной трудовой операции в рамках стандартизированного производственного процесса, а также дает измеримый результат, пригодный для интегральной оценки результативности и эффективности внедрения технологий искусственного интеллекта.

Процесс практического использования ИИ должен сопровождаться тестированием и мониторингом безопасности и качества; подробно эти вопросы изложены далее, в параграфе 2.4.

2.2. Методология создания наборов данных

2.2.1. Определения и общие положения

Набор данных – состав данных, которые структурированы или сгруппированы по определенным признакам, соответствуют требованиям законодательства Российской Федерации и необходимы для разработки программ для электронных вычислительных машин на основе искусственного интеллекта34.

Разметка данных – этап обработки структурированных и неструктурированных данных, в процессе которого данным (в том числе текстовым документам, фото- и видеоизображениям) присваиваются идентификаторы, отражающие тип данных (классификация данных), и (или) осуществляется интерпретация данных для решения конкретной задачи, в том числе с использованием методов машинного обучения35.

Наборы данных (НД)36 – основа функционирования искусственного интеллекта. Они необходимы при создании моделей (обучение, тестирование, дообучение), на этапе использования (клинические испытания, внешняя валидация, первичные и повторные тестирования), а также в научных исследованиях. В Национальной стратегии развития искусственного интеллекта на период до 2030 года наборам данных уделено особое внимание37:

– формирование НД определено одним из направлений повышения доступности инфраструктуры для СИИ;

– регламенты работы с наборами данных выбраны одними из основных направлений внедрения доверенных технологий искусственного интеллекта в органах публичной власти и организациях;

– законодательное обеспечение возможности доступа разработчиков технологий искусственного интеллекта к различным видам данных указано одним из основных направлений создания комплексной системы нормативно-правового регулирования общественных отношений, связанных с развитием и использованием технологий искусственного интеллекта, и обеспечения безопасности применения таких технологий;

– создание библиотек наборов данных входит в основные направления оказания поддержки организациям – разработчикам технологий искусственного интеллекта, а также в основные направления укрепления международного сотрудничества в области использования ТИИ.

С 2015 г. в НПКЦ ДиТ ДЗМ начаты системные научные исследования в области создания и применения наборов данных для обучения и тестирования искусственного интеллекта. Для научного тестирования СИИ эмпирически сформирован и размечен ряд наборов данных, четыре из которых получили официальное свидетельство о государственной регистрации базы данных. К 2018 г. научно обоснован оригинальный метод разметки очагов в легких сферическими кластерами; созданы алгоритмическая основа и программный комплекс, позволяющие проводить разметку компьютерных томограмм ОГК; подготовлен набор данных деперсонализированных размеченных компьютерных томограмм органов грудной клетки CTLungCa-500. Для помощи многочисленным разработчикам этот набор данных впервые в Российской Федерации размещен в свободном доступе. Он был скачан несколько десятков раз и использован для самотестирования и обучения несколькими научными группами разработчиков и компаниями38.

В ходе подготовки и реализации Московского эксперимента потребовалось создание большого количества эталонных (валидированных) наборов данных, поэтому был организован непрерывный процесс их формирования (рисунок 2.1), в первую очередь для тестирования ИИ-сервисов, а также для научных исследований, нацеленных на изучение качества работы и потенциала развития СИИ, поиск новых направлений их применения39.

Рисунок 2.1 – Динамика количества наборов данных, созданных в ГБУЗ «НПКЦ ДиТ ДЗМ» в 2018—2024 гг.

В процессе накопления опыта возникали новые задачи, и наборы данных создавались уже для обучения собственных моделей ИИ. Так были созданы инструменты контроля качества рентгенографии органов грудной клетки40, анализа результатов компьютерной томографии печени CT HepatoScan Наличие богатого опыта формирования НД позволило сделать их самих объектом научного интереса и сформировать методологию их создания41, принципы организации42 и инструменты работы с данными43.

Путем систематизации эмпирического опыта и результатов экспериментально-лабораторной работы научно обоснованы и реализованы на практике:

– унифицированные основные характеристики наборов данных для разработки и тестирования СИИ в здравоохранении;

– понятие и требования к эталонным наборам данных;

– практико- и клинически ориентированная классификация наборов данных;

– обобщенная методология формирования наборов данных;

– мероприятия по организации разметки и контролю ее качества;

– формализованный производственный процесс создания наборов данных.

Все перечисленные разработки носят универсальный характер и могут применяться в разных клинических направлениях.

Научно-практическая ценность методологии описания, сбора и разметки данных, разработанной коллективом авторов, была подтверждена оценке независимыми группами исследователей. В первую волну пандемии COVID-19 по оригинальной методологии создан крупнейший в мире набор данных результатов компьютерной томографии органов грудной клетки у пациентов с ПЦР-подтвержденной новой коронавирусной инфекцией («MosMedData: результаты исследований компьютерной томографии органов грудной клетки с признаками COVID-19» (MosMedData-CT-COVID19-type VII-v 2)44). Этот набор был размещен в открытом доступе, благодаря чему использован для обучения и тестирования алгоритмов ИИ учеными из разных стран мира. Данное утверждение подтверждается 11 статьями, индексируемыми системой Pubmed (в т.ч. авторских коллективов из Китая – 3, США – 2, Ирана – 1, международных групп ученых – 5)45.

Благодаря Московскому эксперименту впервые в Российской Федерации реализована библиотека наборов данных для сферы здравоохранения (https://mosmed.ai/datasets/). В библиотеке размещены свыше 250 наборов данных, по состоянию на 01.01.2025 зафиксировано 4709 скачиваний и десятки тысяч просмотров конкретных наборов. В пятерке лидеров по используемости – «MosMedData-CT-COVID19-type VII-v 2» (1093 скачиваний), «MosMedData-CT_XR_MMG-MULTI-type II» (481 скачивание), «MosMedData-CT-HEMORRHAGE-type VIII» (364 скачивания), «MosMedData-ECG-MULTI-type VII» (311 скачиваний), «MosMedData-MRI-MS-type II» (284 скачивания). Разработанные методологии целеполагания, стандартизации, работы с данными используются при создании технологий искусственного интеллекта, а также стали основой национальных стандартов.

2.2.2. Принципы классификации и организации наборов данных в лучевой диагностике

В лучевой диагностике набор данных представляет собой упорядоченную совокупность:

– диагностических изображений одной модальности и/или однотипных медицинских документов (например, протоколов описаний результатов исследований);

– сведений о наличии, характере и локализации патологических изменений на изображениях; для текстовых документов – библиотеки ключевых слов, словосочетаний и их критичных сочетаний;

– сведений о верификации диагноза (опционально).

В ходе Московского эксперимента установлено, что набор данных должен содержать следующие сведения описательного характера:

1) номер свидетельства о государственной регистрации базы данных в качестве результата интеллектуальной деятельности (рекомендательно);

2) характеристику популяции (возрастно-половые показатели, этнический состав, регионы проживания и т.д.); сведения о деидентификации; сведения о медицинских организациях, послуживших источниками для формирования базы данных; сведения о факторах риска;

3) характеристику диагностических исследований: анатомическая область (и), модальность, проекции, типы медицинских изделий – диагностических приборов, виды и характеристики протоколов исследования;

4) целевую патологию согласно Международной классификации болезней 10 версии (либо наименование феноменов в соответствии с клиническими рекомендациями, национальными стандартами, рекомендациями профильных ассоциаций врачей-специалистов);

10 11 12 13 Вперед