Юрий Васильев – Искусственный интеллект в лучевой диагностике: Per Aspera Ad Astra (страница 15)

Шрифт

Относительно деидентификации необходимо указать, что в целом элементы НД не должны содержать какую-либо персональную информацию согласно действующим нормативно-правовым актам; любая персональная информация должна быть удалена как из метаданных, так и из исходных данных. Также должны быть удалены любые иные идентификаторы, с помощью которых потенциально возможно установить личность пациента. Деидентификация данных должна быть произведена в МО, в которой было проведено медицинское исследование, при условии наличия согласия пациента на обработку его персональных данных, включая деидентификацию (обезличивание)66.

Деидентификация метаданных и изображений в формате DICOM проводится в соответствии с ГОСТ Р 71674—202467.

Разметка (аннотация).

В глобальной перспективе существуют два условно стандартизированных подхода к разметке (аннотированию) медицинских данных68:

1. «Аннотация и разметка изображений» (англ. annotation and image markup (AIM)). Использует три базовых концепта:

1) визуальные наблюдения («масса», «поражение», «очаг»);

2) анатомические объекты («затылочная доля», «теменная доля», «медиальный сегмент средней доли правого легкого»);

3) интерференция (нарушение) (поражение речевого центра», «плевральный выпот», «пневмония»).

Визуальным наблюдениям и анатомическим объектам задают характеристики. Например, характеристики наблюдений – «предполагаемый», «кистозный», объектов – «расширенный», «разорванный». После задания характеристик наблюдений и объектов проводят их количественную оценку. Ее допустимо выражать в терминах «присутствует», «отсутствует», «не применимо» либо квартиль/процентиль, либо в произвольной шкале и др. Проводят совмещение этой описательной информации с графическими символами, располагаемыми экспертами на самом изображении, в единый тип данных.

2. «Состояние представления DICOM» (англ. DICOM Presentation State (PS)). Независимый экземпляр класса типовой инструкции DICOM, который содержит информацию о том, как должно отображаться конкретное изображение с использованием всех возможных параметров и визуальных элементов, определенных в стандарте DICOM. Позволяет без потерь вернуться к оригинальному изображению, поскольку никак не модифицирует пиксельные данные.

В рамках Московского эксперимента были выделены и применялись как основные два иных подхода69:

1. Полуструктурированное текстовое описание визуальных наблюдений с указанием содержащих их анатомических объектов и типов нарушений. В лучевой диагностике вариативность терминологии и структуры описаний результатов исследований, а также ориентировочный характер локализации наблюдений делает крайне сложными и малоэффективными автоматический поиск по таким аннотациям и их применение для обучения или тестирования СИИ.

2. Структурированная аннотация, которая должна использовать согласованный набор терминов для снижения вариабельности интерпретаций визуальных наблюдений. В лучевой диагностике такая аннотация может быть сопровождена конкретизированной информацией о локализации наблюдений, которую могут выполнять с разным уровнем точности и детализации:

– с грубой локализацией – приблизительное обозначение координат объектов интереса, посредством задания ограничивающего параллелепипеда или эллипсоида;

– с полной сегментацией на основе маски минимальных элементов, обозначающей положение объекта интереса на фоне остальной части данных.

В лучевой диагностике целесообразно придерживаться следующей типизации видов разметки:

1. Классификация (общий анализ) – отнесение результатов лучевого исследования к одной из категорий, например, «норма» или «наличие целевой патологии».

2. Детекция или локализация – кластерная разметка, ограничение целевых областей изображения прямоугольниками или иными геометрическими фигурами.

3. Сегментация – выделение целевых областей изображения попиксельной маской.

В целом процесс разметки разделяется на два этапа70:

1. Первичная разметка. В ее процессе выполняются отметка и характеризация всех целевых структур в подготовленном НД с формированием структурированной аннотации, шаблон которой определен техническим заданием на набор данных.

Предварительная разметка выполняется врачами, которые соответствуют следующим критериям71:

– компетентность в области конкретных типов данных: изображения, текстовые данные или сигнальные (ЭКГ, ЭЭГ, спирометрия и т.д.), количественные данные (ЧСС, артериальное давление, спирометрия и др.), бинарные данные (например, да/нет);

– наличие знаний и навыков, соответствующих уровню сложности планируемой разметки и/или аннотирования: первичная разметка (сегментирование) или экспертная; детализация на уровне классов или подклассов, установление связи с метаданными, определение вероятных исходов (прогнозирования);

– успешное прохождение предварительного тестирования.

1. Экспертная валидация. Выполняется с привлечением экспертной группы врачей-специалистов в целях проверки и корректировки результатов первичной разметки. Выделяют две группы экспертных оценок:

1) индивидуальные оценки, основанные на использовании мнения отдельных экспертов, независимых друг от друга;

2) коллективные оценки, основанные на использовании коллективного мнения экспертов.

Основные этапы обработки экспертных оценок72:

– определение компетенции экспертов;

– определение обобщенной оценки;

– построение обобщенной ранжировки объектов в случае нескольких оцениваемых объектов или альтернатив;

– определение зависимостей между ранжировками;

– оценка согласованности мнений экспертов (при отсутствии значимой согласованности экспертов необходимо выявить причины несогласованности (наличие групп) и признать отсутствие согласованного мнения (ничтожные результаты));

– оценка ошибки исследования;

– построение модели свойств объекта (объектов) на основе ответов экспертов (для аналитической экспертизы);

– подготовка отчета (с указанием цели исследования, состава экспертов, полученной оценки и анализа результатов).

В экспертную группу должны входить врачи-специалисты с большим опытом работы с определенным типом наборов данных (видом медицинской информации). Как правило, предъявляют требование к опыту работы от трех лет. Эксперты должны обладать опытом в областях, соответствующих решаемым задачам. При подборе экспертов следует учитывать наличие конфликтов интересов, которые могут стать существенным препятствием для получения объективного суждения73.

В рамках Московского эксперимента процесс разметки изначально происходил следующим образом: врач-разметчик просматривал исследование в ЕРИС ЕМИАС и вносил данные в таблицу разметки, используя внешний редактор электронных таблиц. Однако с ростом количества размечаемых показателей этот процесс стал крайне трудозатратным и часто приводил к появлению ошибок ввода. Кроме того, каждое исследование просматривалось 2-мя врачами-разметчиками и валидировались экспертом, что также довольно неудобно при работе с обычными электронными таблицами. Эта проблема решена на «Платформе подготовки наборов данных» путем объединения DICOM-просмотровщика, формы разметки и назначением ролей врача и эксперта (рисунок 2.13).

Рисунок 2.13 – Модуль разметки: слева – DICOM-просмотровщик, справа – форма для разметки

Форма разметки находится в одном окне с просмотровщиком, автоматически переключается при переходе к новому исследованию и имеет гибкие возможности настройки полей и ролей, что способствует снижению ошибок ввода данных и ускорению процесса разметки. Форма создается с помощью специального конструктора (рисунок 2.14), где возможны настройка связей между полями, вид полей (поле для ввода, поля с множественным и единичным выбором), формат данных. Простейший пример так называемой динамической формы – это настройка связи при наличии брака: при выставлении галочки в поле «Брак» дальнейшая часть формы не отображается. Это также дает возможность избежать ряда ошибок и повышает качество создаваемого набора данных. Кроме того, назначение роли «Эксперт» позволяет визуализировать форму с данными разметки от врачей-разметчиков для обеспечения удобной валидации.

Рисунок 2.14 – Конструктор форм

Необходимо отметить, что вопросу качества НД уделено максимально внимание, и все создаваемые инструменты этому способствуют. Так был разработан модуль контроля качества для результатов рентгенографии органов грудной клетки. В автоматическом режиме он анализирует DICOM-исследования на предмет нарушений качества проведения исследований (обрезка, ротация, нарушения экспозиции дозы) и заполнения DICOM-тегов74.

Структурирование данных. Включает в себя проверку таблиц разметки, балансировку классов и формирование итоговых таблиц разметки. Изначально этот этап проводился аналитиком в полуавтоматическом режиме, однако теперь на «Платформе подготовки наборов данных» основную часть этого этапа, а именно проверку таблиц разметки и формирование итоговых таблиц, «взял на себя» модуль разметки. Теперь правильно сформированная форма разметки делает возможным в автоматическом режиме проводить проверку непосредственно в процессе разметки, не позволяя вводить некорректную информацию.

Формирование файлов с DICOM-изображениями и с разметкой производилось вручную. В таблицах разметки указывалась краткая информация о ее содержимом (название, целевая патология, авторы, год создания, назначение и т.д.). На «Платформе подготовки наборов данных» реализован инструмент, позволяющий формировать и структурировать файлы для тестирований в Московском эксперименте в полуавтоматическом режиме (рисунок 2.15).

14 15 16 17 Вперед