Юрий Васильев – Искусственный интеллект в лучевой диагностике: Per Aspera Ad Astra (страница 15)
Относительно деидентификации необходимо указать, что в целом элементы НД не должны содержать какую-либо персональную информацию согласно действующим нормативно-правовым актам; любая персональная информация должна быть удалена как из метаданных, так и из исходных данных. Также должны быть удалены любые иные идентификаторы, с помощью которых потенциально возможно установить личность пациента. Деидентификация данных должна быть произведена в МО, в которой было проведено медицинское исследование, при условии наличия согласия пациента на обработку его персональных данных, включая деидентификацию (обезличивание)66.
Деидентификация метаданных и изображений в формате DICOM проводится в соответствии с ГОСТ Р 71674—202467.
В глобальной перспективе существуют два условно стандартизированных подхода к разметке (аннотированию) медицинских данных68:
1. «Аннотация и разметка изображений» (англ. annotation and image markup (AIM)). Использует три базовых концепта:
1) визуальные наблюдения («масса», «поражение», «очаг»);
2) анатомические объекты («затылочная доля», «теменная доля», «медиальный сегмент средней доли правого легкого»);
3) интерференция (нарушение) (поражение речевого центра», «плевральный выпот», «пневмония»).
Визуальным наблюдениям и анатомическим объектам задают характеристики. Например, характеристики наблюдений – «предполагаемый», «кистозный», объектов – «расширенный», «разорванный». После задания характеристик наблюдений и объектов проводят их количественную оценку. Ее допустимо выражать в терминах «присутствует», «отсутствует», «не применимо» либо квартиль/процентиль, либо в произвольной шкале и др. Проводят совмещение этой описательной информации с графическими символами, располагаемыми экспертами на самом изображении, в единый тип данных.
2. «Состояние представления DICOM» (англ. DICOM Presentation State (PS)). Независимый экземпляр класса типовой инструкции DICOM, который содержит информацию о том, как должно отображаться конкретное изображение с использованием всех возможных параметров и визуальных элементов, определенных в стандарте DICOM. Позволяет без потерь вернуться к оригинальному изображению, поскольку никак не модифицирует пиксельные данные.
В рамках Московского эксперимента были выделены и применялись как основные два иных подхода69:
1. Полуструктурированное текстовое описание визуальных наблюдений с указанием содержащих их анатомических объектов и типов нарушений. В лучевой диагностике вариативность терминологии и структуры описаний результатов исследований, а также ориентировочный характер локализации наблюдений делает крайне сложными и малоэффективными автоматический поиск по таким аннотациям и их применение для обучения или тестирования СИИ.
2. Структурированная аннотация, которая должна использовать согласованный набор терминов для снижения вариабельности интерпретаций визуальных наблюдений. В лучевой диагностике такая аннотация может быть сопровождена конкретизированной информацией о локализации наблюдений, которую могут выполнять с разным уровнем точности и детализации:
– с грубой локализацией – приблизительное обозначение координат объектов интереса, посредством задания ограничивающего параллелепипеда или эллипсоида;
– с полной сегментацией на основе маски минимальных элементов, обозначающей положение объекта интереса на фоне остальной части данных.
В лучевой диагностике целесообразно придерживаться следующей типизации видов разметки:
1. Классификация (общий анализ) – отнесение результатов лучевого исследования к одной из категорий, например, «норма» или «наличие целевой патологии».
2. Детекция или локализация – кластерная разметка, ограничение целевых областей изображения прямоугольниками или иными геометрическими фигурами.
3. Сегментация – выделение целевых областей изображения попиксельной маской.
В целом процесс разметки разделяется на два этапа70:
1.
Предварительная разметка выполняется врачами, которые соответствуют следующим критериям71:
– компетентность в области конкретных типов данных: изображения, текстовые данные или сигнальные (ЭКГ, ЭЭГ, спирометрия и т.д.), количественные данные (ЧСС, артериальное давление, спирометрия и др.), бинарные данные (например, да/нет);
– наличие знаний и навыков, соответствующих уровню сложности планируемой разметки и/или аннотирования: первичная разметка (сегментирование) или экспертная; детализация на уровне классов или подклассов, установление связи с метаданными, определение вероятных исходов (прогнозирования);
– успешное прохождение предварительного тестирования.
1.
1) индивидуальные оценки, основанные на использовании мнения отдельных экспертов, независимых друг от друга;
2) коллективные оценки, основанные на использовании коллективного мнения экспертов.
Основные этапы обработки экспертных оценок72:
– определение компетенции экспертов;
– определение обобщенной оценки;
– построение обобщенной ранжировки объектов в случае нескольких оцениваемых объектов или альтернатив;
– определение зависимостей между ранжировками;
– оценка согласованности мнений экспертов (при отсутствии значимой согласованности экспертов необходимо выявить причины несогласованности (наличие групп) и признать отсутствие согласованного мнения (ничтожные результаты));
– оценка ошибки исследования;
– построение модели свойств объекта (объектов) на основе ответов экспертов (для аналитической экспертизы);
– подготовка отчета (с указанием цели исследования, состава экспертов, полученной оценки и анализа результатов).
В экспертную группу должны входить врачи-специалисты с большим опытом работы с определенным типом наборов данных (видом медицинской информации). Как правило, предъявляют требование к опыту работы от трех лет. Эксперты должны обладать опытом в областях, соответствующих решаемым задачам. При подборе экспертов следует учитывать наличие конфликтов интересов, которые могут стать существенным препятствием для получения объективного суждения73.
В рамках Московского эксперимента процесс разметки изначально происходил следующим образом: врач-разметчик просматривал исследование в ЕРИС ЕМИАС и вносил данные в таблицу разметки, используя внешний редактор электронных таблиц. Однако с ростом количества размечаемых показателей этот процесс стал крайне трудозатратным и часто приводил к появлению ошибок ввода. Кроме того, каждое исследование просматривалось 2-мя врачами-разметчиками и валидировались экспертом, что также довольно неудобно при работе с обычными электронными таблицами. Эта проблема решена на «Платформе подготовки наборов данных» путем объединения DICOM-просмотровщика, формы разметки и назначением ролей врача и эксперта (рисунок 2.13).
Форма разметки находится в одном окне с просмотровщиком, автоматически переключается при переходе к новому исследованию и имеет гибкие возможности настройки полей и ролей, что способствует снижению ошибок ввода данных и ускорению процесса разметки. Форма создается с помощью специального конструктора (рисунок 2.14), где возможны настройка связей между полями, вид полей (поле для ввода, поля с множественным и единичным выбором), формат данных. Простейший пример так называемой динамической формы – это настройка связи при наличии брака: при выставлении галочки в поле «Брак» дальнейшая часть формы не отображается. Это также дает возможность избежать ряда ошибок и повышает качество создаваемого набора данных. Кроме того, назначение роли «Эксперт» позволяет визуализировать форму с данными разметки от врачей-разметчиков для обеспечения удобной валидации.
Необходимо отметить, что вопросу качества НД уделено максимально внимание, и все создаваемые инструменты этому способствуют. Так был разработан модуль контроля качества для результатов рентгенографии органов грудной клетки. В автоматическом режиме он анализирует DICOM-исследования на предмет нарушений качества проведения исследований (обрезка, ротация, нарушения экспозиции дозы) и заполнения DICOM-тегов74.