Юрий Васильев – Искусственный интеллект в лучевой диагностике: Per Aspera Ad Astra (страница 16)

Шрифт

Детальная информация об инструментах разметки и их сравнение представлены далее.

Рисунок 2.15 – Структурирование файла: при введении поля для балансировки инструмент отображает количество размеченных исследований и структурирует их в файлы с заданным названием и составом, а также формирует вкладку с кратким содержимым файла

Регистрация и публикация. В завершение всех процессов непосредственно по формированию набора данных необходимо обозначить этот момент, а также подготовить сопровождающий readme-файл, который содержит основную информацию о НД и будет храниться вместе с ним. Изначально для readme-файла был разработан специальный шаблон, куда вносилась нужная информация. Однако с учетом того, что readme хранится на двух языках (русском и английском) и в двух форматах (PDF и md), его заполнение занимало много времени. Поэтому был разработан специальный программный код, который формировал документ путем извлечения данных из реестра. Код включен в «Платформу подготовки наборов данных» в виде генератора readme на странице НД (рисунок 2.10б). Он позволяет автоматически сформировать документ на двух языках и визуализирует его в корректируемом виде: можно исправить и сохранить все параметры, которые не соответствуют стандартному шаблону. Этап регистрации заключается во внесении всей информации о наборе в реестр и фиксации статуса «Готов».

Публикация НД осуществляется на закрытых или открытых ресурсах. Закрытые наборы данных НПКЦ ДиТ ДЗМ доступны только сотрудникам, задействованным в Московском эксперименте и научных исследованиях; открытые – опубликованы в библиотеке https://mosmed.ai/datasets/ и доступны всем желающим. Данная библиотека разработана в рамках нормативно-правового регулирования общественных отношений, связанных с развитием и использованием технологий искусственного интеллекта, и обеспечения безопасности применения таких технологий, предусмотренных Национальной стратегией развития искусственного интеллекта до 2030 года. В частности, речь идет об установлении правил создания и предоставления наборов данных, основой которых являются обезличенные медицинские данные, а также создании механизмов их распространения, объединения и обмена для выполнения научных исследований в области искусственного интеллекта75. Кроме того, распространение наборов данных соответствует принципу бережливости Национальной стратегии и принципам FAIR (от англ. Findable, Accessible, Interoperable, Reusable – доступные для поиска, доступные к использованию, совместимые, пригодные для повторного использования научные данные)76.

Библиотека mosmed.ai содержит каталог НД с различными фильтрами для удобного поиска (рисунок 2.16).

Рисунок 2.16 – Каталог наборов данных библиотеки mosmed.ai

Карточка НД также имеет структурированный вид для оптимального поиска исследователем или разработчиком необходимых параметров (рисунок 2.17). При скачивании загружается архив, содержащий медицинские изображения, файл (ы) разметки и readme на двух языках.

Рисунок 2.17 – Фрагмент карточки набора данных библиотеки mosmed.ai

Библиотека содержит различные категории НД, однако наиболее широко в ней представлены «селф-тесты диагностические», то есть наборы данных для самотестирования ИИ-сервисов. Они активно используются в Московском эксперименте, содержат небольшое количество исследований (от 4 до 10) и предназначены для предварительного самостоятельного тестирования разработчиками своих продуктов. Это позволяет выявить и устранить ошибки до момента подачи заявки на участие в Московском эксперименте. Также для самостоятельной оценки функционирования СИИ на различных диагностических устройствах в библиотеке имеются «селф-тесты технические». Научные исследования представлены в библиотеке несколькими наборами данных разных модальностей (КТ, РГ, УЗИ, ММГ, ЭКГ), в частности, имеются 2 набора данных, обогащенных клинической информацией77.

Использование. После размещения НД в хранилище и внесении в реестр можно приступать к процессу использования. При этом информацию об использовании также необходимо фиксировать, особенно с учетом большого количества НД, создаваемых в НПКЦ ДиТ ДЗМ, а также их всестороннего использования в соответствии с принципом разумной бережливости (принцип повторного использования). Информация об использовании также хранится в реестре в одноименном разделе. В соответствии с задачами были выделены следующие разделы:

– ссылка на хранение НД;

– актуальная версия для Московского эксперимента;

– научное сотрудничество;

– научная статья;

– доступ для разработчиков;

– ссылка для цитирования;

– статус регистрации РИД.

Кроме того, ввиду проведения большого количества тестирований эта информация также фиксируется в специальном журнале на платформе оценки диагностической точности. Ведение такого рода журналов и реестра позволяет отслеживать процессы использования, возвращаться к данным и протоколам при возникновении вопросов, избегать публикации калибровочных наборов данных в публичном пространстве и, наоборот, открывать доступ к НД, которые уже не используются в тестированиях. Это позволяет оценивать и повышать результативность применения наборов данных (следовательно, ресурсов на их создание) и принимать управленческие решения.

Контроль качества при подготовке набора данных (по ГОСТ Р 59921.5—202278).

Под качеством набора данных понимается его структурированность, однородность, репрезентативность, сбалансированность по классам, отсутствие выпадающих значений, наличие разметки, которая соответствует поставленной задаче, наличие описания модели данных и документации79.

В процессе разработки НД целесообразно применять систему менеджмента качества – организационную структуру, функции, процедуры, процессы и ресурсы, необходимые для скоординированной деятельности по руководству и управлению организацией применительно к качеству. Формирование НД должно быть спланировано и подвержено мониторингу и управлению для обеспечения соответствия качества.

Работой группы может руководить сотрудник, назначенный ответственным, который не принимает участие в разметке и/или аннотировании, но будет регулировать срочность, очередность и объем работы между экспертами. Обязанностью данного ответственного также является формирование рабочей группы для обеспечения объективности и достоверности результата.

Должны быть применены методы оценки качества набора данных, по которому будет производиться разметка:

– проверка отсутствия пропусков элементов в наборе данных;

– проверка отсутствия некорректных элементов для решения поставленных задач;

– проверка качества элементов набора данных рекомендованным критериям профессионального медицинского сообщества.

Должны быть подготовлены и внедрены стандартные процедуры применения наборов данных в рамках системы менеджмента качества. Необходимо указать и требования по организации доступа к наборам данных, в том числе реестр лиц, которые получили к нему доступ.

После создания и регистрации набора данных может возникнуть необходимость внести изменения – например, в результате обнаружения ошибок или добавления новых данных. При внесении любых корректировок необходимо документировать изменение версии НД. Эта документация должна быть приложена к набору данных.

2.2.4. Инструменты разметки и работы с данными

В процессе создания сотен наборов данных для решения задач Московского эксперимента, клинических испытаний, собственной разработки ИИ-сервисов и научных задач в НПКЦ ДиТ ДЗМ накоплен практический опыт, позволивший сформировать требования к базовой функциональности программного обеспечения (ПО) для разметки результатов лучевых исследований80:

1. Общие характеристики:

– возможность установки ПО на локальных серверах;

– возможность распределенной работы нескольких экспертов над одним набором данных;

– возможность формирования задач экспертам, отслеживания статусов готовности;

– расширяемость ПО, возможность добавления новых модулей.

2. Загрузка и сохранение. Поддерживаемые форматы:

– поддержка основных форматов медицинских изображений;

– возможность загрузки иерархической структуры папок DICOM, загрузки нескольких файлов с сегментациями и исходными изображениями, одновременной работы с несколькими сегментациями;

– возможность просматривать теги DICOM;

– сохранение векторных данных при ручной разметке полилиниями, полигонами и другими фигурами и возможность их дальнейшего изменения.

3. Возможности визуализации медицинских изображений:

– наличие 3D-визуализации исходного изображения и сегментации;

– наличие стандартных окон преобразования из HU-интенсивностей в интенсивность цвета;

– возможность менять расположение окон просмотра;

– возможность менять направления осей проекции;

– возможность управления контрастом (по области, на основе гистограммы интенсивности);

– отображение информации о номере среза, HU-плотности, позиции курсора;

– наличие крестового курсора для ориентации в нескольких проекциях.

4. Ручные и дополнительные инструменты:

– стандартные ручные инструменты, наличие ручных инструментов редактирования в 3D-окне;

– логические операции со слоями сегментации;

– возможность отменить последнее действие;

– определение диапазона интенсивностей по области;

15 16 17 18 Вперед