Юрий Васильев – Искусственный интеллект в лучевой диагностике: Per Aspera Ad Astra (страница 13)

Шрифт

С развитием Московского эксперимента расширялись требования к результатам работы ИИ-сервисов, в ходе накопления практического опыта и при проведении научных исследований возникали новые задачи и стратегии применения СИИ в медицине. Так, появилось новое направление – автоматизация рутинных измерений (морфометрия) и соответствующие ему наборы данных. В дальнейшем обозначилась потребность в динамических НД, а также в наборах изображений, обогащенных клинической информацией. Поэтому возникла новая классификация наборов данных по решаемой задаче:

1. Диагностические (оценка качественных признаков: наличие/отсутствие, степень выраженности, классификация признака).

2. Морфометрические (оценка количественных признаков: измерение линейных размеров, площадей, углов, объемов, коэффициентов).

3. Для контроля качества (с артефактами и дефектами укладки, ошибками DICOM-тегов и т.д.).

4. Динамические (оценка исследований в динамике, прогностические задачи).

5. Обогащенные клинической информацией (НД с дополнительной клинической информацией для разработки СППВР и прогностических задач).

6. Комбинированные (сочетающие в себе вышеперечисленные данные).

Отдельное внимание заслуживают синтетические НД (см. параграф 2.2.5). Такое обилие классификаций обусловлено большим количеством наборов данных, созданных в ГБУЗ «НПКЦ ДиТ ДЗМ» за 5 лет (более 600!) и разнообразием решаемых задач, в том числе перспективных. Все разработанные принципы классификации и организации метаданных реализованы в виде реестра НД.

Реестр наборов данных – это перечень всех созданных в учреждении НД, содержащий структурированную информацию о них. Потребность в таком инструменте возникла с первых дней Московского эксперимента, в частности, для выбора НД при проведении функциональных и калибровочных тестирований. Первоначально это был простой список названий НД, однако с увеличением количества направлений возникла потребность в дополнении списка различными параметрами, а также в унификации названий и создании идентификаторов, кодирующих базовую метаинформацию. Примеры структуры названия и идентификатора приведены на рисунках 2.5 и 2.6.

Рисунок 2.5 – Структура и пример названия набора данных

Рисунок 2.6 – Структура и пример идентификатора набора данных

К сожалению, с появлением новых задач, разработанные правила наименования не всегда позволяют создавать релевантные названия, однако при этом структура названия гибкая и может меняться (дополняться) в зависимости от требуемых для внесения параметров. Полная форма названия чаще используется для регистрации результатов интеллектуальной деятельности или упоминания НД в публикациях, документах и в устной речи. Идентификатор необходим для наименования файла, так как длина названия ограничена, а также в нем зашифрованы дополнительные данные, необходимые в контексте выполняемых задач. Например, на рисунке 2.6 идентификатор читается как: «Набор данных для Эксперимента, созданный в 2020 году, для функционального тестирования по направлению ″компьютерная томография органов грудной клетки″ с наличием и отсутствием признаков коронавирусной инфекции COVID-19, вариант 2, версия 2.1.0». Вариативность создана с целью тестирования ИИ-сервисов на разных НД с одинаковой спецификацией, а версионность разрешает отслеживать изменения, вносимые в набор. Идентификатор позволяет однозначно определить НД, который отправлялся ИИ-сервису для тестирования, для дальнейшей корректной (в т.ч. автоматизированной) оценки результатов обработки и обеспечения прозрачности процесса тестирования.

Реестр наборов данных как полноценный инструмент был сформирован в 2022 году и содержал в себе порядка 100 полей. Их количество и названия незначительно колебались в процессе совершенствования инструмента, однако принципы организации оставались общими:

1. НД имеют унифицированные названия и идентификаторы.

2. Метаинформация структурирована и классифицирована согласно российским и международным медицинским справочникам (ФСИДИ51, Международная классификация болезней 10-й версии, справочник ЕРИС ЕМИАС, справочник анатомических локализаций, RadLex52, LOINC53), а также разработанным классификациям (классы разметки, методы верификации, характер и уровень разметки, источник данных, направление Московского эксперимента и т.д.).

3. Реестр имеет разделы, синхронизированные с жизненным циклом набора данных. Его заполнение происходит на каждом этапе, включая использование, и продолжается до момента утилизации НД (если такой наступает).

4. Описательная информация (карточка НД) составлена с учетом как собственного опыта использования метаинформации, так и чек-листов описания НД и СИИ в научных публикациях в мировых рецензируемых изданиях54. Она организована по разделам: клинические, популяционные, технические параметры, назначение, параметры разметки.

Благодаря всему перечисленному реестр выполняет следующие функции:

1. Обеспечение процессов управления: контроль сроков и порядка выполнения работ по созданию НД, оценка результативности использования, оптимизация ресурсов (повторное использование данных).

2. Доступ к данным: единое место хранения всей информации, включая ссылки на хранение, указание ответственных за НД, удобное формирование библиотеки.

3. Контроль качества данных: проверка параметров НД на соответствие техническому заданию, базовым диагностическим требованиям, отслеживание внесения изменений (смена версионности).

4. Автоматизация процессов создания НД: генератор readme-файла, автоматическая проверка данных на соответствие техническому заданию.

Реестр представляет собой практическое внедрение научно обоснованного стандарта набора данных для лучевой диагностики.

2.2.3. Жизненный цикл и алгоритм создания набора данных

Важнейшим результатом, полученным в ходе создания и использования наборов данных, стала описанная методология, включающая в себя жизненный цикл НД (рисунок 2.7) и непосредственно алгоритм его создания (рисунок 2.8).

Рисунок 2.7 – Жизненный цикл набора данных

Рисунок 2.8 – Алгоритм создания набора данных

Сформированная методология позволяет регламентировать все процессы, связанные с наборами данных, описывает все действия, которые необходимо совершить разработчику или исследователю, начиная от идеи/потребности создания НД, заканчивая его использованием, сменой версии и утилизацией. Это позволяет наладить четкие процессы выполнения работ, а также не упустить важные аспекты, в т.ч. связанные с безопасностью данных и регламентированные законодательством, что в свою очередь минимизирует вероятность возникновения ошибок, повышает качество и снижает сроки создания наборов.

Кроме того, сформулированная этапность всех действий позволила автоматизировать эти процессы. На первых этапах Московского эксперимента, когда методика только начинала формироваться, большая часть работ выполнялась вручную. В дальнейшем внедрялась автоматизация отдельных процессов: как правило, это были разрозненные программы, не имеющие интерфейса. Для их использования требовалась помощь разработчика и/или научного сотрудника, который адаптировал код под конкретную задачу и запускал процесс обработки данных. Для оформления сопроводительной документации также разрабатывались специальные шаблоны для заполнения. Объединить весь накопленный опыт удалось в оригинальном программном продукте «Платформа подготовки наборов данных»55. Он имеет удобный интерфейс и модульную структуру, при этом модули можно использовать последовательно, согласно алгоритму создания НД, или изолированно. Далее описаны этапы жизненного цикла и алгоритма создания НД от первых шагов до единой платформы подготовки.

Подготовка набора данных в общем виде состоит из набора процедур, выполнение которых позволяет достигнуть цели обучения и тестирования системы искусственного интеллекта (СИИ) с обеспечением качества набора данных56.

Инициирование. Первый этап жизненного цикла наступает с момента появления идеи создания конкретного НД и определения его цели. Формирование цели НД включает оценку того, является ли доступ к данным или другая деятельность по их обработке допустимыми57:

– какие данные допустимо собирать;

– как их следует использовать (применительно к каким задачам);

– кому их следует раскрывать (доступ третьим лицам);

– в течение какого времени они должны быть доступны.

Цели формирования НД разнообразны, наиболее типичны следующие58:

– разработка СИИ, включающая этап обучения алгоритма искусственного интеллекта и выполнение внутреннего тестирования;

– научная независимая оценка СИИ;

– выполнение аналитической или клинической валидации СИИ, в том числе в рамках клинических испытаний.

Как оформленный этап инициирования появился при внедрении в работу реестра наборов данных? До этого момента, информация о них хранилась разрозненно и не структурированно, иногда не фиксировалась вовсе. С появлением реестра возникла возможность вносить информацию о НД еще на этапе идеи, что позволило эти идеи организовать, отслеживать и развивать. На платформе для инициирования необходимо заполнить ключевую информацию (предварительное название, Ф. И. О. ответственного, ключевая информация в свободной форме), после чего НД появится в реестре и будет доступен для дальнейших манипуляций (рисунок 2.9).

12 13 14 15 Вперед