Юрий Васильев – Искусственный интеллект в лучевой диагностике: Per Aspera Ad Astra (страница 14)
Планирование. Этап предполагает детальную проработку сформулированной ранее идеи.
На этом этапе осуществляется
Исходя из задачи определяются:
1. Размер набора данных (размер выборки для его формирования). Подробнее этот вопрос рассмотрен в подпараграфе 2.3.1.
2. Баланс данных и распределение классов. Сбалансированный набор данных должен содержать одинаковое количество примеров различных категорий (классов) объектов интереса, включая примеры нормы. При условии бинарной классификации это может соответствовать распределению 50/50 для случаев «патология»/«норма».
Вся информация о будущем НД фиксируется в техническом задании (ТЗ), которое составляется, в том числе с учетом базовых диагностических и функциональных требований Московского эксперимента.
Изначально ТЗ формулировалось в свободной форме, со временем был разработан структурированный шаблон и, наконец, в составе платформы ТЗ реализовано в виде структурированной формы для заполнения. Для удобства часть полей предварительно заполнена, подгружены используемые справочники, настроены связи между ними, реализовано автоматическое формирование названия НД согласно описанным выше правилам, имеются справочные вкладки, поясняющие, какую информацию необходимо внести. Это позволяет тщательно продумать все аспекты будущего НД и, возможно, обратить внимание исследователя на те моменты, которые на первый взгляд могли показаться неважными. Фактически платформа осуществляет обучение процессу создания НД. На основании введенной информации генерируется таблица разметки, если это необходимо.
После утверждения ТЗ вся информация выносится в карточку НД, где она структурирована по разделам: клинические, популяционные, технические параметры, назначение, параметры разметки, ответственные (рисунок 2.10г). В дальнейшем на этапах регистрации и использования эта информация дополняется.
Формирование.
Здесь возможны два подхода – для НД представление медицинских данных (феноменов, синдромов, заболеваний, исходов) происходит60:
1) с отражением максимальной вариативности (то есть и частые, и редкие случаи представлены в одинаковом объеме);
2) согласно их частоте встречаемости, предтестовой вероятности, заболеваемости, распространенности в популяции.
Первый подход должен применяться при подготовке НД аналитической валидации СИИ, второй – для клинической (см. подпараграф 2.9.2).
Для тестирования и оценки эксплуатационных характеристик СИИ в набор данных целесообразно добавлять тест-случаи (контрольные тесты), соответствующие ситуациям, сложным для классификации экспертами: данные с высоким уровнем шума либо с ухудшенными характеристиками (например, в результате сбоя оборудования), изображения с недостаточной видимостью целевых объектов, изображения нерелевантных анатомических областей или видов исследований. Включение таких данных позволит проверить устойчивость СИИ в дополнение к заявленным эксплуатационным характеристикам61.
Принципы сбора данных для аналитической валидации62:
1. НД пригоден для определения следующих характеристик: производительность (например, время, затрачиваемое на обработку СИИ медицинского исследования при наличии функции автоматического расчета времени и т.д.), точность интерпретации исследований с учетом функциональных возможностей СИИ, повторяемость, воспроизводимость.
2. НД может включать элементы с нарушением технологии (внешние помехи, артефакты, неверное наложение электродов/датчиков, нарушение последовательности регистрации, укладки пациента и т.п.). При этом такие элементы должны быть помечены должным образом (например, посредством меток в метаданных).
3. При формировании использованы данные из разных медицинских организаций и разных моделей/производителей оборудования, обработку данных с которых изготовитель СИИ включает в функциональное назначение.
Принципы сбора данных для клинической валидации:
1. НД должен быть верифицированным.
2. Сбор данных проводится с учетом следующих аспектов63:
– соотношение «норма»/«патология» или разные заболевания в НД определяют областью применения СИИ;
– используют данные из разных медицинских организаций и разных моделей/производителя оборудования;
– демографические, социально-экономические характеристики и основные показатели здоровья пациентов (репрезентативная выборка) должны соответствовать усредненным характеристикам популяции территории, на которой планируется использование СИИ;
– планируемый размер набора данных должен быть обоснован в документации испытаний, исходя из статистических соображений и желаемой точности оценки основных метрик (подробнее см. подпараграф 2.3.1).
NB! Принцип многоцентрового сбора данных особо важен для снижения систематической ошибки, так как невключение в НД элементов, получаемых на некой модели оборудования, может привести к разнообразным ограничениям и рискам. Возможно использовать данные из разных медицинских организаций, но обладающие одинаковой структурой и полученные в результате применения оборудования с одинаковым процессом работы (одинаковая модель/производитель)64.
На первых этапах Московского эксперимента сбор данных производился вручную «на потоке»: врач-рентгенолог при просмотре исследований в ЕРИС ЕМИАС фиксировал номера подходящих исследований, а в дальнейшем они отправлялись на разметку. Далее это процесс был оптимизирован путем автоматизации работы с текстовыми протоколами заключений; для этого был разработан инструмент MedLabel65. Из ЕРИС ЕМИАС выгружались анонимизированные текстовые протоколы заключений, далее проводилась предразметка с помощью MedLabel (формировалась таблица, включающая номер исследования, протокол, разметку), после чего врач-рентгенолог пересматривал заключения и корректировал разметку на основании текста. Это позволило существенно ускорить процесс сбора данных, однако применение разработанного программного обеспечения требовало привлечения дополнительного технического специалиста, а в дальнейшем, при расширении направлений Московского эксперимента, Medlabel потребовал доработки. Тогда был реализован более простой метод отбора исследований по «ключевым словам» и «стоп-конструкциям»: специальный алгоритм анализировал наличие слов, характерных для целевой патологии, а также слов, говорящих об отсутствии патологии (например, «не выявлено», «отсутствуют», «без признаков»), и на основании этого присваивал значение разметки. Этот принцип лег в основу разработки инструмента поиска исследований (рисунок 2.11). Он имеет интуитивно понятный интерфейс и позволяет отбирать исследования путем фильтрации по его модальности, процедуре, датам проведения, возрасту пациента, среди которых происходит поиск целевых патологий по текстовым протоколам (рисунок 2.11а). В результате формируется таблица с номерами исследований, текстовыми протоколами и предварительной разметкой. Далее исследования, если требуется, пересматриваются врачом-рентгенологом в подмодуле пересмотра, в основу которого положен инструмент с открытым кодом LabelStudio (рисунок 2.11б). Результат работы модуля – сформированный список идентификаторов исследований с разметкой по текстовым протоколам.