Юрий Васильев – Искусственный интеллект в лучевой диагностике: Per Aspera Ad Astra (страница 20)
В таблице 2.6 приведена сводная информация о сильных и слабых сторонах рассматриваемых подходов.
Таким образом, на данном этапе были разработаны несколько подходов для определения достаточной мощности НД для проведения мониторинга ПО с ТИИ. Использование точечной статистической оценки и подхода, основанного на проверке статистических гипотез, позволяет наиболее гибко рассчитать объемы выборки в зависимости от входных параметров проводимого исследования. Применение ГОСТ Р ИСО 2859-1-2007 для формирования выборки является приоритетным, если эксперимент затрагивает взаимодействие исследователя и сторонней организации; позволяет учитывать риски и ошибки для обеих сторон, вовлеченных в процесс.
2.3.3. Аналитический подход с использованием ROC-анализа (цитируется по оригинальной статье авторов104)
В ходе Московского эксперимента проведено исследование подходов к определению количества исследований, необходимых и достаточных для НД, который предназначен для проведения внешней валидации ИИ-сервисов (калибровочного тестирования) с учетом баланса классов «норма»/«патология»105.
Для этого использовались анонимизированные уникальные результаты 123 301 маммографии, полученные из ЕРИС ЕМИАС. Исследования классифицировались по наличию и отсутствию злокачественного новообразования (ЗНО) молочной железы. Анализировались выставленные значения по шкале Bi-RADS: 0 – в случае определения врачом 1-го или 2-го класса BI-RADS («норма») и 1 – в случае классов BI-RADS 3, 4, 5 («патология»). Изначально баланс классов составлял: «норма» – 89,3%/ «патология» – 10,7%.
Производилась оценка результатов работы СИИ, в качестве которого выступал один из сервисов искусственного интеллекта по направлению «маммография», участвующий в эксперименте. Валидация проходила в несколько этапов. На первом этапе данные были разделены на две группы – «норма» и «патология». Из разделенных данных случайным образом формировались выборки с балансом классов «норма»/«патология», содержащие «патологию» в количестве 50%, 40%, 30%, 20%, 10%. Минимальная выборка, сформированная случайным образом, содержала 30 исследований, далее размер выборки увеличивался с шагом 10, с учетом сохранения доли «патологии». Максимальный возможный объем изучаемой выборки составлял 26 386 (количество исследований с патологией, умноженное на 2) исследований и обусловлен ограничением вычислительных мощностей.
Для каждого баланса классов и объема случайным образом формировались подвыборки 10 000 раз с возвращением, для них рассчитывалась площадь под характеристической кривой (AUROC). По результатам работы CИИ рассчитаны средние значения AUROC для различных случайных наборов исследований с одинаковым балансом классов (рисунок 2.19).
Следующим шагом средние значения AUCROC были подвергнуты трем типам анализа:
Из результатов анализа поведения аргумента спектральной функции AUROC и анализа ближайшего теоретического распределения следует, что до точки перехода для всех балансов классов сохраняется один и тот же тип распределения – распределение Коши. После точки перехода тип распределения меняется. Нормальное распределение наблюдается при 10% и 20% «патологии», логистическое – при 30% и 50% «патологии», а логнормальное распределение значений AUROC – при 40% «патологии».
где
На рисунке 2.20 представлены результаты расчета зависимости коэффициента вариации распределения значений AUROC от количества исследований для пяти долей «патология» в балансе классов «норма»/«патология».
Максимальное значение коэффициента вариации значений AUROC для 10% доли «патологии» достигается при количестве исследований, равном 190; для 20% доли – 80 исследований; для 30% доли – 120 исследований, для 40% доли – 110 исследований, а для 50% доли – 70 исследований.
Таким образом, была сформирована гипотеза о возможности следующего применения полученных результатов:
1. Определение AUROC на наборе данных с заданным балансом классов и соответствующим объемом выборки.
2. Определение доверительного интервала для AUROC с помощью метода бутстреппинга106.
3. Использование нижней границы доверительного интервала в качестве порогового значения для принятия решения о допуске СИИ AUROC.
Результаты, полученные с помощью данного подхода, сопоставимы с результатами одного из предыдущих подходов, описанных выше107. Частота встречаемости признака в популяции известна не всегда, может варьировать с течением времени и в разных популяциях, может быть очень низкой для редко встречающихся патологий. На основании вышеизложенного логичным решением является задавать баланс классов как постоянную величину и выбирать объем необходимых для валидации данных для заданного баланса классов.
Также следует отметить, что отклонение среднего значения AUROC от линии тренда с увеличением количества исследований уменьшается, что свидетельствует о том, что при использовании СИИ в клинической практике могут демонстрироваться показатели диагностической точности, отличные от полученных при валидационном тестировании. По этой причине на этапе валидации СИИ необходимо определить максимальные пределы изменения показателей диагностической точности и в дальнейшем проводить регулярный мониторинг его работы108.