Юрий Васильев – Искусственный интеллект в лучевой диагностике: Per Aspera Ad Astra (страница 20)

Шрифт

4. Подход, основанный на применении ГОСТ Р ИСО 2859-1-2007. ГОСТ Р ИСО 2859-1-2007 «Статистические методы, процедуры выборочного контроля по альтернативному признаку» устанавливает процедуру выборочного контроля по альтернативному признаку для штучной продукции на основе приемлемого уровня качества. Приемлемый уровень качества выражается в проценте несоответствующих единиц продукции или числе несоответствий на сто единиц продукции. Было рассмотрено несколько вариантов формирования объемов выборок. Сначала была использована таблица «Коды объема выборки» из указанного ГОСТ Р. В рассматриваемом случае общий уровень контроля равен II, специальный уровень контроля не используется. Так как объемы генеральной совокупности (партии в контексте ГОСТ Р) находились в пределах от 1000 до 100 000, то интерес представляли следующие коды: J, K, L, M. В то же время план не имел многоступенчатости и не подразумевал переход на ослабленный или усиленный контроль. В связи с этим были использованы данные из таблицы «Одноступенчатые планы при нормальном контроле (основная таблица)»: для приемлемого уровня качества потребителя в 10% (для партий объемом от 501 до 10 000 исследований) объем выборки для контроля качества будет равен 125 единицам продукции с приемочным числом партии, равным нулю; для партий объемом от 10 001 до 150 000 объем выборки для контроля качества будет равен 500 единицам продукции с приемочным числом партии, равным единице. При обращении к таблице «Риск изготовителя при нормальном контроле (процент непринятых партий для одноступенчатых планов)» были получены риски поставщика 11,8% для выборки в 125 единиц продукции; 9,02% – для выборки в 500 единиц.

В таблице 2.6 приведена сводная информация о сильных и слабых сторонах рассматриваемых подходов.

Таким образом, на данном этапе были разработаны несколько подходов для определения достаточной мощности НД для проведения мониторинга ПО с ТИИ. Использование точечной статистической оценки и подхода, основанного на проверке статистических гипотез, позволяет наиболее гибко рассчитать объемы выборки в зависимости от входных параметров проводимого исследования. Применение ГОСТ Р ИСО 2859-1-2007 для формирования выборки является приоритетным, если эксперимент затрагивает взаимодействие исследователя и сторонней организации; позволяет учитывать риски и ошибки для обеих сторон, вовлеченных в процесс.

Оптимальное количество исследований при проведении контроля качества работы изучаемых нами ТИИ для анализа медицинских изображений составляет 80 единиц. Это удовлетворяет требованиям репрезентативности, баланса рисков потребителя и поставщика услуг ТИИ, а также оптимизации трудозатрат сотрудников, вовлеченных в процесс контроля качества результатов работы ТИИ103.

2.3.3. Аналитический подход с использованием ROC-анализа (цитируется по оригинальной статье авторов104)

В ходе Московского эксперимента проведено исследование подходов к определению количества исследований, необходимых и достаточных для НД, который предназначен для проведения внешней валидации ИИ-сервисов (калибровочного тестирования) с учетом баланса классов «норма»/«патология»105.

Для этого использовались анонимизированные уникальные результаты 123 301 маммографии, полученные из ЕРИС ЕМИАС. Исследования классифицировались по наличию и отсутствию злокачественного новообразования (ЗНО) молочной железы. Анализировались выставленные значения по шкале Bi-RADS: 0 – в случае определения врачом 1-го или 2-го класса BI-RADS («норма») и 1 – в случае классов BI-RADS 3, 4, 5 («патология»). Изначально баланс классов составлял: «норма» – 89,3%/ «патология» – 10,7%.

Производилась оценка результатов работы СИИ, в качестве которого выступал один из сервисов искусственного интеллекта по направлению «маммография», участвующий в эксперименте. Валидация проходила в несколько этапов. На первом этапе данные были разделены на две группы – «норма» и «патология». Из разделенных данных случайным образом формировались выборки с балансом классов «норма»/«патология», содержащие «патологию» в количестве 50%, 40%, 30%, 20%, 10%. Минимальная выборка, сформированная случайным образом, содержала 30 исследований, далее размер выборки увеличивался с шагом 10, с учетом сохранения доли «патологии». Максимальный возможный объем изучаемой выборки составлял 26 386 (количество исследований с патологией, умноженное на 2) исследований и обусловлен ограничением вычислительных мощностей.

Для каждого баланса классов и объема случайным образом формировались подвыборки 10 000 раз с возвращением, для них рассчитывалась площадь под характеристической кривой (AUROC). По результатам работы CИИ рассчитаны средние значения AUROC для различных случайных наборов исследований с одинаковым балансом классов (рисунок 2.19).

Рисунок 2.19 – Поведение средних значений AUROC для различных балансов классов «норма»/«патология». Красная линия показывает аппроксимирующую кривую. А – доля «патологии»» 10%; B – доля «патологии» 20%; C – доля «патологии» 30%; D – доля «патологии» 40%; E – доля «патологии» 50%

Следующим шагом средние значения AUCROC были подвергнуты трем типам анализа:

1. Фурье-анализ значений AUROC в зависимости от количества данных. Применение преобразования Фурье к колебаниям значений AUROC позволило выявить точку перехода, что является своеобразной границей между двумя различными распределениями. Эта граница соответствует значению 11 940 исследований. При использовании меньшего или равного количества исследований значения AUCROC для всех изученных долей «патологии» в балансе классов «норма»/«патология» распределяются по закону, близкому к распределению Коши. Причем если количество исследований превышало 11 940, то AUCROC имели нормальное распределение для 10% и 20% долей «патологии», логистическое – для 30% и 50% долей «патологии» и логарифмически нормальное – для 40% долей «патологии».

2. Анализ наиболее близкого теоретического распределения значений AUROC посредством применения информационных критериев Акаике и Байеса. Чтобы найти максимальное отклонение от линии тренда (рисунок 2.9) среднего показателя точности диагностики слева и справа от точки перехода (11 940 исследований), был определен ближайший тип простого распределения по минимуму критериев Акаике и Байеса. В таблице 2.7 представлены результаты сравнения распределения значений AUROC слева и справа от точки перехода для десяти различных распределений.

Из результатов анализа поведения аргумента спектральной функции AUROC и анализа ближайшего теоретического распределения следует, что до точки перехода для всех балансов классов сохраняется один и тот же тип распределения – распределение Коши. После точки перехода тип распределения меняется. Нормальное распределение наблюдается при 10% и 20% «патологии», логистическое – при 30% и 50% «патологии», а логнормальное распределение значений AUROC – при 40% «патологии».

3. Анализ коэффициента вариации в зависимости от количества исследований для установленного наиболее близкого типа распределения AUROC. Для оценки однородности значений AUROC был проведен анализ коэффициента вариации в зависимости от количества исследований (до 11 940 исследований). В случае распределения Коши коэффициент вариации рассчитывался по уравнению (2.5):

где Υ – масштабный параметр в распределении Коши; x₀– параметр сдвига в распределении Коши.

На рисунке 2.20 представлены результаты расчета зависимости коэффициента вариации распределения значений AUROC от количества исследований для пяти долей «патология» в балансе классов «норма»/«патология».

Рисунок 2.20 – Коэффициент вариации значений AUROC в зависимости от количества исследований для разных балансов классов. A – доля «патологии» 10%; B – доля «патологии» 20%; C – доля «патологии» 30%; D – доля «патологии» 40%; E – доля «патологии» 50%; F – обобщенное представление для всех долей «патологии»

Максимальное значение коэффициента вариации значений AUROC для 10% доли «патологии» достигается при количестве исследований, равном 190; для 20% доли – 80 исследований; для 30% доли – 120 исследований, для 40% доли – 110 исследований, а для 50% доли – 70 исследований.

Таким образом, была сформирована гипотеза о возможности следующего применения полученных результатов:

1. Определение AUROC на наборе данных с заданным балансом классов и соответствующим объемом выборки.

2. Определение доверительного интервала для AUROC с помощью метода бутстреппинга106.

3. Использование нижней границы доверительного интервала в качестве порогового значения для принятия решения о допуске СИИ AUROC.

Результаты, полученные с помощью данного подхода, сопоставимы с результатами одного из предыдущих подходов, описанных выше107. Частота встречаемости признака в популяции известна не всегда, может варьировать с течением времени и в разных популяциях, может быть очень низкой для редко встречающихся патологий. На основании вышеизложенного логичным решением является задавать баланс классов как постоянную величину и выбирать объем необходимых для валидации данных для заданного баланса классов.

Также следует отметить, что отклонение среднего значения AUROC от линии тренда с увеличением количества исследований уменьшается, что свидетельствует о том, что при использовании СИИ в клинической практике могут демонстрироваться показатели диагностической точности, отличные от полученных при валидационном тестировании. По этой причине на этапе валидации СИИ необходимо определить максимальные пределы изменения показателей диагностической точности и в дальнейшем проводить регулярный мониторинг его работы108.

19 20 21 Вперед