Юрий Васильев – Искусственный интеллект в лучевой диагностике: Per Aspera Ad Astra (страница 19)

Шрифт

Синтетические наборы данных, несомненно, относятся к перспективным и требуют дальнейшего научного изучения. Многие аспекты их создания и применения при обучении СИИ сталкиваются с серьезными ограничениями, включающими вопросы качества и правдоподобия, этики, безопасности, применимости. В последнее время особое значение приобретает возможность генерировать новые изображения для обогащения наборов данных. По мере развития СИИ в задачи для автоматизированного анализа включается выявление патологии с низкой и крайне низкой распространенностью в популяции. Даже на фоне существования колоссальных централизованных архивов медицинских изображений, как, например, московский ЕРИС ЕМИАС, формирование набора данных из сотен и тысяч случаев конкретного редкого заболевания представляет собой трудноразрешимую задачу. Также крайне проблематично сформировать сбалансированный, например, по полу и возрасту, набор данных из случаев редкого патологического состояния. Дальнейшее научно-практическое развитие синтетических наборов данных потенциально позволит устранить этот барьер.

2.3. Математические и статистические методы при оценке качества систем искусственного интеллекта: проблемные вопросы, унификация подходов

2.3.1. Определение размера выборки при формировании набора данных

Наборы данных формируют для обучения и тестирования СИИ на этапах жизненного цикла. В процессе разработки обычно используют один или несколько наборов данных, которые делят на обучающую, тестовую и в некоторых случаях проверочную выборки. Важно, чтобы тестирование СИИ проводилось на наборе данных, не использовавшемся для обучения. Это позволяет исключить явление переобучения, при котором в итоге тестирования получается смещенная оценка. Обучающая и тестовая выборки должны быть независимы для получения несмещенной оценки при тестировании СИИ. В некоторых случаях используют проверочный набор данных для выбора оптимальной модели в процессе разработки СИИ97.

В общем виде под обучающей выборкой понимают такую, по которой производится настройка (оптимизация) параметров СИИ; под проверочной – предназначенную для проверки применимости параметров системы искусственного интеллекта для отличных от обучающей выборки наборов данных. Тестовая или контрольная выборка – это полностью уникальная выборка, на которой проводят объективную оценку качества параметров обученной системы искусственного интеллекта98.

Известный афоризм гласит, что данные – это топливо для искусственного интеллекта. Однако объемы этого топлива отнюдь не безграничны. В реальной практике разработки, тестирования и эксплуатации СИИ необходимы обоснованные подходы для оценки размеров наборов данных.

Согласно ГОСТ Р 59921.5—2022 размер выборки для обучения или тестирования СИИ определяется целью его применения и зависит от следующих факторов99:

– требуемое качество решений СИИ;

– тип и архитектура алгоритма СИИ;

– количество параметров алгоритма СИИ;

– качество данных, включая качество аннотаций, распределение метрик и уровень шума в наборе данных.

В данном контексте необходимо упомянуть такую характеристику набора данных, как размерность. Под ней понимают количество атрибутов, которые имеют объекты в НД (например, диаметр магистрального сосуда, объем кровоизлияния, значение артериального давления и др.). Высокая размерность выдвигает повышенные требования к алгоритмам СИИ, допустимому размеру НД, а также к вычислительным ресурсам для их обработки. В ряде случаев допустимо обоснованное снижение размерности НД, в частности за счет кластеризации данных либо группировки взаимосвязанных по какому-либо признаку атрибутов в объединенные категории100.

Длительное время обоснования оценки необходимого и достаточного размера набора данных (НД) для обучения и тестирования СИИ находились на стадии разработки. Применялись автоматизированные средства расчета на основе ширины 95% доверительного интервала и допустимой ширины определения метрик. Известен эмпирический метод, согласно которому размер набора данных должен в несколько раз превышать количество параметров алгоритма СИИ либо соответствовать другим обоснованным критериям. Такая ситуация не соответствовала уровню качества научных исследований, установленному для Московского эксперимента, поэтому были проведены оригинальные изыскания для обоснования и создания объективных методов определения размера набора данных.

2.3.2. Статистические подходы для известной доли значений качественного признака (цитируется по оригинальной статье авторов101)

Первые предложенные в рамках Московского эксперимента подходы к формированию выборки применялись к НД, используемым для мониторинга (ретроспективного контроля качества результатов работы ИИ-сервисов). Они соответствовали принципам математической статистики и основывались на известной вероятности технологического дефекта в генеральной совокупности, равной 10%. Объем генеральной совокупности при этом принимался в пределах от 1000 до 100 000 исследований102.

В рамках следующих подходов проводилась серийная бесповторная выборка, которая характеризовалась тем, что выбранная единица отбиралась из всего объема генеральной совокупности и не возвращалась обратно.

1. Подход, основанный на точечной статистической оценке. Данный подход учитывает отклонение результатов выборочного исследования от генеральных значений (2.1):

где n – объем выборки; N – объем генеральной совокупности; t – коэффициент, показывающий, с какой вероятностью (надежностью) можно гарантировать достоверность полученного результата или критическое значение критерия Стьюдента при соответствующем уровне значимости (для уровня значимости 0,05 коэффициент); Δ – предельная ошибка показателя; w – доля изучаемого признака; q = (1 – w) – доля, где изучаемый признак отсутствует.

Таким образом, при доле изучаемого признака (w) 0,9, уровне статистической значимости 0,95 и предельно допустимой ошибке (Δ) 0,05 был получен объем выборки (n), равный 138.

2. Подход, основанный на проверке статистических гипотез (вариант 1). Подход предполагает проверку статистической гипотезы H₀ (исследования формируемого НД удовлетворяют предъявляемым требованиям) при наличии альтернативной гипотезы H₁ (исследования формируемого НД не соответствуют предъявляемым требованиям). Если среди исследований число дефектных (m) не превышает приемочное число (m ≤ с) (максимально допустимое количество технических дефектов среди выборки), то НД принимается; в противном случае – бракуется. Для выбора плана контроля (определения выборки) используется формула (2.2):

где m – число дефектных единиц продукции в выборке n; p_n (m) – вероятность появления дефектных единиц продукции m в выборке n; c – приемочное число.

Так как в рамках Московского эксперимента объем генеральной совокупности превышал объем выборки более чем на 10%, то оперативные характеристики определяли по формуле (2.3):

где C_n^m – количество сочетаний появления дефектных единиц продукции m в выборке n (2.4):

На примере Московского эксперимента было использовано приемочное число, равное двум единицам продукции, произведены расчеты и построены кривые для выборок в 30, 50, 80, 138 единиц продукции. На рисунке 2.18 обозначены следующие риски:

– вероятность отклонить генеральную совокупность исследований при ее хорошем качестве (т.е. в генеральной совокупности удельный вес дефектных единиц продукции менее 10%) – учитывая долю заявленных дефектных исследований от ИИ-сервиса, риск принимаем равным 1%;

– вероятность принять генеральную совокупность при ее низком качестве – учитывая долю дефектных изделий, определенных валидатором ПО с ТИИ (в данном случае – валидатором является ГБУЗ НПКЦ ДиТ ДЗМ), риск принимаем равным 10%.

Анализируя данные таблицы 2.5 и учитывая описанные выше риски на уровне не более 10% и не более 5% соответственно, установили, что объем выборки, равный 80, удовлетворяет требованиям как со стороны ИИ-сервиса, так и валидатора.

Рисунок 2.18 – Оперативная характеристика для различных объемов выборки: вертикальная штрихпунктирная линия с двумя точками – риск ИИ-сервиса; вертикальная штрихпунктирная линия с одной точкой – риск валидатора

3. Подход, основанный на проверке статистических гипотез (вариант 2). Данный подход базируется на принципах вероятности отклонения нулевой гипотезы; учитывает риски обеих сторон. Нулевая гипотеза H₀ предполагает, что если в генеральной совокупности содержится более 10% дефектных исследований, то генеральная совокупность за отчетный период содержит более 10% исследований с технологическими дефектами. Соответственно, при альтернативной гипотезе H₁ – менее 10% исследований с технологическими дефектами. Вероятность отклонения нулевой гипотезы – не менее 80%.

Выполнены расчеты (таблица 2.5) для выборок в 30, 50, 80, 120 исследований с приемочным числом от нуля до четырех (приемочное число ограничивалось превышением рисков валидатора более 10% или ИИ-сервиса – более 5%).

Анализируя данные таблицы 2.6 и учитывая заданные риски, а также долю заявленных дефектных исследований от ИИ-сервиса (1%) и долю дефектных исследований, определенных валидатором (10%), установили, что объем выборки, равный 30, 50, 80 и 120 единиц продукции, удовлетворяет требованиям обеих сторон при приемочном числе, равном нулю. С учетом доли дефектных исследований при приемочных числах больше нуля наиболее подходящие объемы выборок равнялись 80 или 120 единицам.

18 19 20 21 Вперед