Антон Владзимирский – Оценка качества и эксплуатационных параметров технологий искусственного интеллекта в здравоохранении. Учебное пособие (страница 3)
– способность организовывать и проводить контроль качества систем искусственного интеллекта на всех этапах жизненного цикла.
В результате изучения материала обучаемый должен:
·
– принципы, возможности и ограничения организации контроля качества и эксплуатационных параметров медицинских изделий на основе технологий искусственного интеллекта;
– номенклатуру основных национальных стандартов в предметной области;
– основные методы и способы оценки эксплуатационных параметров, технологического и медицинского контроля, методы интегральной оценки;
– подходы к применению конкретных методов контроля на разных этапах жизненного цикла медицинских изделий на основе технологий искусственного интеллекта;
– подходы к организации контроля систем искусственного интеллекта для диагностической визуализации, продуктов на основе больших генеративных моделей;
·
– организовывать процесс контроля эксплуатационных параметров систем искусственного интеллекта на этапах жизненного цикла;
– выбирать подходы и методы контроля, исходя из вида и клинической задачи конкретной системы искусственного интеллекта;
·
– навыками вычисления эксплуатационных параметров по точности;
– навыками вычисления основных показателей качества и эффективности систем искусственного интеллекта;
– навыками оценки качества систем искусственного интеллекта для диагностической визуализации;
– навыками оценки качества систем искусственного интеллекта на основе больших генеративных моделей.
Изучение материала рассчитано на 12 академических часов самостоятельной работы. Для успешного освоения материала специальные материально-техническая и учебно-методическая базы не требуются. Рекомендуется наличие доступа в интернет для ознакомления со ссылками на цитируемые материалы.
В целях проверки усвоения информации предусмотрены ответы на вопросы для самоконтроля. Для повышения эрудированности и вовлеченности обучаемых опционально рекомендуется подготовка рефератов и докладов-презентаций.
Глава 1. Жизненный цикл систем искусственного интеллекта
Искусственный интеллект – комплекс технологических решений, позволяющий имитировать когнитивные функции человека (включая поиск решений без заранее заданного алгоритма) и получать при выполнении конкретных задач результаты, сопоставимые с результатами интеллектуальной деятельности человека или превосходящие их. Комплекс технологических решений включает в себя информационно-коммуникационную инфраструктуру, программное обеспечение (в том числе то, в котором используются методы машинного обучения), процессы и сервисы по обработке данных и поиску решений (Указ Президента Российской Федерации от 10.10.2019 №490).
Технологии искусственного интеллекта – совокупность технологий, включающая в себя компьютерное зрение, обработку естественного языка, распознавание и синтез речи, интеллектуальную поддержку принятия решений и перспективные методы искусственного интеллекта (Указ Президента Российской Федерации от 10.10.2019 №490).
Жизненный цикл – развитие системы искусственного интеллекта и продуктов на ее основе от замысла до вывода из эксплуатации (ГОСТ Р 59921.4—2021).
Набор данных – состав данных, которые структурированы или сгруппированы по определенным признакам, соответствуют требованиям законодательства Российской Федерации и необходимы для разработки программ для электронных вычислительных машин на основе искусственного интеллекта (Указ Президента Российской Федерации от 10.10.2019 №490).
Разметка данных – этап обработки структурированных и неструктурированных данных, в процессе которого данным (в том числе текстовым документам, фото- и видеоизображениям) присваиваются идентификаторы, отражающие тип данных (классификация данных), и (или) осуществляется интерпретация данных для решения конкретной задачи, в том числе с использованием методов машинного обучения (Указ Президента Российской Федерации от 10.10.2019 №490).
В настоящее время создание, развитие, оценка и обеспечение качества и безопасности, применение систем искусственного интеллекта (СИИ) в здравоохранении Российской Федерации осуществляются на основе комплекса национальных стандартов «Системы искусственного интеллекта в клинической медицине» ПК 01 ТК 164 (см. приложение А).
Оценка качества выполняется:
– на всех этапах жизненного цикла системы искусственного интеллекта (программного обеспечения на основе технологий искусственного интеллекта);
– путем контроля эксплуатационных параметров, а также анализа результатов и эффектов применения конкретной системы в практическом здравоохранении.
Жизненный цикл систем искусственного интеллекта медицинского предназначения в виде унифицированной схемы представлен на рисунке 1.
С точки зрения непрерывного контроля жизненный цикл СИИ делится на следующие
1. Разработка (контроль ведется только разработчиком, в том числе в виде периодической внутренней валидации).
NB! Непосредственной разработке СИИ предшествуют обеспечение и контроль качества данных, применяемых для обучения. Для этого существуют специальные, научно обоснованные методологии8.
2. Внешняя валидация (проводится третьими лицами для независимого и объективного контроля качества и надежности СИИ).
3. Получение и поддержание статуса медицинского изделия (контроль трансформируется в процедуры технических и клинических испытаний, а после государственной регистрации – в мониторинг и учет неблагоприятных событий при эксплуатации СИИ).
Для каждого этапа реализуются стратегии комплексного тестирования и контроля; при этом целесообразно следовать базовому принципу, состоящему в
Глава 2. Эксплуатационные параметры систем искусственного интеллекта
Эксплуатационные параметры – параметры функционирования системы искусственного интеллекта, характеризующие качественно и/или количественно технические возможности системы искусственного интеллекта с точки зрения ее назначения (ГОСТ Р 59921.4—2021).
Параметры модели искусственного интеллекта – числовые значения, определяющие работу модели искусственного интеллекта, в частности выведение закономерностей, принятие решений или прогнозирование результатов (Указ Президента РФ от 10.10.2019 №490).
Большие генеративные модели – модели искусственного интеллекта, способные интерпретировать (предоставлять информацию на основании запросов, например, об объектах на изображении или о проанализированном тексте) и создавать мультимодальные данные (тексты, изображения, видеоматериалы и тому подобное) на уровне, сопоставимом с результатами интеллектуальной деятельности человека или превосходящем их (Указ Президента РФ от 10.10.2019 №490).
Эмбеддинг – представление слова в виде числового вектора, что позволяет сохранить семантическое сходство для различных слов, имеющих близкие значения (например, «подъезд» и «парадная»).
Стемминг – процесс усечения слова до корня.
Суммаризация – автоматическое создание краткого содержания исходного текста (обычно с применением больших генеративных моделей).
Эталонная суммаризация – идеальное краткое изложение исходного текста (данных электронной медицинской карты пациента), созданное врачами-экспертами в формате консенсуса. Необходима для расчета семантических метрик качества больших генеративных моделей.
N-грамма – последовательность из N смежных символов, расположенных в определенном порядке.
Эксплуатационные параметры систем искусственного интеллекта систематизированы и классифицированы в национальном стандарте ГОСТ Р 59921.4—2021.
Эксплуатационные параметры разделяются на
– точности;
– назначению;
– входным данным;
– принципу организации обучения;
– производительности;
– системной совместимости.
Это обязательный список параметров, который может быть дополнен с учетом требований регулятора, заказчика, пользователя, а также – особенностей, предназначения, условия применения самой СИИ.
Эксплуатационные параметры по точности определяют разными методами, исходя из особенностей работы данной СИИ.
Оценку точности СИИ проводят в дизайне диагностического исследования; при этом оптимально руководствоваться методологией и чек-листом STARD-2015. Отметим, что данный чек-лист не полностью подходит для проектов в области ИИ, поскольку содержит недостаточно конкретные рекомендации касательно качества и объема наборов данных, метрик диагностической точности, а также используемой терминологии. Тем не менее профильный чек-лист STARD-AI находится в разработке с 2021 года, и до момента его выхода STARD-2015 является лучшим из доступных решений.
Для оценки точности обеспечивают наличие некоего эталона –
Согласно классическим подходам, размер выборки зависит от ожидаемого размера эффекта, уровня статистической значимости и мощности. Помимо этого, согласно ГОСТ Р 59921.5—2022,