реклама
Бургер менюБургер меню

Антон Владзимирский – Проведение статистического анализа на языке программирования R в медико-биологических исследованиях. Учебное пособие (страница 1)

18px

Проведение статистического анализа на языке программирования R в медико-биологических исследованиях

Учебное пособие

Авторы: Васильев Юрий Александрович, Владзимирский Антон Вячеславович, Никитин Никита Юрьевич, Будыкина Анна Владимировна, Памова Анастасия Петровна, Бобровская Татьяна Михайловна, Арзамасов Кирилл Михайлович

Редактор Анжелика Ивановна Овчарова

Верстка Екатерина Дмитриевна Бугаенко

Дизайнер обложки Екатерина Дмитриевна Бугаенко

© Юрий Александрович Васильев, 2025

© Антон Вячеславович Владзимирский, 2025

© Никита Юрьевич Никитин, 2025

© Анна Владимировна Будыкина, 2025

© Анастасия Петровна Памова, 2025

© Татьяна Михайловна Бобровская, 2025

© Кирилл Михайлович Арзамасов, 2025

© Екатерина Дмитриевна Бугаенко, дизайн обложки, 2025

ISBN 978-5-0068-6196-1

Создано в интеллектуальной издательской системе Ridero

Рекомендовано Координационным советом по области образования «Здравоохранение и медицинские науки» в качестве учебного пособия для использования в образовательных учреждениях, реализующих основные профессиональные программы высшего образования по программам специалитета 30.05.03 «Медицинская кибернетика» (протокол №091 от 19.06.2025, рег. номер 3200 ЭКУ от 19.06.2025).

Учебное пособие подготовлено авторским коллективом в рамках выполнения НИОКР «Разработка платформы повышения качества ИИ-сервисов для медицинской диагностики» (№ЕГИСУ: 123031400006—0) в соответствии с приказом Департамента здравоохранения города Москвы от 17.12.2024 №1184 «Об утверждении государственных заданий, финансовое обеспечение которых осуществляется за счет средств бюджета города Москвы, государственным бюджетным (автономным) учреждениям, подведомственным Департаменту здравоохранения города Москвы, на 2025 год и плановый период 2026 и 2027 годов».

РЕЦЕНЗЕНТЫ

Галиновский Андрей Леонидович – д-р техн. наук, д-р пед. наук, заведующий кафедрой СМ-12 «МГТУ им. Н. Э. Баумана»

Носовский Андрей Максимович – д-р биол. наук, ведущий научный сотрудник ФГБУН «ГНЦ РФ – ИМБП РАН»

НОРМАТИВНЫЕ ССЫЛКИ

В настоящем документе использованы ссылки на следующие нормативные документы (стандарты):

– ГОСТ Р ИСО 5479—2002. Статистические методы. Проверка отклонения распределения вероятности от нормального распределения.

– Рекомендации по стандартизации Р 50.1.033—2001. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть 1. Критерий Хи-квадрат.

– Рекомендации по стандартизации Р 50.1.037—2002. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть 2. Непараметрические критерии.

ОБОЗНАЧЕНИЯ И СОКРАЩЕНИЯ

КАК РАБОТАТЬ С УЧЕБНЫМ ПОСОБИЕМ

Учебное пособие предназначено для слушателей курса «Методология планирования и проведения научных исследований. Биостатистика» по научной специальности 3.1.25. Лучевая диагностика и не является самоучителем (в широком смысле данного понятия) по программированию и статистическому анализу данных на языке R, а представляет дополнение к очному курсу по предмету.

Слушателям, которые впервые сталкиваются со статистическим анализом данных и языком программирования R и решили самостоятельно освоить предмет (программирование на языке R и статистический анализ данных) с помощью представленного пособия, авторы рекомендуют следующий порядок изучения материала:

1. Детально изучить приложение Б пособия и освоить основной синтаксис языка R. Если приведенного материала покажется недостаточно, то можно обратиться к работе Н. Мэтлоффа [3].

2. Далее последовательно ознакомиться с материалом, изложенным в пособии. К каждому статистическому критерию или тесту приведены детальные примеры его применения с кодом, написанным на языке R.

3. Если освоение материала проходит самостоятельно, без возможности прямого или удаленного контакта с консультантом, и представленный в пособии материал кажется непонятным, то обучаемому рекомендуется ознакомиться с источниками [1], [2], [4] списка литературы1.

Для слушателей курса «Методология планирования и проведения научных исследований. Биостатистика» по научной специальности 3.1.25. Лучевая диагностика, проходящих обучение под руководством преподавателя, учебное пособие является дополнительным источником, позволяющим лучше усвоить материал лекций и практических занятий. В этом случае порядок работы с данным пособием соответствует порядку чтения лекций и проведения семинарских занятий. Слушателям рекомендуется провести самостоятельное статистическое исследование в соответствии с алгоритмом, представленным на рисунке 2 раздела «Введение», на основе открытых наборов данных. Интернет-ресурсы с открытыми наборами данных указаны в параграфе 2.8.

При использовании электронной версии пособия у читателя возникнет желание не вводить код вручную, а копировать программный код из текста и вставлять его в файл скрипта. Настоятельно не рекомендуется это делать по двум основным причинам:

1. При самостоятельном наборе программного кода команды алгоритм работы с данными лучше запоминается.

2. При прямом переносе и немедленном исполнении возникают ошибки, связанные с различиями стандартных шрифтов, принятых при наборе текста в пособии, и шрифтами, применяемыми в интегрированной среде разработки. Наиболее частая ошибка связана с кавычками, знаком «минус» (при переносе может быть воспринят как знак дефиса), применяемыми для экранирования строковых констант или значений.

ВВЕДЕНИЕ

Научная методология проведения исследований включает в себя:

1) постановку вопроса;

2) обзор и анализ литературы;

3) формулировку цели исследования;

4) формулировку задач исследования;

5) формулировку предварительной гипотезы;

6) планирование эксперимента (или сбора данных);

7) проведение эксперимента (сбор и структурирование данных);

8) анализ полученных результатов эксперимента (данных);

9) проверку гипотезы на основе полученных данных;

10) построение математической модели2;

11) проверку математической модели на результатах других экспериментов (на других данных).

В практике научных исследований «возникновение вопросов» по тематике деятельности исследователя является частым явлением3, что обусловлено многими причинами, например, обычным исследовательским любопытством или клинической (или технической) необходимостью. Возникающие вопросы, как правило, не имеют законченной формы и не представляют собой сформулированную цель исследования, декомпозированную на задачи. Для того чтобы возникший у исследователя вопрос приобрел законченную форму в виде сформулированной цели исследования, необходимо проведение предварительного литературного обзора по тематике вопроса. В рамках литературного обзора исследователю необходимо ответить на несколько вопросов:

1. Существуют ли литературные источники по интересующему исследователя вопросу (исторические источники, научные и научно-популярные публикации, учебная, учебно-методическая литература, ГОСТы, ОСТы, СНиПы, СанПиНы и т. д.)45?

2. Насколько широко интересующий вопрос представлен в научной литературе (сколько публикаций на данную тему удалось найти, как давно найденные источники были опубликованы, степень и уровень достоверности найденных источников)?

3. Как данный вопрос представлен в научной литературе – как нерешенный или как частично решенный, или считается полностью решенным?

4. Какие методики и подходы применяются для решения исследуемого вопроса (экспериментальные или/и теоретические)?

На основании проведенного анализа литературных источников исследователь может сформулировать цель исследования и провести ее декомпозицию (если это необходимо) на задачи, которые требуется решить6, чтобы достигнуть поставленной цели. После постановки цели и задачи исследования и проведения предварительного анализа литературы формулируется предварительная гипотеза (предположение, выдвигаемое исследователем о наличии или отсутствии эффекта или явления).

При частичном подтверждении или опровержении выдвинутой гипотезы результатами проведенного эксперимента или на основании поступивших данных исследователь возвращается к пункту 4, уточняет или выдвигает новую гипотезу и повторяет все нижестоящие пункты.

Финальным этапом выполнения работ является построение математической модели, или статистического описания результатов проведенного исследования. В самом простом случае в качестве математической модели могут выступать вычисленные на основании количественных данных основные параметры выборочного распределения вероятностей, выборочные средние значения, средневзвешенные значения, среднее квадратическое отклонение, квантили и т. д. В целом модель включает величины вычисленных статистических параметров, составляющие основу описательной статистики.

Полученная математическая модель должна быть подвергнута проверке на других данных, имеющих ту же природу и подобные условия получения, что и данные, использованные для построения исходной модели. Математическая модель может носить феноменологический7 характер и не обладать предсказательной способностью в случае изменений в условиях проведения эксперимента или получения данных.

Каждый из этапов проведения исследований имеет высокую степень важности для получения достоверного конечного результата. Наиболее ресурсоемкими частями являются этапы 6—9, ошибки на этих стадиях приводят к большим финансовым потерям и дискредитации исследования как такового. За период развития науки было разработано достаточно большое количество методов, позволяющих эффективно выполнять этапы 6—9 цикла научных исследований. Однако при наличии большого объема данных, факторов, влияющих на исследуемый процесс или свойство, и анизотропии исследуемых свойств в пространстве и/или во времени применение детерминированных методов анализа становится крайне затруднительной и ресурсоемкой процедурой. В подобных случаях используют методы статистического анализа и/или моделирования.