Антон Владзимирский – Проведение статистического анализа на языке программирования R в медико-биологических исследованиях. Учебное пособие (страница 2)

Шрифт

В данном учебном пособии рассматриваются основные статистические методы, рекомендованные к использованию национальными стандартами по метрологии, рекомендациями по проведению статистического анализа результатов эксперимента и в публикациях ряда авторов.

В настоящее время для проведения статистического анализа данных разработано и применяется большое количество программного обеспечения. Наиболее известными специализированными программными продуктами являются:

1. Statistica^©8.

2. SPSS Statistics^©9.

3. Minitab^©10.

4. Salstat11.

5. JASP12.

6. Jamovi13.

7. Язык программирования R14 с интегрированной средой разработки (IDE – integrated development environment) RStudio^©15.

8. Язык программирования Python c интегрированной средой разработки Spyder16.

Обзор всего существующего на сегодняшний день программного обеспечения, позволяющего проводить статистический анализ данных, потребует отдельной книги. Стоит отметить только основные особенности, которые необходимо учитывать при выборе того или иного инструмента:

1. Стоимость коммерческого программного обеспечения. Она, как правило, очень высока, а набор функций, доступных пользователю, ограничен финансовыми возможностями организации.

2. Возможность установки и использования на различных операционных системах таких, как Microsoft Windows, OS Linux, macOS и др.

3. Наличие открытого исходного кода программного обеспечения (ПО). Такое ПО обладает большей гибкостью в части возможности добавления собственных функций и проверки правильности реализации сторонних.

4. Наличие специализированного языка программирования, адаптированного для решения конкретных задач. Это ускоряет решение сложных вычислительных задач, снижает требования к аппаратным ресурсам и повышает гибкость программного обеспечения при решении специфичных задач.

5. Доступность программного обеспечения для исследователей с малым объемом финансирования.

6. Также важно учитывать наличие широкой поддержки данного инструмента статистической обработки академическим сообществом (наличие научно обоснованных и верифицированных алгоритмов, применяемых для проведения статистических тестов и анализа данных).

Из всего вышеизложенного следует, что во многих случаях наиболее подходящим в широкой практике для проведения статистических исследований является ПО с открытым исходным кодом и/или специализированные языки программирования.

Одним из таких является язык программирования R с интегрированной средой разработки RStudio^©, разработанный и поддерживаемый компанией Posit Software, PBC и распространяющийся по открытой лицензии GNU GPL 317. Данная среда разработки не требует специализированных навыков при установке на большинство программно-аппаратных комплексов общего назначения; инструкцию по установке текущей версии RStudio можно найти на сайте проекта18.

Интерфейс RStudio представлен на рисунке 1.

Рисунок 1 – Интегрированная среда разработки RStudio с подключенным компилятором языка программирования R. 1 – интерактивная консоль ввода команд языка R; 2 – поле ввода скриптов на языке R; 3 – область отображения переменных и истории ввода команд в среде RStudio; 4 – область построения графиков, отображения справки (Help) и др.

Детальный обзор интегрированной среды разработки RStudio выходит за рамки настоящего пособия и должен рассматриваться на практических занятиях по статистическому анализу данных на языке программирования R19.

Практическая часть применения статистических методов анализа данных построена на открытых источниках данных, присутствующих в пакете MASS20 языка R, и на открытом наборе данных, содержащем исследования метрик диагностической точности 100 врачей21. Перечень основных наборов данных, содержащихся в пакете MASS:

1. Aids222 – набор данных, содержащий обезличенную информацию о пациентах, у которых диагностирован СПИД в Австралии до 1 июля 1991 г.

2. Cushings23 – набор данных, содержащий наблюдаемые показатели экскреции с мочой двух стероидных метаболитов у пациентов с подтвержденным диагнозом синдрома Кушинга (гипертензивное заболевание, связанное с избыточной секрецией кортизола надпочечниками).

3. GAGurine24 – набор данных, содержащий значения концентрации гликозаминогликанов (GAG) в моче у детей в возрасте от 0 до 17 лет.

4. Melanoma25 – набор данных, содержащий обезличенные данные 205 пациентов в Дании с подтвержденным диагнозом злокачественной меланомы.

5. Pima.te26 – набор данных, содержащий информацию о популяции женщин в возрасте не менее 21 года, принадлежащих к индейскому племени пима и проживающих в окрестностях Феникса (штат Аризона), которые были обследованы на наличие диабета в соответствии с критериями Всемирной организации здравоохранения. Сбор данных осуществлялся Национальным институтом диабета и болезней органов пищеварения и почек США. Содержит 532 полные записи после исключения (в основном отсутствующих) данных об инсулине в сыворотке крови. Обучающий набор Pima.tr содержит случайно выбранный набор данных 200 испытуемых, а Pima.te – оставшихся 332 испытуемых. Pima.tr2 содержит Pima.tr плюс 100 испытуемых с отсутствующими значениями объясняющих переменных.

6. anorexia27 – набор данных, содержащий обезличенную информацию об изменении веса молодых женщин, страдающих анорексией.

7. bacteria28 – набор данных, содержащий тесты на наличие бактерии H. influenzae у детей со средним отитом на северной территории Австралии.

8. biopsy29 – набор данных о раке молочной железы, полученный из госпиталей Висконсинского университета в Мэдисоне от доктора Уильяма Х. Вольберга. Он оценивал биопсии опухолей молочной железы 699 пациенток до 15 июля 1992 г. Каждый из девяти признаков оценивался по шкале от 1 до 10, известен также исход заболевания; имеются 699 строк и 11 столбцов.

9. birtwt30 – набор данных, содержащий факторы риска, связанные с низкой массой тела младенца при рождении. Данные были собраны в Медицинском центре Baystate, Спрингфилд, штат Массачусетс, в течение 1986 года.

10. epil31 – набор данных о количестве двухнедельных приступов у 59 эпилептиков. Количество приступов регистрировалось в течение базового периода в 8 недель, после чего пациенты были рандомизированы в группу лечения или контрольную группу. Затем подсчеты проводились в течение четырех последовательных двухнедельных периодов. Возраст пациента является единственной ковариатой.

11. gehan32 – набор данных, содержащий исследования 42 больных лейкемией. Часть из них получала лечение препаратом 6-меркаптопурин, остальные – контрольная группа. Испытание было организовано в виде подобранных пар, обе из которых были выведены из исследования при выходе из ремиссии.

12. muscle33 – набор данных, содержащий результаты исследования по влиянию концентрации хлорида кальция на сокращение мышц сердца крыс.

13. Indometh34 – набор данных, содержащий фармакокинетику индометацина.

14. Theoph35 – набор данных, содержащий фармакокинетику теофиллина.

15. lh36 – набор данных, содержащий временной ряд изменения концентрации лютеинизирующего гормона в образцах крови.

16. women37 – набор данных, содержащий средний рост и вес женщин в Америке в возрасте от 30 до 39 лет.

Весь процесс статистического анализа данных можно представить в виде алгоритма, изображенного на рисунках 2.1 и 2.2.

Рисунок 2.1 – Алгоритм проведения статистического анализа смешанных данных

Рисунок 2.2 – Алгоритм проведения статистического анализа количественных данных

Каждый из представленных в алгоритме тестов или методов рассматривается в данном пособии. Стоит отметить, что перечень перечисленных методов не является исчерпывающим, и читатель может самостоятельно расширять и дополнять их.

Кроме того, в пособии рассматриваются особенности проведения корреляционного анализа, обозначены нюансы интерпретации результатов корреляционного анализа медико-биологических данных. Одной из особенностей анализа данных, содержащих результаты исследований пациентов, дифференцированных по разным группам, является сравнение мер центральной тенденции (средних, медиан) величин проявления эффекта в группе. Этому вопросу посвящена отдельная глава. Рассматриваются разные критерии сравнения групп по количественным переменным. Также описываются два базовых метода построения предсказательных и классифицирующих моделей и приводятся способы их оценки, настройки и сравнения результатов.

Авторы учебного пособия выражают благодарность М. Р. Коденко и Р. В. Решетникову за ценные советы, данные при подготовке рукописи.

1. ТИПЫ ДАННЫХ

При проведении статистического анализа аналитик сталкивается с тремя основными типами данных:

1) количественными;

2) качественными;

3) смешанными (сочетающими количественные и качественные характеристики).

Количественные данные38 – численные данные, имеющие шкалу измерения. Они могут быть разделены на дискретные и непрерывные.

Дискретные количественные данные – это числовые данные, полученные путем подсчета какой-либо величины.

Примером таких данных являются: вес пациента, измеряющийся в килограммах; рост пациента, измеряемый в сантиметрах; количество пациентов; концентрация различных веществ в крови или моче пациента и т. д. (результаты антропометрических, лабораторных и функциональных исследований пациентов).

1 2 3 4 Вперед