Антон Владзимирский – Проведение статистического анализа на языке программирования R в медико-биологических исследованиях. Учебное пособие (страница 10)

Шрифт

legend. text = element_text (size = 20, face = «bold», color = «black»))

grPP <– grPP + labs (x=«Therapy type», y=«Value range»)

print (grPP)

На рисунке 9 графически изображены размах значений массы тела в каждой из исследуемых групп пациентов до прохождения лечения.

Рисунок 9 – Размах значений веса пациентов (синие закрашенные кружочки – максимальный вес; фиолетовые кружочки – минимальный вес пациентов) до проведения лечения в трех группах (CBT – группа с назначенным когнитивно-поведенческим лечением; Cont – контрольная группа; FT – назначенная семейная терапия)

Сравнение размаха значений и доверительных интервалов позволяет определить наличие выбросов в измерениях. Значения выше или ниже доверительного интервала должны быть проанализированы отдельно от основной выборки и не анализироваться в основной совокупности данных.

2.1.5. Понятие о квантилях, децилях, квартилях распределения

При проведении статистического анализа данных возникает необходимость оценки значения, соответствующего 5%52 от общего количества данных или 95% от общего количества данных. Для этих целей применяются различные уровни квантилей.

Квантили – это значения, которые делят упорядоченную выборку на равные доли.

Допустим, имеется произвольный ряд десятичных чисел:

85.50 99.69 37.19 47.43 40.26 93.58 68.97 19.50 87.39 43.81 42.96 6.985.22 62.67 47.16 76.30 69.56 59.40 92.33 31.22 41.59 33.27 30.25 36.7749.43 33.85 27.44 8.45 99.84 52.81

Нам необходимо определить, какое значение соответствует 5% в представленном ряду значений. Для решения данной задачи необходимо выстроить числа ряда в порядке возрастания (от меньшего к большему):

5.21 6.98 8.45 19.50 27.44 30.25 31.22 33.27 33.85 36.77 37.18 40.26 41.59 42.96 43.81 47.16 47.43 49.43 52.81 59.40 62.67 68.97 69.56 76.30 85.50 87.39 92.33 93.58 99.69 99.84

В данном ряду содержится 30 значений, номер значения, соответствующего 5% данного ряда, равен 1.5, т.е. между первым и вторым значением соответственно квантиль будет равен:

Децили – значения, которые делят упорядоченную выборку на десять примерно равных частей. Допустим, необходимо разделить ряд, представленный выше, на 10 равных частей с шагом в 10%, тогда децили будут равны (процедура поиска значения, соответствующего каждому проценту, такая же, как в описанном выше примере):

Наиболее часто применяемыми на практике являются квартили – значения, которые делят упорядоченную выборку на четыре примерно равные части. Для приведенного ранее ряда значения квартилей равны:

На языке программирования R вычисление квартилей проводится с помощью функции quantile (), входящей в пакет stats. На практике наиболее часто применяются первый и третий квартили, межквартильный интервал представлен на рисунке 10.

Рисунок 10 – Межквартильный интервал (между первым и третьим квартилем) представлен зелеными вертикальными линиями

В межквартильном интервале находятся 50% всех встречаемых значений измеряемой величины. Первый квартиль ограничивает слева 25% (первая зеленая вертикальная линия при просмотре рисунка 10 слева направо) значений, а третий – 75% (вторая зеленая вертикальная линия при просмотре рисунка 10 слева направо).

Пример вычисления квантилей, децилей и квартилей

На примере набора данных anorexia из пакета MASS, содержащих информацию о весе пациентов с подтвержденным диагнозом «анорексия», рассмотрим вычисления квантилей, децилей и квартилей массы тела пациентов в контрольной группе, в группе с назначенной когнитивно-поведенческой терапией и семейной терапией.

Листинг 8

library (MASS) # Подключаем библиотеку, содержащую набор данных anorexia

Продолжение листинга 8

library (ggplot2) #Подключаем библиотеку построения графиков

#=======================================================

# Выделяем из набора данных подгруппы пациентов с разным типом

# назначенного лечения

#=======================================================

contData <– anorexia [anorexia$Treat==«Cont», ] $Prewt #Вес пациентов в

# контрольной группе до проведения лечения

cbtData <– anorexia [anorexia$Treat==«CBT», ] $Prewt # Вес пациентов в группе

# с назначенным когнитивно-поведенческим лечением до проведения лечения

ftData <– anorexia [anorexia$Treat==«FT», ] $Prewt # Вес пациентов в группе

# с назначенной семейной терапией

#=======================================================

#Задаем значения интересующих нас квантилей

propQ <– c (0.05, 0.95)

propDec <– c (0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0)

propQvar <– c (0.25, 0.5, 0.75, 1.0)

#=======================================================

contQuan <– quantile (contData, propQ, type = 4)

print (contQuan)

cbtQuan <– quantile (cbtData, propQ, type = 4)

print (cbtQuan)

ftQuan <– quantile (ftData, propQ, type = 4)

print (ftQuan)

2.1.6. Вычисление медианы

Выборочное среднее значение при большом объеме данных, распределенных в соответствии с нормальным законом, стремится к моде53 или наиболее вероятному значению в данной выборке. Такая оценка значений не всегда бывает адекватной, особенно в случае наличия аномалий (значений существенно меньших или существенно больших, чем большинство значений из выборочной совокупности). Для более адекватного описания всей совокупности при наличии выбросов или данных, распределенных отлично от нормального закона распределения, лучше использовать медианную оценку, или медиану – это значение, которое разделяет ранжированную по возрастанию выборку пополам (50% квантиль).

Предположим, имеется упорядоченный по возрастанию ряд чисел 1, 4, 6, 9, 11. Центр этого ряда составляет число 6, это и будет медианой данного ряда. В случае, если ряд имеет четное число значений, то медианой будет являться среднее арифметическое значение между двумя центральными значениями. Например, имеется ряд чисел, упорядоченных по возрастанию: 1, 4, 6, 9, 11, 12 – двумя центральными значениями будут являться 6 и 9, их среднее арифметическое значение равно 7,5 – оно и будет являться медианой.

Пример вычисления медианы

Рассмотрим вычисление медианы на наборе данных anorexia из пакета MASS. Рассчитаем медиану веса пациентов до прохождения лечения в контрольной группе, группе пациентов с предписанной когнитивно-поведенческой терапией и в группе с семейной терапией.

Листинг 9

library (MASS) # Подключаем пакет, содержащий набор данных anorexia

#Вычисляем медиану в контрольной группе пациентов

median (anorexia [anorexia$Treat==«Cont», ] $Prewt)

#=======================================================

# Результат вычисления

#=======================================================

[1] 80.65

#Вычисляем медиану в группе с когнитивно-поведенческой терапией

median (anorexia [anorexia$Treat==«CBT», ] $Prewt)

#=======================================================

#Результат вычисления

#=======================================================

9 10 11 12 Вперед