Антон Владзимирский – Проведение статистического анализа на языке программирования R в медико-биологических исследованиях. Учебное пособие (страница 4)

3 4 5 6 Вперед

Шрифт

#Выводим структуру набора данных

#=======================================================

str (muscle)

#=======================================================

'data.frame’: 60 obs. of 3 variables:

$ Strip: Factor w/ 21 levels «S01», «S02», «S03»,..: 1 1 1 1 2 2 2 2 3 3…

Продолжение листинга 2

$ Conc: num 1 2 3 4 1 2 3 4 0.25 0.5…

$ Length: num 15.8 20.8 22.6 23.8 20.6 26.8 28.4 27 7.2 15.4…

Набор данных muscle содержит значения концентрации хлорида кальция, кратные величине 2,2 ммоль (Conc), и длину полосы сокращения сердечной мышцы, измеряемую в миллиметрах (Length) – представленные данные являются количественными. Одновременно набор данных содержит и качественный параметр, а именно обозначение линии сердечной мышцы при проведении измерений (Strip).

2. НОРМАЛЬНЫЙ ЗАКОН РАСПРЕДЕЛЕНИЯ СЛУЧАЙНОЙ ВЕЛИЧИНЫ

Каждая переменная, входящая в набор данных, имеет совокупность значений, полученных в результате наблюдения или путем прямого измерения. Взаимная зависимость и влияние изменения одной величины на другую являются предметом исследования, в том числе методами статистического анализа.

Если на исследуемую величину действует большое количество независимых переменных и отсутствует возможность выделить доминирующую величину, то распределение исследуемой величины стремится к так называемому нормальному или Гауссову закону распределения (при проведении исследования данных выбор применяемого для анализа теста или критерия зависит от того, принадлежит ли исследуемая величина нормальному закону распределения или нет).

На рисунке 3 представлен пример графика (гистограммы42) случайной величины, значительно приближенной к нормальному закону распределения.

Рисунок 3 – Пример частоты встречаемости наблюдаемого и/или измеренного значения для нормального закона распределения

Опишем нахождение основных метрик и охарактеризуем их для данных, распределенных в соответствии с нормальным законом.

2.1. Базовый статистический анализ количественных данных

Базовый статистический анализ составляет основу любой аналитической работы с данными (независимо от того, какого типа данные анализируются).

В случае, если набор данных содержит в основном качественные данные, то при проведении базового статистического анализа определяют количество данных, содержащихся в каждом факторе, количество уровней факторов и количество данных, содержащихся в каждом уровне. На основании этих данных вычисляются:

1. Доля каждого уровня в факторе.

2. Среднее квадратичное отклонение доли в факторе.

В случае, если набор данных содержит в основном количественные данные, то при проведении базового статистического анализа определяют:

1. Выборочное среднее и/или среднее взвешенное значение.

2. Медиану.

3. Среднее квадратическое отклонение.

4. Доверительный интервал выборочного среднего на основании первой и третьей величины.

5. Максимальное значение.

6. Минимальное значение.

7. «Размах» значений на основании максимального и минимального значений.

8. Первый квартиль в распределении данных.

9. Последний квартиль в распределении данных.

10. Межквартильный интервал на основании первого и последнего квартиля в распределении данных.

Перечисленные величины описывают основные статистические свойства исследуемых данных, но не дают ответа на вопрос о наличии различий в группах данных и их взаимном влиянии. Рассмотрим более детально способ вычисления величин, входящих в перечень базовых статистических величин.

2.1.1. Выборочное среднее

При проведении анализа данных первая величина, которую вычисляет исследователь – это выборочное среднее значение43. В данном учебном пособии не рассматривается вопрос математически строгого представления средних величин, а представлены наиболее часто использующиеся на практике. Выборочная средняя величина вычисляется по уравнению (1):

где N – количество исследований, вычисленное по одному параметру в наборе данных; X_i– фактическое значение усредняемой величины.

Она является обобщенной характеристикой в случае однородности данных, описывающей явления, имеющие одну и ту же размерность. Например, если врач проводит исследование веса или роста пациентов, возраст которых составляет 20 полных лет, то ему необходимо описать вес или рост всех пациентов в возрасте 20 полных лет. Для этих целей он будет использовать выборочное среднее значение. В случае данных, распределенных в соответствии с нормальным законом распределения, выборочное среднее значение будет соответствовать максимуму частоты встречаемости исследуемого значения, как представлено на рисунке 4.

Рисунок 4 – Выборочное среднее (зеленая вертикальная линия)

для нормального закона распределения44

На языке программирования R выборочное среднее значение вычисляется с помощью функции mean () из пакета base.

В случае, если врачу необходимо более точно описать средний вес пациентов (например) в возрасте 20 лет с учетом их (например) роста, то для этих целей нужно использовать среднее взвешенное значение (2):

где N – количество исследований, вычисленное по одному параметру в наборе данных; X_i– фактическое значение усредняемой величины; ω_i – вес i-го значения усредняемой величины в общей выборке.

В качестве весового коэффициента ω_i в этом случае будет выступать величина, описывающая рост i-го пациента в возрасте 20 лет. Средняя взвешенная величина выступает в качестве характеристики, описывающей совокупность явлений, имеющих одну и ту же размерность с учетом влияния сторонних признаков (например, вес пациентов с учетом их роста).

На языке программирования R выборочное среднее значение вычисляется с помощью функции weighted.mean () из пакета base.

При исследованиях долей возникновения признака может возникнуть необходимость вычисления средней доли признака по отношению ко всем признакам. В этом случае среднее значение доли вычисляется как (3):

где p – доля единиц, обладающих исследуемым признаком; q – доля единиц, не обладающих исследуемым признаком, равна 1-p.

Пример вычисления выборочного среднего и средневзвешенного на языке R

Для примера вычисления средних и средневзвешенных значений используем набор данных anorexia из пакета MASS. Вычислим среднее и средневзвешенное значение веса пациента. В качестве весового коэффициента (уравнение 2 и текст под ним) будем использовать долю пациентов в каждой группе.

Листинг 3

library (MASS) #45Подключаем библиотеку, содержащую набор данных anorexia

#=====================================================

#Исследуем структуру набора данных

#=====================================================

str (anorexia)

#=======================================================

# Выводим структуру данных

#=======================================================

'data.frame’: 72 obs. of 3 variables:

$ Treat: Factor w/ 3 levels «CBT», «Cont», «FT»: 2 2 2 2 2 2 2 2 2 2..

Продолжение листинга 3

$ Prewt: num 80.7 89.4 91.8 74 78.1 88.3 87.3 75.1 80.6 78.4…

$ Postwt: num 80.2 80.1 86.4 86.3 76.1 78.1 75.1 86.7 73.5 84.6…

#========================================================

# Выводим заголовочную часть набора данных

#========================================================

3 4 5 6 Вперед