Антон Владзимирский – Проведение статистического анализа на языке программирования R в медико-биологических исследованиях. Учебное пособие (страница 4)
'data.frame’: 60 obs. of 3 variables:
$ Strip: Factor w/ 21 levels «S01», «S02», «S03»,..: 1 1 1 1 2 2 2 2 3 3…
Продолжение листинга 2
$ Conc: num 1 2 3 4 1 2 3 4 0.25 0.5…
$ Length: num 15.8 20.8 22.6 23.8 20.6 26.8 28.4 27 7.2 15.4…
Набор данных
2. НОРМАЛЬНЫЙ ЗАКОН РАСПРЕДЕЛЕНИЯ СЛУЧАЙНОЙ ВЕЛИЧИНЫ
Каждая переменная, входящая в набор данных, имеет совокупность значений, полученных в результате наблюдения или путем прямого измерения. Взаимная зависимость и влияние изменения одной величины на другую являются предметом исследования, в том числе методами статистического анализа.
Если на исследуемую величину действует большое количество независимых переменных и отсутствует возможность выделить доминирующую величину, то распределение исследуемой величины стремится к так называемому нормальному или Гауссову закону распределения (при проведении исследования данных выбор применяемого для анализа теста или критерия зависит от того, принадлежит ли исследуемая величина нормальному закону распределения или нет).
На рисунке 3 представлен пример графика (гистограммы42) случайной величины, значительно приближенной к нормальному закону распределения.
Опишем нахождение основных метрик и охарактеризуем их для данных, распределенных в соответствии с нормальным законом.
2.1. Базовый статистический анализ количественных данных
Базовый статистический анализ составляет основу любой аналитической работы с данными (независимо от того, какого типа данные анализируются).
В случае, если набор данных содержит в основном качественные данные, то при проведении базового статистического анализа определяют количество данных, содержащихся в каждом факторе, количество уровней факторов и количество данных, содержащихся в каждом уровне. На основании этих данных вычисляются:
1. Доля каждого уровня в факторе.
2. Среднее квадратичное отклонение доли в факторе.
В случае, если набор данных содержит в основном количественные данные, то при проведении базового статистического анализа определяют:
1. Выборочное среднее и/или среднее взвешенное значение.
2. Медиану.
3. Среднее квадратическое отклонение.
4. Доверительный интервал выборочного среднего на основании первой и третьей величины.
5. Максимальное значение.
6. Минимальное значение.
7. «Размах» значений на основании максимального и минимального значений.
8. Первый квартиль в распределении данных.
9. Последний квартиль в распределении данных.
10. Межквартильный интервал на основании первого и последнего квартиля в распределении данных.
Перечисленные величины описывают основные статистические свойства исследуемых данных, но не дают ответа на вопрос о наличии различий в группах данных и их взаимном влиянии. Рассмотрим более детально способ вычисления величин, входящих в перечень базовых статистических величин.
2.1.1. Выборочное среднее
При проведении анализа данных первая величина, которую вычисляет исследователь – это выборочное среднее значение43. В данном учебном пособии не рассматривается вопрос математически строгого представления средних величин, а представлены наиболее часто использующиеся на практике. Выборочная средняя величина вычисляется по уравнению (1):
где
Она является обобщенной характеристикой в случае однородности данных, описывающей явления, имеющие одну и ту же размерность. Например, если врач проводит исследование веса или роста пациентов, возраст которых составляет 20 полных лет, то ему необходимо описать вес или рост всех пациентов в возрасте 20 полных лет. Для этих целей он будет использовать выборочное среднее значение. В случае данных, распределенных в соответствии с нормальным законом распределения, выборочное среднее значение будет соответствовать максимуму частоты встречаемости исследуемого значения, как представлено на рисунке 4.
На языке программирования R выборочное среднее значение вычисляется с помощью функции
В случае, если врачу необходимо более точно описать средний вес пациентов (например) в возрасте 20 лет с учетом их (например) роста, то для этих целей нужно использовать среднее взвешенное значение (2):
где N – количество исследований, вычисленное по одному параметру в наборе данных;
В качестве весового коэффициента
На языке программирования R выборочное среднее значение вычисляется с помощью функции
При исследованиях долей возникновения признака может возникнуть необходимость вычисления средней доли признака по отношению ко всем признакам. В этом случае среднее значение доли вычисляется как (3):
где
Для примера вычисления средних и средневзвешенных значений используем набор данных anorexia из пакета MASS. Вычислим среднее и средневзвешенное значение веса пациента. В качестве весового коэффициента (уравнение 2 и текст под ним) будем использовать долю пациентов в каждой группе.
Листинг 3
#=====================================================
#
#=====================================================
#
#
'data.frame’: 72 obs. of 3 variables:
$ Treat: Factor w/ 3 levels «CBT», «Cont», «FT»: 2 2 2 2 2 2 2 2 2 2..
Продолжение листинга 3
$ Prewt: num 80.7 89.4 91.8 74 78.1 88.3 87.3 75.1 80.6 78.4…
$ Postwt: num 80.2 80.1 86.4 86.3 76.1 78.1 75.1 86.7 73.5 84.6…
#
#
#