Антон Владзимирский – Проведение статистического анализа на языке программирования R в медико-биологических исследованиях. Учебное пособие (страница 11)

10 11 12 Вперед

Шрифт

[1] 82.6

#Вычисляем медиану в группе с семейной терапией

median (anorexia [anorexia$Treat==«FT», ] $Prewt)

#=======================================================

#Результат вычисления

#=======================================================

[1] 83.3

Результаты вычислений показывают, что медианная оценка веса пациентов с подтвержденным диагнозом «анорексия» во всех трех группах примерно равна выборочному среднему значению (см. пример в п. 2.1.1), что согласуется с одним из свойств нормального закона распределения количественной величины – медиана, среднее и мода приблизительно равны между собой.

Все значения проведенного базового статистического анализа обобщаются в виде таблицы значений. В таблице 5 представлен пример сводной таблицы базового статистического анализа, проведенного для пациентов с подтвержденным диагнозом anorexia.

Хорошей иллюстрацией для обобщения базового статистического анализа является так называемый ящик с усами – диаграмма размаха, на которой в графическом виде представлен базовый статистический анализ результатов, рассчитанный на основе межквартильного интервала (рисунок 11).

Рисунок 11 – Диаграмма размаха «ящик с усами» веса пациентов: а – до прохождения лечения; б – после прохождения лечения

Центральная (жирная линия) ящика означает медиану, нижняя граница ящика (прямоугольника) означает первый квартиль распределения значений, верхняя граница ящика (прямоугольника) – третий квартиль распределения исследуемой величины (в данном случае веса пациентов), «усы ящика» вычисляются по уравнениям (12, 13):

где U_down – значение нижней границы «усов ящика»; – Q₁ первый квартиль; IQR – межквартильный интервал.

где U_up – значение верхней границы усов ящика; Q₃– третий квартиль; IQR – межквартильный интервал.

Точки, выходящие за пределы длины «усов», могут считаться аномальными (значения, сильно отличающиеся в большую или меньшую сторону от основной совокупности значений).

По результатам проведенного базового анализа выдвигается статистическая гипотеза, которая в результате применения различных статистических тестов и/или критериев принимается или отклоняется.

Контрольные вопросы и задачи

1. Напишите уравнение для вычисления выборочного среднего значения.

2. Запишите уравнение для вычисления выборочного среднего квадратического отклонения.

3. Опишите способ поиска медианы в числовом векторе, расположенном в случайном порядке.

4. Используя набор данных Indometh и Theoph из пакета MASS, вычислите медиану, среднее квадратическое отклонение и выборочное среднее значение концентраций индометацина и теофиллина в плазме крови пациентов.

3. ПОНЯТИЕ О СТАТИСТИЧЕСКОЙ ГИПОТЕЗЕ

Статистическая гипотеза – выдвинутое предположение о виде распределения и свойствах случайной величины, которое можно подтвердить или опровергнуть применением статистических методов к данным, содержащимся в исследуемой выборке54.

Пусть в эксперименте доступна наблюдению случайная величина X, распределение которой P полностью или частично неизвестно. Тогда любое утверждение относительно P называется статистической гипотезой. Выше были представлены примеры базового статистического анализа веса пациентов с подтвержденным диагнозом anorexia, т.е. вес пациентов, участвовавших в эксперименте, представляет собой случайную величину Х. В главе 1 было дано понятие о Гауссовом (нормальном) типе распределения данных. Предположение о том, что вес пациентов распределен по закону, близкому к нормальному (близко к рисунку 1), будет являться статистической гипотезой.

Гипотезы различают по виду предположений, содержащихся в них:

· Статистическая гипотеза, однозначно определяющая распределение P, то есть H: {P = P₀}, где P₀ – какой-то конкретный закон (например, вес пациентов во всех группах подчинен одному нормальному закону распределения), называется простой. H – гипотеза, принято различать нулевую гипотезу H₀ (вес пациентов с подтвержденным диагнозом «анорексия» распределен нормальным образом) и альтернативную гипотезу H₁(вес пациентов с подтвержденным диагнозом «анорексия» распределен отличным от нормального закона распределения).

· Статистическая гипотеза, утверждающая принадлежность распределения P к некоторому семейству распределений, то есть вида H: {P ∈ 𝒫₀}, где 𝒫 – семейство распределений, называется сложной55.

На практике обычно требуется проверить какую-то конкретную и, как правило, простую гипотезу H₀. Такую гипотезу принято называть нулевой. При этом параллельно рассматривается противоречащая ей гипотеза H₁, называемая конкурирующей, или альтернативной (вес пациента принадлежит нормальному закону распределения – нулевая гипотеза, вес пациента не принадлежит нормальному закону распределения – альтернативная гипотеза). В таблице 6 представлены формулировки трех простых нулевых и альтернативных гипотез, которые будут встречаться в тексте пособия при решении трех основных задач:

1. Задача принадлежности данных к нормальному закону распределения.

2. Задача сравнения данных, выделенных по какому-либо признаку в различные группы.

3. Задача выявления статистической зависимости между переменными.

Выдвинутая гипотеза нуждается в проверке, которая осуществляется статистическими методами (посредством различных критериев), поэтому гипотезу называют статистической. Для проверки используют критерии, позволяющие принять ее или опровергнуть выдвинутую гипотезу:

· Формулировка основной гипотезы H₀ и конкурирующей гипотезы H₁(для примера см. таблицу 5).

· Задание уровня значимости α56, на котором в дальнейшем и будет сделан вывод о справедливости гипотезы. Он равен вероятности допустить ошибку первого рода.

· Расчет статистики j критерия такой, что57:

– ее величина зависит от исходной выборки X = (X₁…X_n): φ = φ (X₁…X_n);

– по ее значению можно делать выводы об истинности гипотезы H₀;

– статистика φ, как функция случайной величины X, также является случайной величиной и подчиняется определенному закону распределения.

· Построение критической области. Из области значений φ выделяется подмножество C таких значений, по которым можно судить о существенных расхождениях с предположением. Его размер выбирается таким образом, чтобы выполнялось равенство P (φ ∈ C) = α. Это множество C и называется критической областью, α – ошибка первого рода.

· Вывод об истинности гипотезы. Наблюдаемые значения выборки подставляются в статистику φ и по попаданию (или непопаданию) в критическую область C выносится решение об отвержении (или принятии) выдвинутой гипотезы H₀.

В качестве примера рассмотрим нулевую гипотезу о принадлежности распределения данных нормальному закону. На рисунке 12 представлена гистограмма распределения случайной величины – вес пациента с подтвержденным диагнозом «анорексия» (вес пациента является исходной выборкой X, а предполагаемый закон распределения – φ).

Рисунок 12 – Распределение веса пациентов с подтвержденным диагнозом «анорексия». Вертикальная зеленая линия соответствует 95% распределения случайной величины. Красным цветом закрашена критическая область α = 5%

Соответственно, если P (φ ∈ C)> 0,05, то расхождения считаются статистически незначимыми, а если P (φ ∈ C) ≤ 0,05, то расхождения статистически значимы, и необходимо отвергнуть нулевую гипотезу и принять альтернативную.

В большинстве случаев статистические критерии основаны на случайной выборке (X₁, X₂, …, X_n) фиксированного объема n ≥ 1 для распределения P. В последовательном анализе выборка формируется в ходе самого эксперимента, и потому ее размер является случайной величиной58.

4. ФОРМУЛИРОВКА НУЛЕВОЙ ГИПОТЕЗЫ

Одним из подходов предварительной формулировки нулевой гипотезы является построение гистограмм распределения случайной величины. На рисунке 13 представлена гистограмма распределения абстрактной случайной величины X.

Рисунок 13 – Гистограмма распределения абстрактной случайной величины X

По виду диаграммы можно сделать предположение о близости типа распределения случайной величины к нормальному закону. Однако не стоит забывать о том, что данное предположение будет являться нулевой гипотезой, которая требует дальнейшей проверки59.

Требование проверки нулевой гипотезы связано с особенностью построения гистограммы распределения случайной величины, а именно с выбором ширины интервалов, в которых подсчитывается число попаданий случайных значений. На рисунке 14 представлены изменения гистограммы случайной величины X (рисунок 13).

Рисунок 14 – Изменение вида гистограммы распределения случайной величины X в зависимости от выбора ширины интервалов, в которых подсчитывается количество случайных величин, попавших в данный интервал: а – зауженный интервал; б – интервал увеличенной ширины; в – интервал средней ширины; г – широкий интервал

В результате предварительного анализа гистограммы, представленной на рисунке 14а, можно выдвинуть нулевую гипотезу о принадлежности распределения случайной величины X близко к дискретному типу распределения.

Результатом визуального анализа гистограммы, представленной на рисунке 14б, может служить постановка нулевой гипотезы о мультимодальности распределения случайной величины Х (в этом случае необходимо проверить сложную статистическую гипотезу; рассмотрение анализа сложных статистических гипотез выходит за рамки данного пособия).

10 11 12 Вперед