Антон Владзимирский – Проведение статистического анализа на языке программирования R в медико-биологических исследованиях. Учебное пособие (страница 11)
[1] 82.6
[1] 83.3
Результаты вычислений показывают, что медианная оценка веса пациентов с подтвержденным диагнозом «анорексия» во всех трех группах примерно равна выборочному среднему значению (см. пример в п. 2.1.1), что согласуется с одним из свойств нормального закона распределения количественной величины – медиана, среднее и мода приблизительно равны между собой.
Все значения проведенного базового статистического анализа обобщаются в виде таблицы значений. В таблице 5 представлен пример сводной таблицы базового статистического анализа, проведенного для пациентов с подтвержденным диагнозом
Хорошей иллюстрацией для обобщения базового статистического анализа является так называемый ящик с усами – диаграмма размаха, на которой в графическом виде представлен базовый статистический анализ результатов, рассчитанный на основе межквартильного интервала (рисунок 11).
Центральная (жирная линия) ящика означает медиану, нижняя граница ящика (прямоугольника) означает первый квартиль распределения значений, верхняя граница ящика (прямоугольника) – третий квартиль распределения исследуемой величины (в данном случае веса пациентов), «усы ящика» вычисляются по уравнениям (12, 13):
где
где
Точки, выходящие за пределы длины «усов», могут считаться аномальными (значения, сильно отличающиеся в большую или меньшую сторону от основной совокупности значений).
По результатам проведенного базового анализа выдвигается статистическая гипотеза, которая в результате применения различных статистических тестов и/или критериев принимается или отклоняется.
Контрольные вопросы и задачи
1. Напишите уравнение для вычисления выборочного среднего значения.
2. Запишите уравнение для вычисления выборочного среднего квадратического отклонения.
3. Опишите способ поиска медианы в числовом векторе, расположенном в случайном порядке.
4. Используя набор данных
3. ПОНЯТИЕ О СТАТИСТИЧЕСКОЙ ГИПОТЕЗЕ
Статистическая гипотеза – выдвинутое предположение о виде распределения и свойствах случайной величины, которое можно подтвердить или опровергнуть применением статистических методов к данным, содержащимся в исследуемой выборке54.
Пусть в эксперименте доступна наблюдению случайная величина
Гипотезы различают по виду предположений, содержащихся в них:
· Статистическая гипотеза, однозначно определяющая распределение P, то есть H: {P = P0}, где P0 – какой-то конкретный закон (например, вес пациентов во всех группах подчинен одному нормальному закону распределения), называется простой. H – гипотеза, принято различать нулевую гипотезу
· Статистическая гипотеза, утверждающая принадлежность распределения
На практике обычно требуется проверить какую-то конкретную и, как правило, простую гипотезу H0. Такую гипотезу принято называть нулевой. При этом параллельно рассматривается противоречащая ей гипотеза H1, называемая конкурирующей, или альтернативной (вес пациента принадлежит нормальному закону распределения – нулевая гипотеза, вес пациента не принадлежит нормальному закону распределения – альтернативная гипотеза). В таблице 6 представлены формулировки трех простых нулевых и альтернативных гипотез, которые будут встречаться в тексте пособия при решении трех основных задач:
1. Задача принадлежности данных к нормальному закону распределения.
2. Задача сравнения данных, выделенных по какому-либо признаку в различные группы.
3. Задача выявления статистической зависимости между переменными.
Выдвинутая гипотеза нуждается в проверке, которая осуществляется статистическими методами (посредством различных критериев), поэтому гипотезу называют статистической. Для проверки используют критерии, позволяющие принять ее или опровергнуть выдвинутую гипотезу:
· Формулировка основной гипотезы H0 и конкурирующей гипотезы H1 (для примера см. таблицу 5).
· Задание уровня значимости α56, на котором в дальнейшем и будет сделан вывод о справедливости гипотезы. Он равен вероятности допустить ошибку первого рода.
· Расчет статистики j критерия такой, что57:
– ее величина зависит от исходной выборки X = (X1…Xn): φ = φ (X1…Xn);
– по ее значению можно делать выводы об истинности гипотезы H0;
– статистика φ, как функция случайной величины X, также является случайной величиной и подчиняется определенному закону распределения.
· Построение критической области. Из области значений φ выделяется подмножество
· Вывод об истинности гипотезы. Наблюдаемые значения выборки подставляются в статистику φ и по попаданию (или непопаданию) в критическую область
В качестве примера рассмотрим нулевую гипотезу о принадлежности распределения данных нормальному закону. На рисунке 12 представлена гистограмма распределения случайной величины – вес пациента с подтвержденным диагнозом «анорексия» (вес пациента является исходной выборкой X, а предполагаемый закон распределения – φ).
Соответственно, если
В большинстве случаев статистические критерии основаны на случайной выборке (X1, X2, …, Xn) фиксированного объема n ≥ 1 для распределения
4. ФОРМУЛИРОВКА НУЛЕВОЙ ГИПОТЕЗЫ
Одним из подходов предварительной формулировки нулевой гипотезы является построение гистограмм распределения случайной величины. На рисунке 13 представлена гистограмма распределения абстрактной случайной величины X.
По виду диаграммы можно сделать предположение о близости типа распределения случайной величины к нормальному закону. Однако не стоит забывать о том, что данное предположение будет являться нулевой гипотезой, которая требует дальнейшей проверки59.
Требование проверки нулевой гипотезы связано с особенностью построения гистограммы распределения случайной величины, а именно с выбором ширины интервалов, в которых подсчитывается число попаданий случайных значений. На рисунке 14 представлены изменения гистограммы случайной величины X (рисунок 13).
В результате предварительного анализа гистограммы, представленной на рисунке 14а, можно выдвинуть нулевую гипотезу о принадлежности распределения случайной величины X близко к дискретному типу распределения.
Результатом визуального анализа гистограммы, представленной на рисунке 14б, может служить постановка нулевой гипотезы о мультимодальности распределения случайной величины Х (в этом случае необходимо проверить сложную статистическую гипотезу; рассмотрение анализа сложных статистических гипотез выходит за рамки данного пособия).