Антон Владзимирский – Проведение статистического анализа на языке программирования R в медико-биологических исследованиях. Учебное пособие (страница 12)
Анализ гистограммы, представленной на рисунке 14в, может стать основой для формулирования нулевой гипотезы о принадлежности распределения случайной величины к нормальному закону распределения.
Таким образом, гистограмма является точкой начала отсчета для формулировки нескольких нулевых гипотез, которые должны быть проверены различными статистическими критериями.
4.1. Расчет оптимального интервала на гистограмме
Расчет оптимального количества интервалов и диапазона значений, попадающих в интервал гистограммы распределения, является важной составляющей базовой статистики и может служить основой для выделения групп равномерно распределенных данных и выработки классификации на их основе. В настоящем пособии рассматривается несколько простых подходов расчета оптимального количества интервалов и диапазона изменения значений. Первый подход основан на эвристической формуле Стерджесса (14)60:
где
В работе61, описывающей применение статистического анализа при контроле качества продукции, применяют уравнение Брукса—Каррузера (15):
Наиболее простым методом оценки количества интервалов является (16)62:
При больших объемах данных рекомендуется использовать уравнение (17)63:
После расчета количества интервалов разбиения гистограммы распределения проводят вычисления ширины интервала по уравнению (18):
где max (
Соответственно, с использованием уравнения (18) вычисляются первый и последующие интервалы по уравнению (19):
где
Высота столбца диаграммы определяется по уравнению (20):
где N – общее количество исследований;
Более точная (и она же более сложная) оценка размера интервала может быть получена при оценках статистической мощности64, данный подход не рассматривается в настоящем пособии.
4.2. Построение гистограмм распределения на языке R
В языке программирования R существует несколько способов построения гистограмм распределения случайной величины:
– с применением функции
– посредством функции
– с помощью столбчатой диаграммы с предварительным расчетом частот и интервалов распределения величин. Построение столбчатых диаграмм можно произвести с помощью:
– функции
– функции
В примерах данной главы приведены все перечисленные способы построения гистограммы распределений.
Для построения диаграмм распределения использовались данные по выживаемости заболевших вирусом иммунодефицита, собранных в Австралии после 1 июля 1991 года. Все данные содержатся в пакете MASS, наборе данных
Листинг 10
#Построение гистограммы распределения с помощью функции hist () пакета graphics
# с выявленным вирусом иммунодефицита
#
Продолжение листинга 10
#;
#
#
#
#
#
Результат выполнения данной команды представлен на рисунке 15.
Функция
Листинг 11
# Построение гистограммы распределения с помощью функции
#
Результат выполнения кода листинга 11 представлен на рисунке 16.
Конец ознакомительного фрагмента.
Текст предоставлен ООО «Литрес».
Прочитайте эту книгу целиком, купив полную легальную версию на Литрес.
Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.