Антон Владзимирский – Проведение статистического анализа на языке программирования R в медико-биологических исследованиях. Учебное пособие (страница 12)

Шрифт

Анализ гистограммы, представленной на рисунке 14в, может стать основой для формулирования нулевой гипотезы о принадлежности распределения случайной величины к нормальному закону распределения.

Таким образом, гистограмма является точкой начала отсчета для формулировки нескольких нулевых гипотез, которые должны быть проверены различными статистическими критериями.

4.1. Расчет оптимального интервала на гистограмме

Расчет оптимального количества интервалов и диапазона значений, попадающих в интервал гистограммы распределения, является важной составляющей базовой статистики и может служить основой для выделения групп равномерно распределенных данных и выработки классификации на их основе. В настоящем пособии рассматривается несколько простых подходов расчета оптимального количества интервалов и диапазона изменения значений. Первый подход основан на эвристической формуле Стерджесса (14)60:

где N – объем анализируемой выборки (количество значений); n – количество интервалов разбиения данных.

В работе61, описывающей применение статистического анализа при контроле качества продукции, применяют уравнение Брукса—Каррузера (15):

Наиболее простым методом оценки количества интервалов является (16)62:

При больших объемах данных рекомендуется использовать уравнение (17)63:

После расчета количества интервалов разбиения гистограммы распределения проводят вычисления ширины интервала по уравнению (18):

где max (X) – максимальное значение исследуемой переменной X; min (X) – минимальное значение исследуемой переменной X; n – количество интервалов на гистограмме.

Соответственно, с использованием уравнения (18) вычисляются первый и последующие интервалы по уравнению (19):

где X_i+1 – правая граница i-го интервала, не превышающая max (X); X_i – левая граница i-го интервала, начало отсчета которой равно min (X).

Высота столбца диаграммы определяется по уравнению (20):

где N – общее количество исследований; N_i– количество исследований в i-м интервале; H_i – высота интервала.

Более точная (и она же более сложная) оценка размера интервала может быть получена при оценках статистической мощности64, данный подход не рассматривается в настоящем пособии.

4.2. Построение гистограмм распределения на языке R

В языке программирования R существует несколько способов построения гистограмм распределения случайной величины:

– с применением функции hist (), входящей в пакет graphics;

– посредством функции geom_histogram (), входящей в состав пакета ggplot2;

– с помощью столбчатой диаграммы с предварительным расчетом частот и интервалов распределения величин. Построение столбчатых диаграмм можно произвести с помощью:

– функции barplot (), входящей в пакет graphics;

– функции geom_bar (), входящей в пакет ggplot2.

В примерах данной главы приведены все перечисленные способы построения гистограммы распределений.

Примеры построения гистограмм распределений на языке R

Для построения диаграмм распределения использовались данные по выживаемости заболевших вирусом иммунодефицита, собранных в Австралии после 1 июля 1991 года. Все данные содержатся в пакете MASS, наборе данных Aids2.

Листинг 10

#Построение гистограммы распределения с помощью функции hist () пакета graphics

library («MASS») #Подключаем пакет MASS, содержащий набор данных Aids2

N <– length (Aids2$Age) #Вычисляем количество пациентов в наборе данных

dBreak <-5*log10 (N) #Определяем количество интервалов для гистограммы

dBreak <– round (dBreak) #Округляем значение до целых чисел

dX <– (max (Aids2$Age) -min (Aids2$Age)) / dBreak #Рассчитываем шаг

step <– seq (min (Aids2$Age),max (Aids2$Age), dX) # Вектор интервалов

hist (x = Aids2$age, break = step, xlab= «Возраст выявления, полных лет»,

ylab = «Количество, чел», main = «Выживаемость, заболевших СПИДом»,

col = «blue») #Строим гистограмму распределения возрастов пациентов с

# с выявленным вирусом иммунодефицита

# x – вектор значений исследуемых распределений, полученный из Data Frame

Продолжение листинга 10

# break – количество участков на гистограмме;

# xlab – подпись оси ОХ;

# ylab – подпись оси OY;

# main – название гистограммы;

# col – задание цвета гистограммы распределения.

Результат выполнения данной команды представлен на рисунке 15.

Рисунок 15 – Результат применения функции

hist () из пакета grahics

Функция hist () хороша для применения при необходимости быстро построить гистограмму и посмотреть на распределение данных, однако более гибким инструментом для построения и дальнейшей публикации гистограмм является функция geom_histogram (), входящая в пакет ggplot2.

Листинг 11

# Построение гистограммы распределения с помощью функции

# geom_histogram () пакета ggplot2

library («MASS») # Подключаем пакет MASS, содержащий набор данных Aids2

library («ggplot2») # Подключаем пакет ggplot2, содержащий функцию # geom_histogram ()

p <– ggplot () #Создаем объект p, содержащий65 слои графика

p <– p + geom_histogram (mapping = aes (x= Aids2$age), fill= «blue», binwith=30)

p <– p+labs (x = «Возраст выявления, полных лет»,

y= «Количество, чел»,

title = «Выживаемость, заболевших СПИДом»)

print (p)

Результат выполнения кода листинга 11 представлен на рисунке 16.

Конец ознакомительного фрагмента.

Текст предоставлен ООО «Литрес».

Прочитайте эту книгу целиком, купив полную легальную версию на Литрес.

Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.

11 12