Антон Владзимирский – Проведение статистического анализа на языке программирования R в медико-биологических исследованиях. Учебное пособие (страница 3)
Примерами непрерывных количественных данных являются электроэнцефалограмма головного мозга, электрокардиограмма сердечной мышцы и др. В таблице 1 представлен пример дискретных количественных данных.
Примером качественного номинального признака предмета исследования являются пол пациента, наличие или отсутствие вредных привычек, занятие пациентом физической культурой и т. д.
Наиболее распространенный пример качественных порядковых данных – ответ на вопрос по пяти-, десяти- и т. д. балльной шкале. Пример пятибалльной шкалы уверенности в каком-либо вопросе, применяющейся при проведении опросов:
1. Да.
2. Скорее да.
3. Затрудняюсь ответить.
4. Скорее нет.
5. Нет.
Каждому из пяти представленных ответов может соответствовать число от 1 до 5 в случае применения порядковой шкалы или от 0 до 1 в случае вероятностной шкалы. Выбор шкалы соответствия ограничивается только фантазией исследователя, и единственное требование, которое возникает при планировании сбора качественных данных – единообразие используемых шкал.
В языке программирования R качественное описание объекта, содержащееся в наборе данных, представляется как тип данных «фактор»39, а значения, принимаемые переменной, имеющей тип «фактор», называются уровнями фактора. В таблице 2 представлен пример факторных данных.
В данном случае идентификатор представлен численно буквенным кодом, идентифицирующим пациента в некоторой базе данных, а пол пациента обозначен буквами «М» (мужской) и «Ж» (женский).
В практике анализа и проведения эксперимента редко встречаются наборы данных, содержащие только количественные или только качественные данные. Чаще всего наборы данных имеют смешанный характер. В таблице 3 представлен пример смешанного набора данных.
Фактически набор данных представляет собой совокупность переменных (название каждого столбца), каждая из которых описывает качественную или количественную характеристику исследуемого объекта или явления. Соответственно, переменные, содержащие только качественные значения, называются факторами. Создание наборов медицинских данных детально рассматривается в курсе «Создание наборов данных»40.
Для каждого типа переменных или их совокупности существует свой набор статистических тестов, позволяющих проводить детальный анализ наличия или отсутствия различий между всевозможными уровнями факторов, наличие связи или отсутствие связей между данными, принадлежащими к разным уровням фактора, которые будут рассмотрены далее. Алгоритм анализа, представленный на рисунке 2, является верным для количественных и смешанных наборов данных. Методы анализа качественных данных не рассматриваются в настоящем учебном пособии.
Ниже представлены примеры наборов данных, содержащих смешанные данные, но с превалирующим количеством качественных переменных и с превалирующим числом количественных данных.
1.1. Пример количественных и качественных данных
В практике анализа наборы данных, содержащие только качественные переменные, возникают при сборе методом опроса или анкетирования (даже в этом случае результаты опроса или анкетирования, скорее всего, будут содержать возраст пациента и время (календарную дату) проведения опроса). То же самое относится и к наборам данных, содержащим только количественные переменные: как правило, присутствует порядковый номер образца, и/или идентификатор пациента и/или гендерный признак пациента. Рассмотрим на примерах некоторые наборы данных, содержащиеся в пакетах языка R, в частности в пакете MASS. Знак «
Листинг 141
#=====================================================
y ap hilo week ID trt
1 y p hi 0 X01 placebo
2 y p hi 2 X01 placebo
3 y p hi 4 X01 placebo
4 y p hi 11 X01 placebo
5 y a hi 0 X02 drug+
6 y a hi 2 X02 drug+
'data.frame’: 220 obs. of 6 variables:
$ y: Factor w/ 2 levels «n», «y»: 2 2 2 2 2 2 1 2 2 2…
$ ap: Factor w/ 2 levels «a», «p»: 2 2 2 2 1 1 1 1 1 1…
$ hilo: Factor w/ 2 levels «hi», «lo»: 1 1 1 1 1 1 1 1 2 2…
$ week: int 0 2 4 11 0 2 6 11 0 2…
Продолжение листинга 1
$ ID: Factor w/ 50 levels «X01», «X02», «X03»,..: 1 1 1 1 2 2 2 2 3 3…
$ trt: Factor w/ 3 levels «placebo», «drug»,..: 1 1 1 1 3 3 3 3 2 2…
Приведенный набор данных содержит в основном «факторы», его уровни представлены естественным языком. Таким представлением в языке R описываются качественные данные, а сам набор данных содержит только один количественный показатель (week), описывающий порядковый номер недели проведения исследования.
Листинг 2
Strip Conc Length
3 S01 1 15.8
4 S01 2 20.8
5 S01 3 22.6
6 S01 4 23.8
9 S02 1 20.6
10 S02 2 26.8