Корреляция, регрессия и повторяющиеся данные
(Bland JM, Altman DG. Correlation, regression, and repeated data.
BMJ April 1994; v.308, p.896)
В клинических исследованиях (например, при исследовании зависимости
между какими-либо двумя параметрами состояния пациента) часто проводят
несколько повторных измерений на одном и том же пациенте. Анализ данных
в этом случае становится несколько более сложным, чем если бы каждый пациент
обследовался один раз. Дело в том, что разброс величин, полученных с разных
пациентов, обычно гораздо больше, чем у полученных с одного пациента, и
эту особенность необходимо учитывать при анализе. Такие повторяющиеся данные
нарушают предположение о независимости отдельных измерений, присутствующее
во многих статистических тестах, таких как t-тест Стьюдента и регрессионный
анализ. Иногда исследователи сводят все данные вместе, как если бы они
были зарегистрированы с одного объекта. Большинство руководств по статистике
не предупреждают о недопустимости подобного подхода, поскольку авторам
и в голову не приходит, что кто-то может так поступить.
Рассмотрим пример, в котором данные были сгенерированы случайным образом
и между X и Y нет абсолютно никакой связи. Сначала, величины X и Y были
сгенерированы для каждого "пациента", а затем к ним были добавлены дополнительные
случайные числа чтобы получить результаты "отдельных измерений". Данные
представлены в таблице и на рисунке. Если рассматривать каждого пациента
в отдельности, то корреляция между X и Y не значима. Мы имеем только пять
пациентов и, соответственно, пять точек. Используя средние величины для
каждого пациента, получаем коэффициент корреляции r = -0.67, число степеней
свободы (вычисляется как N-2) df = 3, уровень значимости (необходимое значение
<0.05) P =0.22. Однако, сведя все 25 измерений вместе, мы получим r
= 0.47, df = 23, P = 0.02. Хотя этот коэффициент корреляции меньше, чем
полученный по средним значениям, но из-за большого числа наблюдений (25)
он становится значимым. В последнем случае число степеней свободы, использованное
для вычисления уровня значимости, было увеличено неккоректно, как если
бы мы имели 25 пациентов, что и привело к ошибочному заключению о зависимости
исследуемых параметров.
Критический случай возникает, когда мы имеем всего двух пациентов с
повторными наблюдениями для каждого. В результате мы получаем два скопления
точек, группирующихся вокруг средних значений. Естественно, мы получим
высокий корреляционный коэффициент, который будет выглядеть значимым несмотря
на то, что между параметрами нет вообще никакой взаимосвязи.
Имеются два простых подхода к анализу таких данных. Если мы хотим знать,
имеют ли пациенты с высоким значением X также высокие значения Y, то мы
можем использовать средние значения X и Y для каждого пациента и найти
коэффициент корреляции между ними. При различном числе наблюдений для каждого
пациента можно использовать весовые коэффициенты в зависимости от числа
наблюдений. Если мы хотим знать, являются ли изменения двух параметров
синхронными у каждого из пациентов, то это можно оценить используя множественную
регрессию. В любом случае нельзя смешивать наблюдения, полученные на одном
и на разных пациентах при проведении корреляционного или регрессионного
анализа.
Смоделированные данные, представляющие пять пар измерений двух
некоррелированных величин для пациентов 1, 2, 3, 4 и 5.
|
Пациент 1
|
Пациент 2
|
Пациент 3
|
Пациент 4
|
Пациент 5
|
|
48 58
56 53
49 44
38 53
50 56
|
63 28
74 24
69 26
55 19
73 22
|
38 40
56 41
46 40
43 41
52 34
|
51 46
46 36
36 41
49 43
46 45
|
55 62
51 50
54 66
46 51
55 52
|
Средние значения
|
48.2 52.8
|
66.8 23.8
|
47.0 39.2
|
45.6 42.2
|
52.2 56.2
|
коэфф.корреляции
значимость
|
r -002
P 097
|
r 032
P 059
|
r -030
P 063
|
r 037
P 055
|
r 055
P 033
|
Смоделированные данные, представляющие пять пар измерений двух
некоррелированных величин (Х и У) для пяти пациентов.