Квартили, квинтили, центили, и другие квантили

Квартили, квинтили, центили, и другие квантили

(J. Martin Bland, Douglas G. Altman Quartiles, quintiles, centiles and other quantiles.- BMJ 1994;v.309: p.996)

При анализе результатов измерения непрерывной переменной иногда полезно сгруппировать результаты в несколько равных групп. Например, чтобы получить четыре равные группы, необходимо иметь значения, делящие исходные данные по 25% в каждой группе. Существуют три такие значения (точки деления), которые называются квартилями (quartile), при этом средняя из них также называется медианой (см. рисунок). Аналогично, можно использовать два тертиля (tertile), чтобы разбить данные на три группы, четыре квинтиля (quintile), чтобы разбить их на пять групп, и так далее. Общий термин для таких точек раздела -- квантили. Другие термины, которые Вы вероятно встретите -- децили (decile), которые делят данные на 10 частей, и центили (centile), которые делят данные на 100 частей (их также называют процентилями). Значения типа квартилей могут быть выражены через центили; например, самый левый квартиль равен 25ому центилю, а медиана -- 50ому центилю.

Наиболее общее заблуждение -- это использование терминов тертили, квартили, квинтили, и т.д., не для обозначения точек отсечки, а для групп данных, полученных таким образом. Однако правильное их название: третья часть, четверть, пятая часть, и так далее.

Ниже мы рассмотрим некоторые общие приложения квантилей.

Описание данных. Среднее значение и стандартное отклонение часто используются для описания совокупности наблюдений. Однако, когда данные имеют несимметричное (негауссово) распределение, как на рисунке, тогда предпочтительно указывать медиану и два внешних центиля, например 10й и 90й. Иногда используют первый и третий квартили (25ый и 75й центили). Медиана -- очень полезная итоговая статистика, когда некоторые из значений не были реально измерены -- например, вышли за диапазон измеряющего оборудования. Медиана часто используется при анализе данных по выживанию, когда для некоторых подопытных особей это время может быть неизвестным.

Доверительный интервал и центили. Особый вид описания данных -- определение доверительного интервала (диапазона ожидаемых значений). 95%й доверительный интервал определяется отсечением по 2.5% данных с каждого конца распределения. (Эти значения часто справедливо называют 2.5 и 97.5ым центилями, хотя и не совсем корректно делить центили пополам). Доверительный интервал широко используется в клинической химии. Точно также на номограммах для оценки роста и размера человека обычно изображены центили.1 Граничные центили иногда определяют исходя из нормального распределения,2 при этом каждое новое наблюдение может быть помещено в определенный центиль.

Анализ непрерывных переменных. Непрерывные переменные, например концентрацию холестерола или дыхательный объем легких, в статистических исследованиях часто также делят на несколько диапазонов. Для этой цели обычно используют квантили, чтобы во всех группах было равное число измерений. При такой группировке часть информации теряется, но появляется возможность представить данные в более простом виде, например, в виде таблиц. Чем меньше групп, тем больше информации теряется. В регрессионном анализе непрерывные независимые переменные иногда делят по амплитуде на две или более групп. Это слегка усложняет анализ, но позволяет избежать предположения о линейном соотношении между двумя анализируемыми величинами. Однако, такой подход ведет к модели, в которой вероятность изменяется скачками при некоторых значениях переменной, а не равномерно увеличивается.

Вычисление квантилей. Вычисление центилей и других квантилей не настолько просто, как может показаться. Данные должны быть упорядочены от 1 до n в порядке возрастания. Kй центиль получается вычислением величины q=k*(n+1)/100 и ее последующей интерполяцией между двумя ближайшими к q значениями данных (бо'льшим и меньшим). Например, для 5ого центиля выборки из 145 наблюдений мы имеем q=5*146/100=7/3. Таким образом, 5-ый центиль находится на 3/10 расстояния от 7го к 8му упорядоченному наблюдениям. Если значения этих данных равны 11.4 и 14.9 соответственно, то искомый центиль равен 12.45. Доверительные интервалы могут быть построены для любого квантиля.3

  1. Cole T.J. Do growth charts need a face lift? BMJ 1994;308:611-2.
  2. Altman D.G. Practical statisties for meidcal research. London. Chaptman and Hall 1991:419-26.
  3. Campbell MJ, Gardner MJ Calculating confidence intervals for some non parametric analyses. In: Gardner MJ, Altman DG, etc. Statistics with confidence. London: British Medical Journal, 1989, 74-9
Comments