Бутстреппинг - определение доверительных интервалов статистических оценок по выборке

Бутстреппинг - определение доверительных интервалов статистических оценок по выборке

(J Martin Bland, Douglas G Altman, Bootstrap resampling methods. BMJ 2015;350:h2622)

В медицинском исследовании мы изучаем некоторую группу людей, чтобы сделать вывод о всей популяции. Интересующие нас оценки, такие как среднее или разброс, обычно вычисляются вместе с доверительным интервалом, основанным на предположении о нормальности распределения. Данные единственной выборки используются для определения вариации интересуемой величины между (гипотетически) разными выборками из той же популяции.1 Поскольку у нас есть только одна выборка, мы должны сделать некоторые предположения о наших данных. Большинство методов анализа называются параметрическими, поскольку включают предположения о распределении данных, например, их соответствии нормальному распределению. Непараметрические методы не делают никаких предположений о распределении, но обычно дают только оценку самого параметра, без доверительного интервала.2

Для конкретных данных сделанные предположения могут не выполняться. В таких случаях существует альтернативный путь оценки стандартной ошибки или доверительного интервала без предположений о распределении вероятностей. Мы используем имеющуюся выборку и проводим процедуру повторной выборки (resampling), называемую бутстреппинг. (В обычном понимании, бутстреппинг - это самоподдерживающийся процесс, не требующий внешнего вмешательства.)

Основной идеей бутстреппинга является создание множества выборок из имеющихся данных без необходимости что-то предполагать. Если мы считаем имеющуюся выборку репрезентативной для исследуемой популяции, то набор произвольно выбранных элементов из данной выборки также будет репрезентативным для исходной популяции. Мы можем получить выборку того же размера, случайно выбирая отдельные наблюдения из исходной выборки. Каждое наблюдение имеет равные шансы быть выбранным, некоторые наблюдения будут выбраны несколько раз, и некоторые не выбраны ни разу. Это не имеет значения, новая выборка ("страп") сравнима с исходной и в той же степени репрезентативна.

Например, CADET3 является рандомизированным контролируемым исследованием, сравнивающим совместное лечение депрессии, выявленной при первичном обследовании, с обычным лечением. Исследуемым параметром был показатель депрессии по шкале PHQ-9, данные были получены на 505 пациентах. Полученная оценка средней разности (совместное лечение минус обычное) была −1.33 по шкале PHQ-9 (95% доверительный интервал: −2.31 ... −0.35), выровненная по базовой линии PHQ-9, возрасту, размеру выборки, индексу нищеты населения, городу и кластеру.

Мы сформировали другой набор из 505 наблюдений, полученный из исходной выборки, как описано выше. Полученная новая выборка в 505 наблюдений содержала 313 исходных наблюдений, некоторые были выбраны один раз, некоторые больше чем раз, максимум до пяти раз. Для новой выборки был проведен тот же регрессионный анализ эффективности лечения, что и для исходных данных, который дал немного другой результат оценки средней разности в −1.25 единиц.

Мы должны повторить описанный процесс ресемплинга много раз, и использовать полученную вариабельность параметра для оценки его доверительного интервала. Распределение оценки эффективности лечения, полученное по 1000 повторных выборок из CADET данных показана на рисунке ниже. Среднее и стандартное отклонение для данного распределения −1.353 и 0.565 соответственно. Стандартное отклонение даёт альтернативную оценку стандартной ошибки средней разности эффективности лечения без использования каких-либо предположений о распределении исходных данных.
Есть два пути использовать бутстрепинг-оценки для получения доверительного интервала. Если полученное распределение рассчитанного параметра близко к нормальному, как это было в нашем случае, 95% доверительный интервал будет от −1.353−(1.96×0.565) до −1.353+(1.96×0.565), или от −2.46 до −0.25. Этот интервал схож с полученным при использовании стандартной ошибки из метода наименьших квадратов по исходным данным.
Другой подход - получить 95% доверительный интервал напрямую из 2.5 и 97.5 центилей полученного распределения. Для наших данных рассчитанный этим методом доверительный интервал составил от −2.44 до −0.26. Второй подход может быть использован независимо от распределения полученных бутстрап-оценок.


Гистограмма 1000 оценок эффективности лечения, полученная методом повторных выборок (resampling) из CADET данных, с соответствующей кривой нормального распределения, средним, 2.5 and 97.5 центилями.

Ясно, что нам требуется достаточное количество повторов чтобы получить стабильные оценки, обычно используют тысячи бутстрап выборок, особенно когда используют наблюдаемые центили полученного распределения оценки. Бутстрап анализ CADET данных дал почти идентичные значения среднего (−1.335) и стандартного отклонения (0.567).

Эта заметка раскрывает основную идею бутстрапинга, существует множество его вариантов4. Мы можем получить бутстрап оценку для любой величины, вычисленной по нашим данным. Бутстрап методы охотно используют  в экономике здравоохранения, поскольку ценовые данные часто искажены и не подходят для традиционных методов оценки5. Они также полезны для сложных наборов данных, например, когда наблюдения не независимы.

Ссылки

  1. Altman DG, Bland JM. Standard deviations and standard errors. BMJ2005;331:903. FREE Full Text
  2. Altman DG, Bland JM. Parametric v nonparametric methods for data analysis. BMJ2009;338:a3167. FREE Full Text
  3. Richards DA, Hill JJ, Gask L, et al. Clinical effectiveness of collaborative care for depression in UK primary care (CADET): cluster randomised controlled trial. BMJ2013;347:f4913. Abstract/FREE Full Text
  4. Carpenter J, Bithell J. Bootstrap confidence intervals: when, which, what? A practical guide for medical statisticians. Stat Med2000;19:1141-64. CrossRefMedlineWeb of Science
  5. Schroeder E, Petrou S, Patel N, et al. Cost effectiveness of alternative planned places of birth in woman at low risk of complications: evidence from the Birthplace in England national prospective cohort study. BMJ2012;344:e2292. Abstract/FREE Full Text
Comments