Расчёт объёма выборки при планировании поперечных исследований

Обложка

Цитировать

Полный текст

Аннотация

Поперечные исследования наиболее широко распространены в отечественной медицинской литературе. Однако в подавляющем их большинстве не проводится расчёт размера выборки на этапе планирования, а анализ выполняется с помощью простейших методов статистики. Это не только ограничивает возможности использования данных, но и может привести к ошибочным выводам.

Качество научного исследования определяется грамотным планированием, чёткой постановкой задач и формулировкой статистических гипотез, которые будут проверяться наиболее подходящими для них методами. Одно из центральных мест в этом процессе занимает определение необходимого объёма выборки. В данной статье мы представляем пошаговый алгоритм расчёта объёма выборки, который может применяться для планирования поперечных исследований с различными научными задачами и типами данных. Доступным языком описывается применение самых популярных в биомедицинской литературе методов многомерного анализа данных: логистической регрессии для изучения бинарных исходов и их предикторов и линейной регрессии для оценки независимого влияния нескольких факторов на количественные исходы.

Несмотря на наличие большого числа программ для расчёта объёма выборки, в данной публикации мы демонстрируем применение свободно распространяемой программы G*Power. Программа имеет интуитивно-понятный интерфейс, может применяться для различных статистических тестов и использоваться для расчёта величины эффекта и графического отображения результатов анализа мощности. Каждый этап сопровождается примерами и скриншотами с пошаговым разбором, что делает материал удобным для восприятия и практического применения.

Мы надеемся, что статья станет полезным практическим руководством на этапе планирования исследований и поможет учёным решать большее число задач и оценивать влияние факторов риска на изучаемые исходы с достаточной статистической мощностью.

Об авторах

Никита Андреевич Митькин

Северный государственный медицинский университет

Автор, ответственный за переписку.
Email: n.a.mitkin@gmail.com
ORCID iD: 0000-0002-0027-8155
Россия, 163061, Архангельск, Троицкий проспект, д. 51

Сергей Николаевич Драчев

Северный государственный медицинский университет

Email: drachevsn@mail.ru
ORCID iD: 0000-0002-1548-690X

к.м.н., phd, доцент

Россия, 163061, Архангельск, Троицкий проспект, д. 51

Екатерина Анатольевна Кригер

Северный государственный медицинский университет

Email: kate-krieger@mail.ru
ORCID iD: 0000-0001-5179-5737

к.м.н., доцент

Россия, 163061, Архангельск, Троицкий проспект, д. 51

Виталий Александрович Постоев

Северный государственный медицинский университет

Email: ispha@nsmu.ru
ORCID iD: 0000-0003-4982-4169

к.м.н., phd, доцент

Россия, 163061, Архангельск, Троицкий проспект, д. 51

Андрей Мечиславович Гржибовский

Северный государственный медицинский университет; Северный (Арктический) федеральный университет имени М.В. Ломоносова

Email: a.grjibovski@yandex.ru
ORCID iD: 0000-0002-5464-0498

phd

Россия, 163061, Архангельск, Троицкий проспект, д. 51; Архангельск

Список литературы

  1. Холматова К.К., Горбатова М.А., Харькова О.А., Гржибовский А.М. Поперечные исследования: планирование, размер выборки, анализ данных // Экология человека. 2016. Т. 23, № 2. С. 49–56. doi: 10.33396/1728-0869-2016-2-49-56
  2. Chan Y.H. Biostatistics 102: quantitative data — parametric & non-parametric tests // Singapore Med J. 2003. Vol. 44, N 8. P. 391–396.
  3. Kim H.Y. Analysis of variance (ANOVA) comparing means of more than two groups // Restor Dent Endod. 2014. Vol. 39, N 1. P. 74–77. doi: 10.5395/rde.2014.39.1.74
  4. Rothman K.J., Greenland S., Lash T.L. Modern epidemiology. 3rd ed. Lippincott Williams & Wilkins, 2008. 758 p.
  5. Groenwold R.H., Klungel O.H., Grobbee D.E., Hoes A.W. Selection of confounding variables should not be based on observed associations with exposure // Eur J Epidemiol. 2011. Vol. 26, N 8. P. 589–593. doi: 10.1007/s10654-011-9606-1
  6. Duleba A.J., Olive D.L. Regression analysis and multivariate analysis // Semin Reprod Endocrinol. 1996. Vol. 14, N 2, P. 139–153. doi: 10.1055/s-2007-1016322
  7. Шарашова Е.Е., Холматова К.К., Горбатова М.А., Гржибовский А.М. Применение множественного логистического регрессионного анализа в здравоохранении c использованием пакета статистических программ SPSS // Наука и Здравоохранение. 2017. № 4. С. 5–26.
  8. Agresti A. An introduction to categorical data analysis. 3rd ed. John Wiley & Sons, 2019. 400 с.
  9. Cameron A., Pravin K. Regression analysis of count data. 2nd ed. 1999. doi: 10.1017/CBO9780511814365
  10. Кригер Е.А., Драчев С.Н., Митькин Н.А., и др. Расчет необходимого объема выборки с использованием программы G*Power // Морская медицина. 2023. Т. 9, № 2. С. 111–125. doi: 10.22328/2413-5747-2023-9-2-111-125
  11. Bewick V., Cheek, L., Ball J. Statistics review 14: logistic regression // Critical care. 2005. Vol. 9, N 1. P. 112–118. doi: 10.1186/cc3045
  12. Adler N.E., Epel E.S., Castellazzo G., Ickovics J.R. Relationship of subjective and objective social status with psychological and physiological functioning: preliminary data in healthy white women // Health Psychol. 2000. Vol. 19, N 6. P. 586–592. doi: 10.1037//0278-6133.19.6.586
  13. Neverlien P.O. Assessment of a single-item dental anxiety question // Acta Odontol Scand. 1990. Vol. 48, N 6. P. 365–369. doi: 10.3109/00016359009029067
  14. Hsieh F.Y., Bloch D.A., Larsen M.D. A simple method of sample size calculation for linear and logistic regression // Stat Med. 1998. Vol. 17, N 14. P. 1623–1634. doi: 10.1002/(sici)1097-0258(19980730)17:14<1623::aid-sim871>3.0.co;2-s
  15. Steyerberg E.W., Vergouwe Y. Towards better clinical prediction models: seven steps for development and an ABCD for validation // Eur Heart J. 2014. Vol. 35, N 29. P. 1925–1931. doi: 10.1093/eurheartj/ehu207
  16. Гржибовский А.М., Иванов С.В., Горбатова М.А. Однофакторный линейный регрессионный анализ с использованием программного обеспечения Statistica и SPSS // Наука и Здравоохранение. 2017. № 2. С. 5–33.
  17. Ziegel E.R., Neter J., Kutner M., et al. Applied linear statistical models // Technometrics. 1997. Vol. 39, N 3. P. 342. doi: 10.2307/1271154
  18. Novotny J., Bilokon P., Galiotos A., Délèze F. Machine learning and big data with kdb+/q. 2019. doi: 10.1002/9781119404729
  19. Cohen J. Statistical power analysis for the behavioral sciences. Hillsdale : Lawrence Erlbaum Associates, 1998.
  20. Kang H. Sample size determination and power analysis using the G*Power software // J Educ Eval Health Prof. 2021. Vol. 18. P. 17. doi: 10.3352/jeehp.2021.18.17
  21. International Committee of Medical Journal Editors. Uniform requirements for manuscripts submitted to biomedical journals // JAMA. 1997. Vol. 277, N 11. P. 927–934.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML
2. Рис. 1. Главное диалоговое окно программы G*Power.

Скачать (67KB)
3. Рис. 2. Диалоговое окно программы G*Power с введёнными параметрами и рассчитанным объёмом выборки для логистической регрессионной модели с одной независимой количественной переменной.

Скачать (55KB)
4. Рис. 3. Диалоговое окно программы G*Power с введёнными параметрами и рассчитанным объёмом выборки для логисти- ческой регрессионной модели с одной независимой бинарной переменной.

Скачать (55KB)
5. Рис. 4. Диалоговое окно программы G*Power с введёнными параметрами и рассчитанным объёмом выборки для логисти- ческой регрессионной модели с несколькими независимыми переменными.

Скачать (54KB)
6. Рис. 5. График зависимости объёма выборки от статистической мощности для отношения шансов 1,5 и 2,0, двустороннего теста, распространённости исхода 50%, уровня α-ошибки 0,05, распространённости фактора риска 60% и коэффициента детерминации многомерной модели 0,2.

Скачать (145KB)
7. Рис. 6. Диалоговое окно программы G*Power для проведения апостериорного анализа с целью оценки статистической мощ- ности для логистического регрессионного анализа.

Скачать (52KB)
8. Рис. 7. Диалоговое окно программы G*Power для оценки статистической мощности исследования при следующих входных па- раметрах: двусторонний тест; отношение шансов — 1,5 и выше; распространённость исхода — 25%; уровень α-ошибки — 0,05; объём выборки — 1011; коэффициент детерминации — 0,2; распространённость фактора риска — 15%.

Скачать (53KB)
9. Рис. 8. Диалоговое окно программы G*Power для расчёта «Effect size f2/Размер эффекта» в линейном регрессионном анализе.

Скачать (25KB)
10. Рис. 9. Диалоговое окно программы G*Power с введёнными параметрами расчёта и полученным результатом для простой линейной регрессионной модели.

Скачать (56KB)
11. Рис. 10. Диалоговое окно программы G*Power с введёнными параметрами расчёта и результатом для множественной ли- нейной регрессионной модели с несколькими независимыми переменными.

Скачать (58KB)
12. Рис. 11. Диалоговое окно программы G*Power с введёнными параметрами расчёта квадрата множественного коэффициента корреляции для множественной линейной регрессионной моде- ли с несколькими независимыми переменными.

Скачать (36KB)
13. Рис 12. Диалоговое окно программы G*Power с введёнными параметрами расчёта и результатом для множественной линей- ной регрессионной модели.

Скачать (62KB)

© Эко-Вектор, 2023

Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
 


Согласие на обработку персональных данных

 

Используя сайт https://journals.rcsi.science, я (далее – «Пользователь» или «Субъект персональных данных») даю согласие на обработку персональных данных на этом сайте (текст Согласия) и на обработку персональных данных с помощью сервиса «Яндекс.Метрика» (текст Согласия).