Hypothesis testing using R

Cover Image

Cite item

Abstract

Competencies in statistical data processing are becoming increasingly important for modern scientists. The apparent advantages of open-source software for statistical analysis are its accessibility and adaptability. The programming language and the corresponding software R, available as a minimalistic console interface or a complete development environment RStudio/Posit, have the widest possibilities among free solutions.

We present a practical guide for comparing two groups using the software R. This study compares the effective doses of standard computed tomography with low-dose computed tomography for COVID-19 patients. The practical guide summarizes theoretical approaches to medical data processing and recommendations for correctly formulating research tasks and selecting optimal statistical analysis methods.

The main goal of the practical guide is to introduce the reader to the Posit interface and the basic functionality of the R language by using a practical example of treating a real medical problem. The presented material can be useful as an introduction to statistical analysis using the programming language R.

About the authors

Ivan A. Blokhin

Moscow Center for Diagnostics and Telemedicine

Email: i.blokhin@npcmr.ru
ORCID iD: 0000-0002-2681-9378
SPIN-code: 3306-1387
Russian Federation, Moscow

Maria R. Kodenko

Moscow Center for Diagnostics and Telemedicine; Bauman Moscow State Technical University

Email: KodenkoMR@zdrav.mos.ru
ORCID iD: 0000-0002-0166-3768
SPIN-code: 5789-0319
Russian Federation, Moscow; Moscow

Yuliya F. Shumskaya

Moscow Center for Diagnostics and Telemedicine; The First Sechenov Moscow State Medical University

Email: ShumskayaYF@zdrav.mos.ru
ORCID iD: 0000-0002-8521-4045
SPIN-code: 3164-5518
Russian Federation, Moscow; Moscow

Anna P. Gonchar

Moscow Center for Diagnostics and Telemedicine

Email: a.gonchar@npcmr.ru
ORCID iD: 0000-0001-5161-6540
SPIN-code: 3513-9531
Russian Federation, Moscow

Roman V. Reshetnikov

Moscow Center for Diagnostics and Telemedicine

Author for correspondence.
Email: r.reshetnikov@npcmr.ru
ORCID iD: 0000-0002-9661-0254
SPIN-code: 8592-0558

Cand. Sci. (Phys-Math)

Russian Federation, Moscow

References

  1. Emerson J, Colditz GA. Use of statistical analysis in the New England Journal of Medicine. New Engl J Med. 1983;309(12):709–713. doi: 10.1056/NEJM198309223091206
  2. Ali Z, Bhaskar SB. Basic statistical tools in research and data analysis. Indian J Anaesth. 2016;60(9):662–669. doi: 10.4103/0019-5049.190623
  3. Mishra P, Pandey CM, Singh U, et al. Selection of appropriate statistical methods for data analysis. Ann Card Anaesth. 2019;22(3):297–301. doi: 10.4103/aca.ACA_248_18
  4. Dwivedi AK, Shukla R. Evidence-based statistical analysis and methods in biomedical research (SAMBR) checklists according to design features. Cancer Rep (Hoboken). 2020;3(4):e1211. doi: 10.1002/cnr2.1211
  5. Rigby PC, German DM, Cowen L, et al. Peer review on open-source software projects: Parameters, statistical models, and theory. ACM Trans Softw Eng Methodol. 2014;23(4):35.
  6. Culpepper SA, Aguinis H. R is for revolution: A cutting-edge, free, open source statistical package. Organizational Research Methods. 2011;14(4):735–740.
  7. Ihaka R, Gentleman R. R: A language for data analysis and graphics. J Computational Graphical Statistics. 1996;5(3):299–314. doi: 10.1080/10618600.1996.10474713
  8. Niu G, Segall RS, Zhao Z, et al. A survey of open source statistical software (OSSS) and their data processing functionalities. Int J Open Source Software Processes. 2021;12(1):1–20. doi: 10.4018/IJOSSP.2021010101
  9. Shatenok MP, Ryzhov SA, Lantukh ZA, et al. Patient dose monitoring software in radiology. Digital Diagnostics. 2022;3(3):212–230. (In Russ). doi: 10.17816/DD106083
  10. Druzhinina UV, Ryzhov SA, Vodovatov AV, et al. Coronavirus Disease-2019: Changes in computed tomography radiation burden across Moscow medical facilities. Digital Diagnostics. 2022;3(1):5–15. (In Russ). doi: 10.17816/DD87628
  11. Gombolevskiy V, Morozov S, Chernina V, et al. A phantom study to optimise the automatic tube current modulation for chest CT in COVID-19. Eur Radiol Exp. 2021;5(1):21. doi: 10.1186/s41747-021-00218-0
  12. Blokhin I, Gombolevskiy V, Chernina V, et al. Inter-observer agreement between low-dose and standard-dose CT with soft and sharp convolution kernels in COVID-19 pneumonia. J Clin Med. 2022;11(3):669. doi: 10.3390/jcm11030669
  13. Blokhin IA, Gonchar AP, Kodenko M, et al. Impact of body mass index on the reliability of the CT0–4 grading system: A comparison of computed tomography protocols. Digital Diagnostics. 2022;3(2):108–118. (In Russ). doi: 10.17816/DD104358
  14. Kennedy-Shaffer L. Before p<0.05 to beyond p<0.05: Using history to contextualize p-values and significance testing. Am Stat. 2019;73(Suppl. 1):82–90. doi: 10.1080/00031305.2018.1537891
  15. Romão X, Delgado R, Costa A. An empirical power comparison of univariate goodness-of-fit tests for normality. J Statist Computation Simulat. 2010;80(5):545–591. doi: 10.1080/00949650902740824
  16. Lumley T, Diehr P, Emerson S, Chen L. The Importance of the normality assumption in large public health data sets. Ann Rev Pub Health. 2002;23(1):151–169. doi: 10.1146/annurev.publhealth.23.100901.140546
  17. Mishra P, Pandey CM, Singh U, et al. Descriptive statistics and normality tests for statistical data. Ann Card Anaesth. 2019;22(1):67–72. doi: 10.4103/aca.ACA_157_18

Supplementary files

Supplementary Files
Action
1. JATS XML
2. Fig. 1. The Posit interface shows areas of the console, environment, and files.

Download (187KB)
3. Fig. 2. The Posit interface after importing the file. In the upper-left quadrant of the screen, a window with loaded columns of the data set. In the upper-right quadrant, the number of columns (variables) and rows (obs., observations).

Download (217KB)
4. Fig. 3. Generating a separate variable for the effective dose of computed tomography with the functions of each command element is indicated.

Download (90KB)
5. Fig. 4. The Posit window after importing the file and assigning values to the variables. In the upper-right quadrant, new variables with preview of the first five values in each. In the lower-left quadrant, a console interface for commands.

Download (182KB)
6. Fig. 5. Area with Posit console interface. Testing for normal data distribution using the Shapiro−Wilk test.

Download (153KB)
7. Fig. 6. Using a Wilcoxon with functions of each command element indicated.

Download (85KB)
8. Fig. 7. Testing the null hypothesis of the study using the Wilcoxon test.

Download (110KB)

Copyright (c) 2023 Eco-Vector

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».