Experience in developing graphical user interface to R programming language for clinical and experimental data analysis

Cover Page

Abstract

Aim. To develop the software product for of medical data analysis and public health indicators presentation. Methods. R_MED software - an interface for typical experimental, clinical and laboratory, epidemiologic analysis using the R system opportunities - was developed. Results. Functionally, the program consists of the following blocks: «Load Data», «Settings», «Basic calculations», «Data Mining», «Presentation of health indicators». Interface simplifying is also achieved by the inclusion of only those methods that are most often required in medical data analysis. So, the «Basic calculation» unit includes the following statistical calculations: descriptive statistics for quantitative variables, frequency tables, bar charts and box plots, Pearson’s correlation matrix, Pearson’s linear correlation, Spearman’s rank correlation, Spearman’s correlation matrix, 2D scatter plots, defining the difference in two independent sample groups using Student’s test and the Mann-Whitney test, analysis of variance (ANOVA). In the «Settings» unit, a user can choose a set of variables and observations for analysis, to change the set of features for any value, to add, delete, rename the variable, and optionally customize the «Load Data» mode, the basic calculation, and data output. The program provides the ability to visualize data using «Presentation of health indicators» block in the context of territory, year and variant. Territorial cuts can be differentiated into three levels: municipal, regional, district (Federal District) level. To construct the maps, vector data on all 3 spatial levels are stored in the R_MED system, including the Federal Districts of Russian Federation. Conclusion. Originally developed for research problems solving of pathology risk forecasting, the R_MED program, if configured properly, can also be used in other clinical diagnostic and epidemiological studies to monitor problems of socially significant diseases and of health services, as well as in the preparation of annual statistical reports, including the regional level.

Full Text

При выполнении научно-исследовательских работ необходимо высокое качество анализа данных. Наряду с этим при решении проблемы целесообразна оценка показателей в динамике, а при проведении эпидемиологического и социально-гигиенического мониторирования для оценки состояния здоровья населения в разрезах «территория-год-показатель» требуется программа, сочетающая в себе функции анализа данных и представления показателей с простым графическим пользовательским интерфейсом. Большие возможности для этого предоставляет распространяемый на условиях стандартной общественной лицензии GNU программный продукт R (среда и язык программирования), предназначенный для статистического анализа данных [9]. Мощный язык программирования R, включающий более 4000 библиотек функций в исходном коде, в которых реализованы современные алгоритмы анализа и визуализации данных, позволяет создавать типовые исследовательские рабочие места, удовлетворяющие перечисленным выше требованиям. Создание графического пользовательского интерфейса в R по сути означает выбор из имеющегося в R подмножества функций для решения определённого круга задач и создание программы, обеспечивающей их комфортный для конкретного пользователя вызов, анализ и вывод результатов. В центральной научно-исследовательской лаборатории ГБОУ ВПО «Омская государственная медицинская академия» Минздрава России была разработана программа R_MED - интерфейс для решения некоторых типовых задач анализа экспериментальных, клинико-лабораторных и эпидемиологических данных с использованием возможностей системы R. Функционально программа состоит из следующих блоков: «Загрузка данных», «Настройка», «Базовый расчёт», «Data Mining», «Представление показателей здравоохранения». Основные решения, обеспечивающие интеллектуализацию системы, и, следовательно, упрощение пользовательского интерфейса, таковы: - интеграция большого количества процедур статистического анализа в один расчётный блок «Базовый расчёт»: описательные статистики для количественных переменных, таблицы частот, гистограммы и бокс-графики, корреляционная матрица эллипсов (Пирсон), количественные корреляции Пирсона, порядковые корреляции Спирмена, корреляционная матрица эллипсов (Спирмен), диаграммы рассеяния на плоскости, определение различий в двух независимых групповых выборках с применением критериев Стьюдента и Манна-Уитни, дисперсионный анализ ANOVA (рис. 1); - возможность переменной иметь несколько типов (свойств): числовая, категориальная, упорядоченная, бинарная, целевая (зависимая), ключевая, группирующая, дата, год, территория, табличная (количество случаев); это позволяет выполнить «Базовый расчёт» или любую процедуру «Data Mining» без дополнительной настройки. Упрощение интерфейса достигается также включением в программу только тех методов анализа данных, которые наиболее часто необходимы при анализе медицинских данных. В «Настройке» пользователь может выбрать для анализа набор переменных и наблюдений, изменить набор свойств любой переменной, добавить, удалить, переименовать переменную, а также опционально настроить режим загрузки данных, базового расчёта и вывода. Загрузка данных происходит из файла базы данных, сформированной пользователем в программе Microsoft Excel. Объём выходных данных существенно зависит от задаваемого пользователем критического значения p (pкр). В процедурах с использованием критерия статистической значимости выдаются только те результаты, для которых p ≤p кр. В «Базовом расчёте» объединены следующие аналитические процедуры: анализ частот и пропусков для категориальных переменных, получение основных статистических количественных характеристик, определение возможных статистических связей между показателями и группами данных, визуализация данных. Для решения этих задач проводятся предварительный анализ, корреляционный анализ, анализ таблиц сопряжённости, проверка статистических гипотез, визуализация данных. Затем отбираются результаты с заданной в настройке степенью статистической значимости. Анализируемая выборка сначала в автоматическом режиме проверяется Рис. 1. Пример вывода результатов проведения базового расчёта при анализе экспериментальных данных общего анализа крови крыс. на соответствие нормальному распределению (с использованием теста Шапиро), по результату проверки также автоматически определяются применяемые статистические методы (параметрические или непараметрические). Групповые сравнения проводятся между группами, сформированными по значениям группирующей переменной. Если задано несколько группирующих переменных, то группы формируются путём комбинации значений различных группирующих переменных. Если группирующая переменная не задана, то группы для сравнения формируются из дихотомических переменных (имеющих только два значения). Предусмотрен режим создания группирующих переменных из переменных, имеющих более двух значений. Чтобы избежать ошибок, связанных с проблемой множественных сравнений, кроме значения р, выводится количество сравнений. Отчёты выдаются в текстовые и графические файлы, доступ к которым осуществляется через web-браузер [14]. Объединение множества аналитических статистических процедур в один расчёт также помогает обеспечить повторяемость исследования с другими данными, так как в этом случае требуется меньшее количество исследовательских транзакций. Блок «Data Mining» включает процедуры классификации, кластеризации, регрессии и др. Практически все процедуры этого блока требуют задания целевой (зависимой) переменной, которая либо означает зависимую переменную в регрессии, либо обозначает класс в задачах классификации. Для кластерного анализа предлагается два метода: k-means [8] и иерархический кластерный. Для решения задач классификации включены следующие методы: «Линейный дискриминантный анализ», «Классификация по Naive Bayes», «Метод опорных векторов» [13], «Дерево классификации» [11], «Случайный лес» [7]. Алгоритм «Случайный лес», кроме решения задач классификации, используется для определения значимости переменных для выбранной классификации. Регрессионный анализ включает линейную регрессию, логистическую регрессию, авторегрессионный анализ. В линейной регрессии дополнительно автоматически отбирается наиболее оптимальный для регрессии набор независимых переменных по методу AIC (информационный критерий Акаике) [13]. В логистической регрессии одновременно после получения регрессионного уравнения применяется ROC-анализ [1, 3]. В авторегрессионном анализе, используемом для получения прогнозных значений, программой выбирается оптимальная длина временного ряда, используемого в прогнозе [2, 5]. Основные элементы «Представления показателей здравоохранения» - территория, год, показатель. Чаще всего территориальные разрезы могут дифференцироваться по трём уровням: муниципальный, субъектовый, окружной (федеральный округ) (рис. 2-4). Для построения карт в системе R_MED хранятся векторные данные по всем трём территориальным уровням, включая федеральные округи Российской Федерации. Для отображения карт использовались функции библиотек R [6, 10, 12]. На любом территориальном уровне программа выдаёт таблицы, гистограммы, динамику показателей, карты (в том числе в интерактивном режиме), гистограмму показателей со статистически значимым ростом или убыванием показателя за выбранный период и др. Включена кластеризация территорий с отображением кластеров на карте, гистограмме и в текстовой таблице. Предусмотрены сборка и вы
×

About the authors

T I Dolgikh

Omsk State Medical Academy, Omsk, Russia

D A Serbaev

Omsk State Medical Academy, Omsk, Russia

G V Chekmarev

Omsk State Medical Academy, Omsk, Russia

Email: german_1984@inbox.ru

T V Kadcyna

Omsk State Medical Academy, Omsk, Russia

References

  1. Bowman E., Crawford G., Alexander G. et al. Rpanel: simple interactive controls for R functions using the tcltk package // J. Statistical Software. - 2007. - Vol. 17,N 9. - P. 1-18.
  2. Carstensen M., Plummer E., Laara E. et al. Epi: a package for statistical analysis in epidemiology. R package version 1.1.34. - http://CRAN.R-project.org/package=Epi (дата обращения: 04.12.2012).
  3. Chongsuvivatwong V. Epicalc: epidemiological calculator. R package version 2.14.1.6. - http://CRAN.Rproject. org/package=epicalc (дата обращения: 04.12.2012).
  4. Fox J. The R commander: a basic statistics graphical user interface to R // J. Statistical Software. - 2005. - Vol. 14,N 9. - P. 1-42.
  5. Hyndman R.J., Razbash S. Drew Schmidt forecasting functions for time series and linear models. R package version 3.20. - http://CRAN.R-project.org/ package=forecast (дата обращения: 04.12.2012).
  6. Ihaka R., Murrell P., Hornik K. et al. Color space manipulation. R package version 1.1-1. - http://CRAN.Rproject. org/package=colorspace (дата обращения: 04.12.2012).
  7. Liaw W.M. Classification and regression by random forest // R News. - 2002. - Vol. 2,N 3. - P. 18-22.
  8. Maechler M., Rousseeuw P., Struyf A. et al. Cluster analysis basics and extensions. R package version 1.14.3. - http://cran.r-project.org/web/packages/cluster/cluster.pdf (дата обращения: 04.12.2012).
  9. R Core Team. R: a language and environment for statistical computing. R foundation for statistical computing. - Vienna, Austria. - http://www.R-project.org/ (дата обращения: 04.12.2012).
  10. Richard A., Becker R., Wilks A.R. et al. Draw geographical maps. R package version 2.2-5. - http://CRAN.R-project.org/ package=maps (дата обращения: 04.12.2012).
  11. Ripley B. Classification and regression trees. R package version 1.0-29. - http://cran.r-project.org/web/ packages/tree/tree.pdf (дата обращения: 04.12.2012), http://CRAN.R-project.org/package=maptree (дата обращения: 04.12.2012).
  12. Roger S.B., Edzer P.J., Virgilio G.-R. Applied spatial data analysis with R. - Springer, NY, 2008. - 376 p.
  13. Venables W.N., Ripley B.D. Modern applied statistics with S. Fourth Edition. - Springer, New York, 2002. - 495 p.
  14. Verzani J.G. Widgets API for building toolkitindependent, interactive GUIs. Based on the iwidgets code of Simon Urbanek, suggestions by Simon Urbanek, Philippe Grosjean and Michael Lawrence gWidgets. R package version 0.0-52. - http://CRAN.R-project.org/ package=gWidgets (дата обращения: 06.03.2013).

Statistics

Views

Abstract: 298

PDF (Russian): 192

Dimensions

Article Metrics

Metrics Loading ...

PlumX


© 2013 Dolgikh T.I., Serbaev D.A., Chekmarev G.V., Kadcyna T.V.

Creative Commons License

This work is licensed
under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.





This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies