Experience in developing graphical user interface to R programming language for clinical and experimental data analysis

T I Dolgikh; Долгих Татьяна Ивановна; D A Serbaev; Сербаев Дмитрий Александрович; G V Chekmarev; Чекмарев Герман Викторович; T V Kadcyna; Кадцына Татьяна Владимировна

doi:10.17816/KMJ1918

Опыт применения графического пользовательского интерфейса в среде R для анализа клинических и экспериментальных данных

Авторы: Долгих Т.И.¹, Сербаев Д.А.¹, Чекмарев Г.В.¹, Кадцына Т.В.¹
Учреждения:
1. Омская государственная медицинская академия
Выпуск: Том 94, № 5 (2013)
Страницы: 677-681
Раздел: Актуальные проблемы биохимии и лабораторной диагностики
Статья получена: 28.03.2016
Статья опубликована: 15.10.2013
URL: https://kazanmedjournal.ru/kazanmedj/article/view/1918
DOI: https://doi.org/10.17816/KMJ1918
ID: 1918

Цитировать

Полный текст

Аннотация
Полный текст
Об авторах
Список литературы
Дополнительные файлы
Статистика

Аннотация

Цель. Разработка программного продукта для анализа медицинских данных и представления показателей здравоохранения. Методы. Разработана программа R_MED - интерфейс для решения некоторых типовых задач анализа экспериментальных, клинико-лабораторных и эпидемиологических данных с использованием возможностей системы R. Результаты. Функционально программа состоит из следующих блоков: «Загрузка данных», «Настройка», «Базовый расчёт», «Data Mining», «Представление показателей здравоохранения». Упрощение интерфейса достигается также включением в программу только тех методов анализа данных, которые наиболее часто необходимы при анализе медицинских данных. Так, в «Базовый расчёт» включены следующие процедуры статистического анализа: описательные статистики для количественных переменных, таблицы частот, гистограммы и бокс-графики, корреляционная матрица эллипсов (Пирсон), количественные корреляции Пирсона, порядковые корреляции Спирмена, корреляционная матрица эллипсов (Спирмен), диаграммы рассеяния на плоскости, определение различий в двух независимых групповых выборках с применением критериев Стьюдента и Манна-Уитни, дисперсионный анализ ANOVA. В «Настройке» пользователь может выбрать для анализа набор переменных и наблюдений, изменить набор свойств любой переменной, добавить, удалить, переименовать переменную, а также опционально настроить режим загрузки данных, базового расчёта и вывода. В программе предусмотрена возможность визуализации данных с помощью блока «Представление показателей здравоохранения» в разрезе «территория», «год», «показатель». Территориальные разрезы могут дифференцироваться по трём уровням: муниципальный, субъектовый, окружной (федеральный округ). Для построения карт в системе R_MED хранятся векторные данные по всем трём территориальным уровням, включая федеральные округи Российской Федерации. ВЫВОД. Первоначально разработанная для решения исследовательских задач по прогнозированию риска развития патологии программа R_MED при соответствующей настройке также может быть использована в других клинико-диагностических и эпидемиологических исследованиях с целью мониторирования социально значимых заболеваний и деятельности служб здравоохранения, а также при подготовке годовых статистических отчётов, вплоть до уровня региона.

Ключевые слова

организация здравоохранения, анализ данных, статистика, система R, графический пользовательский интерфейс, представление показателей здравоохранения

Полный текст

При выполнении научно-исследовательских работ необходимо высокое качество анализа данных. Наряду с этим при решении проблемы целесообразна оценка показателей в динамике, а при проведении эпидемиологического и социально-гигиенического мониторирования для оценки состояния здоровья населения в разрезах «территория-год-показатель» требуется программа, сочетающая в себе функции анализа данных и представления показателей с простым графическим пользовательским интерфейсом. Большие возможности для этого предоставляет распространяемый на условиях стандартной общественной лицензии GNU программный продукт R (среда и язык программирования), предназначенный для статистического анализа данных [9]. Мощный язык программирования R, включающий более 4000 библиотек функций в исходном коде, в которых реализованы современные алгоритмы анализа и визуализации данных, позволяет создавать типовые исследовательские рабочие места, удовлетворяющие перечисленным выше требованиям. Создание графического пользовательского интерфейса в R по сути означает выбор из имеющегося в R подмножества функций для решения определённого круга задач и создание программы, обеспечивающей их комфортный для конкретного пользователя вызов, анализ и вывод результатов. В центральной научно-исследовательской лаборатории ГБОУ ВПО «Омская государственная медицинская академия» Минздрава России была разработана программа R_MED - интерфейс для решения некоторых типовых задач анализа экспериментальных, клинико-лабораторных и эпидемиологических данных с использованием возможностей системы R. Функционально программа состоит из следующих блоков: «Загрузка данных», «Настройка», «Базовый расчёт», «Data Mining», «Представление показателей здравоохранения». Основные решения, обеспечивающие интеллектуализацию системы, и, следовательно, упрощение пользовательского интерфейса, таковы: - интеграция большого количества процедур статистического анализа в один расчётный блок «Базовый расчёт»: описательные статистики для количественных переменных, таблицы частот, гистограммы и бокс-графики, корреляционная матрица эллипсов (Пирсон), количественные корреляции Пирсона, порядковые корреляции Спирмена, корреляционная матрица эллипсов (Спирмен), диаграммы рассеяния на плоскости, определение различий в двух независимых групповых выборках с применением критериев Стьюдента и Манна-Уитни, дисперсионный анализ ANOVA (рис. 1); - возможность переменной иметь несколько типов (свойств): числовая, категориальная, упорядоченная, бинарная, целевая (зависимая), ключевая, группирующая, дата, год, территория, табличная (количество случаев); это позволяет выполнить «Базовый расчёт» или любую процедуру «Data Mining» без дополнительной настройки. Упрощение интерфейса достигается также включением в программу только тех методов анализа данных, которые наиболее часто необходимы при анализе медицинских данных. В «Настройке» пользователь может выбрать для анализа набор переменных и наблюдений, изменить набор свойств любой переменной, добавить, удалить, переименовать переменную, а также опционально настроить режим загрузки данных, базового расчёта и вывода. Загрузка данных происходит из файла базы данных, сформированной пользователем в программе Microsoft Excel. Объём выходных данных существенно зависит от задаваемого пользователем критического значения p (pкр). В процедурах с использованием критерия статистической значимости выдаются только те результаты, для которых p ≤p кр. В «Базовом расчёте» объединены следующие аналитические процедуры: анализ частот и пропусков для категориальных переменных, получение основных статистических количественных характеристик, определение возможных статистических связей между показателями и группами данных, визуализация данных. Для решения этих задач проводятся предварительный анализ, корреляционный анализ, анализ таблиц сопряжённости, проверка статистических гипотез, визуализация данных. Затем отбираются результаты с заданной в настройке степенью статистической значимости. Анализируемая выборка сначала в автоматическом режиме проверяется Рис. 1. Пример вывода результатов проведения базового расчёта при анализе экспериментальных данных общего анализа крови крыс. на соответствие нормальному распределению (с использованием теста Шапиро), по результату проверки также автоматически определяются применяемые статистические методы (параметрические или непараметрические). Групповые сравнения проводятся между группами, сформированными по значениям группирующей переменной. Если задано несколько группирующих переменных, то группы формируются путём комбинации значений различных группирующих переменных. Если группирующая переменная не задана, то группы для сравнения формируются из дихотомических переменных (имеющих только два значения). Предусмотрен режим создания группирующих переменных из переменных, имеющих более двух значений. Чтобы избежать ошибок, связанных с проблемой множественных сравнений, кроме значения р, выводится количество сравнений. Отчёты выдаются в текстовые и графические файлы, доступ к которым осуществляется через web-браузер [14]. Объединение множества аналитических статистических процедур в один расчёт также помогает обеспечить повторяемость исследования с другими данными, так как в этом случае требуется меньшее количество исследовательских транзакций. Блок «Data Mining» включает процедуры классификации, кластеризации, регрессии и др. Практически все процедуры этого блока требуют задания целевой (зависимой) переменной, которая либо означает зависимую переменную в регрессии, либо обозначает класс в задачах классификации. Для кластерного анализа предлагается два метода: k-means [8] и иерархический кластерный. Для решения задач классификации включены следующие методы: «Линейный дискриминантный анализ», «Классификация по Naive Bayes», «Метод опорных векторов» [13], «Дерево классификации» [11], «Случайный лес» [7]. Алгоритм «Случайный лес», кроме решения задач классификации, используется для определения значимости переменных для выбранной классификации. Регрессионный анализ включает линейную регрессию, логистическую регрессию, авторегрессионный анализ. В линейной регрессии дополнительно автоматически отбирается наиболее оптимальный для регрессии набор независимых переменных по методу AIC (информационный критерий Акаике) [13]. В логистической регрессии одновременно после получения регрессионного уравнения применяется ROC-анализ [1, 3]. В авторегрессионном анализе, используемом для получения прогнозных значений, программой выбирается оптимальная длина временного ряда, используемого в прогнозе [2, 5]. Основные элементы «Представления показателей здравоохранения» - территория, год, показатель. Чаще всего территориальные разрезы могут дифференцироваться по трём уровням: муниципальный, субъектовый, окружной (федеральный округ) (рис. 2-4). Для построения карт в системе R_MED хранятся векторные данные по всем трём территориальным уровням, включая федеральные округи Российской Федерации. Для отображения карт использовались функции библиотек R [6, 10, 12]. На любом территориальном уровне программа выдаёт таблицы, гистограммы, динамику показателей, карты (в том числе в интерактивном режиме), гистограмму показателей со статистически значимым ростом или убыванием показателя за выбранный период и др. Включена кластеризация территорий с отображением кластеров на карте, гистограмме и в текстовой таблице. Предусмотрены сборка и вы

Список литературы

Bowman E., Crawford G., Alexander G. et al. Rpanel: simple interactive controls for R functions using the tcltk package // J. Statistical Software. - 2007. - Vol. 17,N 9. - P. 1-18.
Carstensen M., Plummer E., Laara E. et al. Epi: a package for statistical analysis in epidemiology. R package version 1.1.34. - http://CRAN.R-project.org/package=Epi (дата обращения: 04.12.2012).
Chongsuvivatwong V. Epicalc: epidemiological calculator. R package version 2.14.1.6. - http://CRAN.Rproject. org/package=epicalc (дата обращения: 04.12.2012).
Fox J. The R commander: a basic statistics graphical user interface to R // J. Statistical Software. - 2005. - Vol. 14,N 9. - P. 1-42.
Hyndman R.J., Razbash S. Drew Schmidt forecasting functions for time series and linear models. R package version 3.20. - http://CRAN.R-project.org/ package=forecast (дата обращения: 04.12.2012).
Ihaka R., Murrell P., Hornik K. et al. Color space manipulation. R package version 1.1-1. - http://CRAN.Rproject. org/package=colorspace (дата обращения: 04.12.2012).
Liaw W.M. Classification and regression by random forest // R News. - 2002. - Vol. 2,N 3. - P. 18-22.
Maechler M., Rousseeuw P., Struyf A. et al. Cluster analysis basics and extensions. R package version 1.14.3. - http://cran.r-project.org/web/packages/cluster/cluster.pdf (дата обращения: 04.12.2012).
R Core Team. R: a language and environment for statistical computing. R foundation for statistical computing. - Vienna, Austria. - http://www.R-project.org/ (дата обращения: 04.12.2012).
Richard A., Becker R., Wilks A.R. et al. Draw geographical maps. R package version 2.2-5. - http://CRAN.R-project.org/ package=maps (дата обращения: 04.12.2012).
Ripley B. Classification and regression trees. R package version 1.0-29. - http://cran.r-project.org/web/ packages/tree/tree.pdf (дата обращения: 04.12.2012), http://CRAN.R-project.org/package=maptree (дата обращения: 04.12.2012).
Roger S.B., Edzer P.J., Virgilio G.-R. Applied spatial data analysis with R. - Springer, NY, 2008. - 376 p.
Venables W.N., Ripley B.D. Modern applied statistics with S. Fourth Edition. - Springer, New York, 2002. - 495 p.
Verzani J.G. Widgets API for building toolkitindependent, interactive GUIs. Based on the iwidgets code of Simon Urbanek, suggestions by Simon Urbanek, Philippe Grosjean and Michael Lawrence gWidgets. R package version 0.0-52. - http://CRAN.R-project.org/ package=gWidgets (дата обращения: 06.03.2013).

Дополнительные файлы

Доп. файлы

Действие

1. JATS XML

Скачать

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация

Опыт применения графического пользовательского интерфейса в среде R для анализа клинических и экспериментальных данных

Полный текст

Аннотация

Ключевые слова

Полный текст

Об авторах

Татьяна Ивановна Долгих

Дмитрий Александрович Сербаев

Герман Викторович Чекмарев

Татьяна Владимировна Кадцына

Список литературы

Дополнительные файлы