Compilation of medical data in the MS Excel program using the procedure of multifactorial «intermediate outcomes»

Cover Page


Cite item

Full Text

Abstract

Aim. To optimize the compilation of statistical data on oncology patients according to survival and mortality. Methods. Compilation of statistical data by using the multifactorial «intermediate outcomes». Results. A program code has been used from 1990 to the present time to compile statistical data on survival and mortality of patients with gastric cancer operated on at the Kazan City Oncology Dispensary. This code makes it possible to evaluate the sensitivity of selected statistical indicators to the factors specified by the researcher, which makes it possible to regard it as a universal method for analysis of the databases in cases where the number of combinations of factors is large. The method has a high processing speed and reduces the total amount of operator commands. The universality of the program intends the use of its functions to compile the results of iterative calculations. The procedure of multifactor intermediate outcomes was implemented on the basis of MS Excel by means of Visual Basic for Applications. The proposed program of three-factor «intermediate outcomes» serves as a convenient and fast tool for finding relevant factors. Reliability of the analysis of the effectiveness of the treatment strategy for oncology patients increases significantly during application of the proposed program. Conclusion. Testing of the algorithm for analysis of the database of results in medicine and summarizing the results of iterative calculations (for example, a recursive method and the moving window method) and the equations with different combinations of time series in econometrics may indicate the viability of the algorithm as an extremely powerful tool of analysis and generalization of databases.

Full Text

Стандартная процедура «промежуточных итогов» (ПИ, англ. вариант - subtotal), встроенная в MS Excel, служит одним из методов обобщения данных в таблице со стандартным представлением [3-5]. Вместе с тем, ПИ используют лишь один фактор (столбец), что ограничивает возможности процедуры в тех случаях, когда необходимо учитывать множество факторов. Так, база данных больных раком желудка после проведённого лечения может включать как стандартные параметры пациента (пол, возраст и др.), так и параметры его заболевания (стадию процесса, глубину инвазии, макроскопическую и микроскопическую характеристику, вид оперативного вмешательства, объём лимфаденэктомии и т.д.). При этом только стадии опухоли имеют 16 значений по классификации TNM. Таким образом, выбор сравниваемых групп больных занимает значительное время, или их анализ в ряде случаев становится вовсе невозможным. В связи с проблемой обработки базы данных онкологических больных ещё в конце 90-х годов [1] возникла потребность в разработке программы многофакторных ПИ, которая позволяла бы отслеживать чувствительность показателей к нескольким факторам одновременно. Она должна была быть реализована в MS Excel, не уменьшая при этом его удобства и функционала, что и было осуществлено средствами Visual Basic for Applications (VBA). Код программы впоследствии использовали в ряде исследований, не относящихся к области медицины, например при обработке и обобщении статистических показателей случайных последовательностей [2], а также результатов решения итерационных уравнений, использовавших панельные данные российских банков и временные ряды биржевых индексов. Сравнение стандартной процедуры ПИ и многофакторных ПИ Для демонстрации недостатков процедуры ПИ рассмотрим общий вид диалогового окна (рис. 1). Процедура ПИ фиксирует изменения лишь в одном столбце (факторе), обозначенном фразой «При каждом изменении в:». При этом обобщение данных может проводиться по множеству ячеек, указанных в поле: «Добавить итоги по:», но лишь с одной из статистических функций, выбранных в поле «Операция». Переход от однофакторного подхода к многофакторному в рамках стандартной процедуры ПИ, конечно, возможен. Для этого необходимо объединить интересующие нас в данный момент факторы в один, например с помощью функции «сцепить» (англ. [Concatenate (cell1, cell2)]). Очевидно, что применение дополнительных рутинных операций для повышения общего количества используемых факторов снижает привлекательность стандартной процедуры ПИ. К сожалению, данная процедура не претерпела сколь-нибудь значимых изменений за последние 10 лет: ПИ версии MS Excel 2010 по-прежнему оперируют изменением значений лишь в одном факторе. Рассмотрим работу стандартной процедуры однофакторных ПИ и результат работы программы многофакторных ПИ, предложенной далее в разделе «Реализация процедуры многофакторных ПИ средствами VBA». Для этого воспользуемся базой данных больных раком желудка, лечившихся в Казанском городском онкологическом диспансере (ныне в составе Республиканского клинического онкологического диспансера, г. Казань), за 20 лет. В рамках данной статьи анализировались данные больных, у которых опухоль локализовалась в пределах I-II сегментов желудка, локализацию опухоли учитывали как один из факторов. Применение стандартной процедуры однофакторного ПИ представлено на рис. 2. Для получения на рис. 2 результата исследователю необходимо выставить ряд предварительных фильтров. Выборка должна включать следующие маркёры: (1) выписанные больные, (2) больные, пережившие 5-летний период, (3) локализация опухоли по сегментам I, II, I-II. Только после данных операций можно проводить стандартную процедуру ПИ. Кроме того, нахождение 5-летней выживаемости необходимо проводить с помощью автоматической формулы путём деления показателя «Жили 5 и > лет» на показатель «Выписанные». При этом формулу расчёта 5-летней выживаемости вводят вручную. Далее рассмотрим отчёт многофакторных ПИ. В табл. 1-3 показаны одно-, двух- и трёхфакторные ПИ, подсчитанные с помощью программы, описанной в разделе «Реализация процедуры многофакторных ПИ средствами VBA». Табл. 1 является идентичной результатам стандартной процедуры ПИ с той лишь разницей, что исследователь экономит время на установлении фильтров, генерации дополнительных столбцов маркёров и выставлении формул при исчислении нестандартных параметров. При переходе к двух- (табл. 2) и трёхфакторным (табл. 3) ПИ исчезает усреднение показателя, так как происходит дробление выборки на большее количество микрогрупп, создающихся большим числом факторов. В этой связи вскрывается неоднородность рассчитываемых статистических показателей, связанных с чувствительностью данных показателей к выбранным факторам. Кроме того, для ряда групп значительно уменьшается количество больных, что приводит к сокращению достоверности оценки статистического показателя. Однако для микрогрупп со значительным числом больных значения рассчитываемых показателей всё более уточняются, повышая соответствие и достоверность показателей. Реализация процедуры многофакторных ПИ средствами VBA Представим блок-схему для реализации n-факторных ПИ (рис. 3). Ключевой является процедура n-факторной сортировки «Б3», обеспечивающая ранжирование строк в группы, объединённые общей комбинацией значений исследуемых факторов. В связи с этим можно утверждать, что изменение комбинации значений n-факторов при последовательном переборе строк базы указывает на конец текущей выборки и начало новой. Так, вход на первую строку базы означает начало первой выборки, с которой последовательно строка за строкой (обследование за обследованием) собираются в массив статистические показатели. Подтверждённая смена комбинации значений n-факторов в условном блоке X ведёт к сохранению данных по статистике текущей выборки в строку i в отчёте. Массив статистических показателей после вывода в отчёт обнуляется, чтобы быть готовым для расчёта показателей новой выборки. Последовательный перебор строк (обследований) организуется с помощью условного цикла Y, который разрешает цикл, пока триггер check не примет значение 0. При этом триггер check приобретает значение 0 в случае подтверждения наличия пустых значений во всех n факторах в следующей строке (g+1) в условном блоке Z. При неудовлетворении условиям check=1 (то есть при check=0) программа проводит обобщение по всем статистическим итогам всех найденных выборок, подбивая результаты в общую сумму (где это возможно) «ВСЕГО» по базе. Реализация алгоритма многофакторных ПИ с применением VBA для MS Excel также представлена в варианте, где число факторов равно трём. Так, рис. 4 демонстрирует код процедуры с группами команд, выделенными фигурной скобкой, соответствующих ключевым элементам блок-схемы рис. 3. Отметим, что смена анализируемого фактора для данного кода может быть осуществлена изменением одной ячейки путём ввода номера столбца (два-четыре нажатия клавиш). При этом активизация алгоритма происходит с помощью «горячей клавиши», что значительно уменьшает суммарное время, затрачиваемое на генерацию отчёта трёхфакторных ПИ по сравнению с однофакторным вариантом. К примеру, для баз данных, состоящих из 10 000 строк1 (обследований), время генерации отчёта может составлять от 1 до 6 с в зависимости от количества уникальных значений в заданных факторах. В тех случаях, когда комбинации факторов многочисленны и заранее известны, код может быть дополнен их списком, что позволит значительно сократить время на операциях выставления номеров столбцов, соответствующих анализируемым факторам. Стандартные и специфические функции для расчёта статистических показателей в процедуре трёхфакторных ПИ С учётом задач анализа необходимо подобрать функции для расчёта статистических показателей, которые соответствуют требованиям исследования, в массив. Для используемых в стандартной процедуре ПИ функций можно применить фрагмент кода расчёта статистических показателей, являющийся их заменителем. Так, функция подсчёта количества обследований может быть заменена значением параметра cou в строке 49 (см. рис. 4). Операция нахождения минимума для заданной выборки по столбцу x может быть реализована с помощью кода в строке 44 (рис. 5). Операция нахождения максимума по столбцу x проводится с помощью кода в строке 45, а сумма по столбцу x может быть реализована с помощью кода в строке 46. В работах Ф.Ш. Ахметзянова и соавт. [1] алгоритм высчитывал ПИ по послеоперационным осложнениям и летальности в зависимости от объёма операции на желудке и лимфатических узлах, возраста больных. При оценке выживаемости учитывали объём операции на желудке, стадию, объём лимфодиссекции, глубину инвазии, форму роста опухоли, локализацию и степень дифференцировки опухоли. Кроме того, при подсчёте могут быть введены специфические функции, например подсчёт значений выше и ниже определённого уровня. Предположим, что столбец x содержит данные об отдалённых результатах больных после операции, тогда 1-, 2-, 3-, 4- и 5-летняя выживаемость может быть собрана в статистический массив с использованием следующего кода (рис. 6). Для обобщения результатов решения уравнений с использованием итерационных вычислений может встать вопрос подсчёта тестов, где гипотеза отклонялась при p <0,05 и p <0,01. Так, в работе Р.А. Григорьева на базе модели с помощью трёхфакторной процедуры ПИ были обобщены результаты решения множества уравнений, где параметр, отражающий оценочный уровень конкурентных условий в отрасли, был значимым. Алгоритм «consolidator» использовался при подсчёте числа отклонений от гипотезы непредшествия по Грейнжеру с последующим визуальным представлением обобщённых результатов. Предположим, что статистическому блоку необходимо провести операцию подсчёта общего числа строк (уравнений), где гипотеза была отклонена при p <0,05 и p <0,01 только для уравнений с достигнутой конвергенцией. Тогда статистический блок может иметь следующий вид (рис. 7). Cтрока 43 на рис. 7 проверяет наличие конвергенции в ячейке g,y, так как при отсутствии достигнутой конвергенции уравнение считается нерешённым. При этом столбец y хранит данные о наличии конвергенции, а в строке g хранятся данные о результатах решения уравнения. Строка 44 проводит подсчёт всех уравнений, где конвергенция была достигнута, а строки 45 и 46 подсчитывают общее число отклонений гипотезы при p <0,05 и p <0,01 по столбцу x соответственно. Приведённые в статье работы [1, 2] могут подтвердить успешную апробацию алгоритма «consolidator» в анализе таблиц с множеством столбцов, которые способны выступать в качестве факторов. При этом сокращение времени на рутинную подготовку данных для анализа делает предложенный метод привлекательным инструментом обобщения статистических данных. ВЫВОДЫ 1. В наше время исследовательская работа предполагает анализ множества факторов, влияющих на тот или иной процесс или показатель. Предложенная программа трёхфакторных ПИ служит удобным и быстрым инструментом поиска релевантных факторов. 2. Достоверность анализа эффективности лечебной тактики в отношении онкологических пациентов значительно возрастает при использовании предложенной программы трёхфакторных ПИ. 3. Апробация алгоритма для анализа базы данных результатов в медицине и для обобщения результатов итерационных вычислений (например, рекурсивный метод и метод двигающегося окна) и уравнений с разными комбинациями временных рядов в эконометрике может указывать на состоятельность алгоритма как мощнейшего инструмента анализа и обобщения баз данных. 4. Программа имеет значительный потенциал в обобщении результатов кластерных вычислений, когда необходимо компактно представить совокупность множества типичных микрозадач. Рис. 1. Форма стандартной процедуры «промежуточных итогов» в программе MS Excel 2007. григ_1.tif Рис. 2. «Промежуточные итоги» 5-летней выживаемости с учётом локализации опухоли в желудке, где столбец «LOKL» - локализация опухоли, «Выписанные» - число выписанных из стационара больных, «Жили 5 и > лет» - пережившие 5-летний срок после операции, «ПВ» - 5-летняя выживаемость. григ_2.tif Таблица 1. Пример расчёта с помощью программы однофакторных «промежуточных итогов» Локализация опухоли в желудке (сегмент) Число выписанных из стационара больных 5-летняя выживаемость, % I 104 47,12 II 144 59,03 I-II 258 37,6 Всего 506 45,65 Таблица 2. Пример расчёта с помощью программы двухфакторных «промежуточных итогов» Локализация опухоли в желудке (сегмент) Стадия по системе TNM Число выписанных из стационара больных 5-летняя выживаемость, % I 3 2 0 12 16,67 I 3 1 0 8 37,5 I 2 0 0 37 51,35 I 1 0 0 6 83,33 I 2 2 0 4 50 I 3 0 0 28 50 I 2 1 0 9 44,44 II 3 2 0 8 37,5 II 3 1 0 7 28,57 II 2 0 0 58 63,79 II 1 0 0 23 78,26 II 2 2 0 6 33,33 II 3 0 0 27 62,96 II 2 1 0 14 42,86 II 1 2 0 1 0 I-II 3 2 0 51 17,65 I-II 3 1 0 49 22,45 I-II 2 0 0 49 59,18 I-II 1 0 0 1 100 I-II 2 2 0 12 50 I-II 3 0 0 84 44,05 I-II 2 1 0 12 33,33 Всего: 506 45,65 Таблица 3. Пример расчёта с помощью программы трёхфакторных «промежуточных итогов» Локализация опухоли в желудке (сегмент) Стадия по системе TNM Глубина инвазии Число выписанных из стационара больных 5-летняя выживаемость, % I 3 2 0 ПС 12 16,67 I 3 1 0 ПС 8 37,5 I 2 0 0 ПМ 30 50 I 2 0 0 ПП 7 57,14 I 1 0 0 ПСл 6 83,33 I 2 2 0 ПМ 4 50 I 3 0 0 ПС 28 50 I 2 1 0 ПМ 8 50 I 2 1 0 ПП 1 0 II 3 2 0 ПС 8 37,5 II 3 1 0 ПС 7 28,57 II 2 0 0 ПМ 42 61,9 II 2 0 0 ПП 16 68,75 II 1 0 0 ПСл 23 78,26 II 2 2 0 ПМ 5 20 II 2 2 0 ПП. 1 100 II 3 0 0 ПС 27 62,96 II 2 1 0 ПМ 11 45,45 II 2 1 0 ПП 3 33,33 II 1 2 0 ПСл 1 0 I-II 3 2 0 ПС 51 17,65 I-II 3 1 0 ПС 49 22,45 I-II 2 0 0 ПМ 47 59,57 I-II 2 0 0 ПП 2 50 I-II 1 0 0 ПСл 1 100 I-II 2 2 0 ПМ 11 45,45 I-II 2 2 0 ПП 1 100 I-II 3 0 0 ПС 84 44,05 I-II 2 1 0 ПМ 12 33,33 Всего 506 45,65 Примечание. Глубина инвазии: ПС - в пределах серозного слоя, ПМ - в пределах мышечного слоя, ПП - в пределах подслизистой оболочки, ПСл - в пределах слизистой оболочки. 1На программу накладывается ограничение по количеству оперируемых строк в базе данных, соответствующих лимитам MS Excel. Для версии MS Excel 2007 ограничение составляет 1 048 576 строк. Рис. 3. Блок-схема кода «consolidator» для n факторов. григ_33.tif Рис. 4. Реализация алгоритма трёхфакторных промежуточных итогов. григ_4.tif 43 ‘ начало блока расчёта стат. показателей 44 If Sheets(1).Cells(g, x).Value <= st(1) Then st(1) = Sheets(1).Cells(g, 14).Value 45 If Sheets(1).Cells(g, x).Value => st(2) Then st(2) = Sheets(1).Cells(g, 15).Value 46 st(3) = st(3) + Sheets(1).Cells(g,x).Value 47 ‘ конец блока расчёта стат. показателей Рис. 5. Код реализации простых статистически функций. ‘ начало блока расчёта стат. показателей 43 If Sheets(1).Cells(g, x).Value => 1 and Sheets(1).Cells(g, x).Value <2 Then st(1) = st(1) + 1 44 If Sheets(1).Cells(g, x).Value => 2 and Sheets(1).Cells(g, x).Value <3 Then st(2) = st(2) + 1 45 If Sheets(1).Cells(g, x).Value => 3 and Sheets(1).Cells(g, x).Value <4 Then st(3) = st(3) + 1 46 If Sheets(1).Cells(g, x).Value => 4 and Sheets(1).Cells(g, x).Value <5 Then st(4) = st(4) + 1 47 If Sheets(1).Cells(g, x).Value => 5 Then st(5) = st(5) + 1 ‘ конец блока сбора стат. показателей Рис. 6. Код подсчёта выживаемости больных раком желудка. 43 If Sheets(1).Cells(g, y).Value = «A» Then ‘ начало блока расчёта стат. показателей 44 st(1) = st(1) + 1 45 If Sheets(1).Cells(g, x).Value <= 0.05 Then st(2) = st(2) + 1 46 If Sheets(1).Cells(g, x).Value <= 0.01 Then st(3) = st(3) + 1 47 End If ‘ конец блока расчёта стат. показателей Рис. 7. Код подсчёта числа отклонённых гипотез для p <0,05 и p <0,01 с учётом достигнутой конвергенции.
×

About the authors

R A Grigor’ev

Kazan State Power Engineering University, Kazan, Russia

Email: Ruslan.Grigoryev@yandex.ru

F Sh Akhmetzyanov

Kazan State Medical University, Kazan, Russia

References

  1. Ахметзянов Ф.Ш., Китаев М.Р., Ядыков О.А., Ахметзянова Ф.Ф. Лимфогенное метастазирование рака дистального отдела желудка // Рос. онкол. ж. - 2011. - №1. - С. 30-33.
  2. Григорьев Р.А. О двух методах сжатия численного хаоса // Извест. вузов. Проблемы энергетики. - 2005. - №9-10. - С. 106-110.
  3. Михайлов А.А., Полевой Д.В. Проблемы анализа таблично структурированной информации // Труды института системного анализа РАН. - 2007. - №29. - С. 88-96.
  4. Aitken P.G. Excel pivot tables and charts - Indianapolis, Indiana. - Wiley Publishing, Inc., 2005. - 276 p.
  5. Dalgleish D. Excel pivot tables recipe book: a problem-solution approach. - Berkeley, California: APRESS, 2006. - 307 p.

Supplementary files

Supplementary Files
Action
1. JATS XML

© 2012 Grigor’ev R.A., Akhmetzyanov F.S.

Creative Commons License

This work is licensed
under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.





This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies