Mixed infectious disease forecasting technique, based upon seasonal decomposition and Sarima

Cover Page


Cite item

Full Text

Abstract

Aim. To study the possibility of using mixed technique for predicting infectious morbidity based on time series decomposition methods and SARIMA (decSARIMA).

Materials and methods. Using the data from 12 regions of Volga Federal District (Russia) we analyzed time series of the incidence of infectious pathologies: hemorrhagic fever with renal syndrome (HFRS), acute upper respiratory viral infection (ARVI) and syphilis. The decomposition of time series of the incidence rate was carried out using X13-ARIMA-SEATS method. The trend and the seasonal component were separated, each of which was then modeled separately by SARIMA method. The final model of the incidence rate was obtained by adding the trend and the seasonal models.

Results. On average, decSARIMA models had higher or similar characteristics of model and prediction quality compared to SARIMA models without preliminary decomposition. The prognosis of the incidence rate obtained by decSARIMA method was characterized by narrower confidence intervals. Reasonability of using decSARIMA models depended on composition and dynamics of time series of the incidence rate. A significant improvement in model and prediction quality was demonstrated for HFRS. When modeling and predicting the incidence rate of ARVI and syphilis, the inclusion of decomposition of time series into the analysis was considered inexpedient.

Conclusion. The usage of decSARIMA model allows to significantly improve the quality of the prognosis of the incidence for infections, which are characterized by pronounced seasonality and the presence of interannual differences in the incidence rate.

Full Text

ВВЕДЕНИЕ Мониторинг и прогноз заболеваемости является одним из важнейших элементов принятия стратегических решений в проведении санитарно-профилактических мероприятий. На сегодняшний день для моделирования эпидемических временных рядов широко применяется сезонная интегрированная модель авторегрессии — скользящего среднего (Seasonal Autoregressive integrated moving average models, 78 SARIMA, модель Бокса-Дженкинса). С применением SARIMA были получены модели и прогнозы заболеваемости геморрагической лихорадкой с почечным синдромом [10], лихорадкой Денге [13], туберкулезом [11], гепатитом А [12] и другими инфекциями [15]. Преимуществами метода SARIMA являются возможность работы с нестационарными временными рядами, учет изменений тренда, а также сезонных и стохастических колебаний ряда, пригодность для составления краткосрочных и долгосрочных прогнозов [1]. Недостатком метода является то, что идентификация моделей SARIMA субъективна и требует высокой квалификации исполнителя, хотя автоматизация процедуры значительно упрощает его применение [8]. Другое более серьезное ограничение применения SARIMA заключается в том, что метод учитывает только линейные закономерности изменения временного ряда [14]. В то же время, на уровень заболеваемости оказывают влияние многие факторы, среди которых климат, биология возбудителя и/или переносчика инфекционного агента, состояние иммунной системы реципиента, социальные отношения и другое. Сочетанное воздействие этих факторов может приводить к нелинейной динамике показателя, а следовательно, и возрастанию погрешности при использовании SARIMA для анализа и прогноза инфекционной заболеваемости [8, 15]. Улучшение качества прогноза возможно путем применения дополнительных процедур обработки временного ряда [1]. При анализе инфекционной заболеваемости популярным является применение методов сезонной декомпозиции [5, 15]. Как правило, при декомпозиции исходный ряд разделяют на тренд, сезонную и случайную компоненты. В определенном приближении можно сказать, что тренд характеризует многолетние изменения заболеваемости, сезонная компонента описывает ее закономерные колебания в пределах календарного года или квартала, а случайная компонента отражает нерегулярные колебания показателя [6]. Каждую составляющую компоненту временного ряда заболеваемости можно использовать для построения предсказательной модели, хотя случайная компонента, как правило, не учитывается [15]. При этом каждая компонента обладает своими отличительными характеристиками, влияющими на идентификацию модели. Вследствие этого ожидаемая точность модели, полученной с помощью декомпозиции, должна быть выше по сравнению с точностью модели, полученной при анализе исходного временного ряда. Как и алгоритм SARIMA, алгоритм декомпозиции временных рядов реализован в пакетах многих статистических программ, что позволяет проводить процедуру первичного анализа и прогнозирования уровня инфекционной заболеваемости в автоматизированном режиме. Целью данной работы явилась оценка возможности применения смешанной техники прогнозирования инфекционной заболеваемости на основе методов декомпозиции временного ряда и SARIMA. МАТЕРИАЛЫ И МЕТОДЫ Нами были проанализированы временные ряды уровня заболеваемости тремя инфекционными патологиями, актуальными для Российской Федерации: геморрагическая лихорадка с почечным синдромом (ГЛПС, код МКБ 10 - А98.5), острые инфекции верхних дыхательных путей множественной и неуточненной локализации (ОРВИ, J06), сифилис (впервые выявленный) все формы (А50-А53). Данные о первичной заболеваемости для контингента «все жители» были получены из [3]. Использовали помесячные значения на интервале 2010-2017 гг. для 12 территориальных образований Приволжского федерального округа (ПФО) в целом по региону и отдельно в регио-нальной столице (всего 24 территории). Оренбургская область и республика Мордовия не были включены в исследование, поскольку для этих территорий отсутствовали некоторые данные о первичной заболеваемости за анализируемый период. Алгоритм моделирования был реализован в виде скриптов на языках Python и R с использованием интегрированных сред разработки Spyder и RStudio. Построение модели уровня заболеваемости проводили в три этапа. На первом этапе проводили декомпозицию временного ряда уровня заболеваемости с выделением тренда, сезонной и случайной компонент. Периодичность временного ряда принималась равной 12 месяцам. Процедура декомпозиции была выполнена с использованием метода X13-ARIMA-SEATS, разработанного Бюро переписи США (US Bureau of the Census, http://www.census.gov/srd/www/x13as/). Метод был реализован с применением функции seas пакета «seasonal» для языка R [4]. Контроль качества разложения осуществлялся путем применения статистических тестов Бокс-Льюнга на отсутствие автокорреляции остатков и теста Шапиро-Уилка на соответствие распределения остатков нормальному распределению. После декомпозиции проводили оценку динамики компонент и их численного вклада в уровень заболеваемости. На втором этапе производили раздельное моделирование тренда и сезонной компоненты с применением SARIMA с периодом 12 месяцев. Этап алгоритма был реализован с использованием функции auto.arima пакета «forecast» для языка R [7]. Подбор оптимальных параметров модели осуществлялся автоматически в рамках работы функции на основании статистических тестов: тест Дирка-Фуллера для определения порядка интегрирования, тест Осборна для определения сезонности и информационного критерия Акаике для финального выбора модели. Контроль качества разложения осуществляется путем применения статистических тестов БоксЛьюнга на отсутствие автокорреляции остатков и теста Харке-Бера на соответствие распределения остатков нормальному распределению. На третьем этапе получали итоговую модель уровня заболеваемости путем сложения моделей тренда и сезонной компоненты. Расчет 95% доверительного интервала предсказанных значений также производили путем суммирования соответствующих значений для моделей тренда и сезонной компоненты. Моделирования случайной компоненты не производили. Для каждой из 24 территорий оценивали возможность применения decSARIMA для построения модели и прогноза для трех исследуемых инфекций. В качестве обучающей выборки использовали данные о первичной заболеваемости за период 2010- 2016 гг. без предварительной обработки. Для проверки прогностической способности получаемой модели использовали данные о первичной заболеваемости за 2017 г. Для оценки точности прогноза моделей применяли параметр средней абсолютной масштабируемой ошибки (MASE) [9], при этом в качестве наивного прогноза рассчитывали усредненные помесячные значения уровня заболеваемости. Проводили сравнение прогнозирующей способности моделей, полученных методом decSARIMA и методом SARIMA без предварительной декомпозиции. Для этого для каждого заболевания рассчитывали значения ошибок MASE моделей decSARIMA и SARIMA для 24 исследуемых территорий. Далее с применением непараметрического критерия Манна-Уитни для каждого заболевания проводили сравнение двух распределений значений ошибок. Различия распределений ошибок MASE decSARIMA и ошибок MASE SARIMA с уровнем значимости p<0.05 считали статистически значимыми. В тексте распределение значений MASE описывали с указанием медианы, 25 и 75 процентилей. 80 РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ Нами были проанализированы временные ряды уровня заболеваемости тремя инфекционными патологиями на 24 территориях ПФО различного масштаба. Для каждой инфекции и каждой территории удалось построить предсказательную модель уровня заболеваемости как методом decSARIMA, так и методом SARIMA без предварительной декомпозиции. При построении моделей decSARIMA и проведении процедуры декомпозиции для различных инфекций были выявлены отличия динамики компонент временных рядов и их вклада в общий уровень заболеваемости. В среднем модели decSARIMA обладали более высокими или схожими характеристиками качества модели и прогноза по сравнению с моделями SARIMA. Медиана значений MASE для всех моделей decSARIMA составила 0,730 (0,555; 1,000), а для всех моделей SARIMA — 0,795 (0,593; 1,090). Также прогнозные значения уровня заболеваемости, полученные методом decSARIMA, характеризовались более узким доверительным интервалом. Преимущество, использования моделей decSARIMA зависело от компонентного состава и динамики компонент временного ряда уровня заболеваемости. Так, в уровень заболеваемости ГЛПС большой вклад вносили как тренд, так и сезонная компонента. При этом тренд характеризовался наличием межгодовых вариаций с периодами спада и подъема значений. Нам не удалось выявить четко выраженную многолетнюю цикличность тренда, возможно, в связи с недостаточно длительным временным интервалом, использованном в исследовании. Также декомпозиция уровня заболеваемости ГЛПС позволила выделить четко выраженную и стабильную сезонную компоненту, что свидетельствует о наличии внутригодовой (сезонной) цикличности заболеваемости инфекцией. Модели заболеваемости ГЛПС, полученные методом decSARIMA, обладали более высокой точностью по сравнению с моделями SARIMA (рис. 1). При моделировании заболеваемости ГЛПС значение MASE моделей decSARIMA составило 0,822 (0,558; 1,221), а моделей SARIMA — 1,020 (0,832; 1,507). При этом распределения значений MASE моделей decSARIMA и SARIMA статистически значимо отличалось (p=0,009).

Рис.1 Моделирование и прогноз уровня заболеваемости ГЛПС на территории ПФО (на примере города Уфа).

Также как и в случае ГЛПС, существенный вклад в уровень заболеваемости ОРВИ вносили тренд и сезонная компонента. Сезонная компонента характеризовалась четкой внутригодовой цикличностью, в то время как межгодовых изменений уровня тренда выявить не удалось. В среднем значения тренда сохранялись на высоком, но постоянном уровне. При этом, хотя точность моделей decSARIMA в среднем превышала точность моделей SARIMA (значение MASE моделей decSARIMA составило 0,879 (0,708; 1,121), для моделей SARIMA — 0,931 (0,762; 1,169)) (рис. 2), статистически значимых различий между двумя распределениями MASE выявить не удалось (р=0,204).

Рис.2. Моделирование и прогноз уровня заболеваемости ОРВИ на территории ПФО (на примере Республики Марий Эл).

При декомпозиции временного ряда уровня заболеваемости сифилисом нам не удалось выделить значимую сезонную компоненту. При этом был отмечен относительно весомый вклад случайной компоненты. Таким образом, в уровень заболеваемости сифилисом основной вклад вносили тренд (практически на всех территориях наблюдали нисходящий тренд) и случайная компонента. Применение декомпозиции не давало преимуществ при построении прогностический модели уровня заболеваемости сифилисом. Значение MASE моделей decSARIMA составило 0,586 (0,467; 0,713), а моделей SARIMA — 0,545 (0,447; 0,638). Статистически значимых отличий распределения значений MASE для моделей, построенных двумя методами, выявлено не было (р=0,360). На основании полученных нами данных мы предполагаем, что применение смешанной техники прогнозирования инфекционной заболеваемости на основе методов декомпозиции временного ряда и SARIMA способно улучшить качество моделирования и прогноза уровня инфекционной заболеваемости некоторыми инфекциями. Прежде всего, это инфекции, для которых характерна выраженная сезонность и наличие межгодовых отличий уровня заболеваемости (изменения тренда). В этом случае применение декомпозиции и раздельное моделирование тренда и сезонной компоненты позволяет снизить ошибку модели и прогноза, а также сузить доверительный интервал прогноза.Преимущества decSARIMA для моделирования заболеваемости такими инфекциями можно легко объяснить тем, что каждая составляющая временного ряда, полученная в ходе декомпозиции, имеет свои отличные характеристики. Следовательно, попытки описать все компоненты единой функцией неизбежно приведут к возникновению ошибок. Помимо статистического, можно предложить и биологическое обоснование необходимости раздельного моделирования компонент временного ряда заболеваемости, поскольку такой подход учитывает сложность и многофакторность эпидемического процесса. В то же время, модель decSARIMA является сложной, поскольку представляет из себя сумму двух SARIMA моделей. Это приводит к затруднениям при подборе параметров модели. Определенным образом проблему можно решить за счет создания автоматических алгоритмов обработки данных, в том числе на основе уже имеющихся в широком доступе статистических программ и пакетов. Другим следствием сложности модели decSARIMA является повышенный риск переобучения модели («оверфиттинга»). Переобученные модели идеально описывают тестовую выборку, но дают прогноз с большой ошибкой. Следовательно, для инфекций, временной ряд уровня заболеваемости которыми не демонстрирует выраженную динамику тренда и сезонной компоненты, или они слабо выражены, или сильно выражена случайная компонента, усложнение модели раздельным моделированием тренда и сезонной компонент не дает преимуществ по сравнению с более простыми методами и не является целесообразным. Следует также отметить, что процедура декомпозиции позволяет разделить исходный временной ряд заболеваемости на компоненты, отражающие различные с биологической точки зрения процессы. В то время, как тренд и случайная компонента характеризуют закономерные изменения показателя, случайная компонента, как правило, отражает непредсказуемые события, например, эпидемические вспышки. С этой точки зрения декомпозиция может рассматриваться как самостоятельный инструмент анализа эпидемического процесса и, в том числе, применяться для выявления сезонности заболевания и/или факторов, воздействующих на разные этапы его протекания [2]. Нами было показано, что применение смешанной техники прогнозирования инфекционной заболеваемости на основе методов декомпозиции временного ряда и SARIMA позволяет значительно улучшить качество прогноза уровня заболеваемости инфекциями, для которых характерна выраженная сезонность и наличие межгодовых отличий уровня заболеваемости. Для инфекций, у которых отсутствует хорошо выраженная внутригодовая и многолетняя цикличность уровня заболеваемости, применение сложной модели decSARIMA для моделирования и прогноза, хоть и представляет определенные преимущества, является нецелесообразным.

×

About the authors

E. N. Filatova

Blokhina Research Institute of Epidemiology and Microbiology

Author for correspondence.
Email: fake@neicon.ru

Nizhny Novgorod

Россия

L. A. Solntsev

Blokhina Research Institute of Epidemiology and Microbiology

Email: fake@neicon.ru

Nizhny Novgorod

Россия

References

  1. Кондратьев М.А. Методы прогнозирования и модели распространения заболеваний. Компьютерные исследования и моделирование. 2013, 5(5):863-882.
  2. Филатова Е.Н., Солнцев Л.А., Уткин О.В. Влияние сезонных факторов на динамику уровня заболеваемости инфекционным мононуклеозом в разных возрастных группах (на примере Нижнего Новгорода). Эпидемиология и инфекционные болезни. 2017, 22(2): 79—85. doi: 10.18821/1560-9529-2017-22-2-79-85.
  3. Эпидемиологический Атлас ПФО [Электронный ресурс]. http://epid-atlas.nniiem.ru/.
  4. Barnett A.G., PJ. Baker PJ., Dobson A.J. Season: Analysing Seasonal Data R Functions. R Package Version 0.3-5. 2014, http://www.seasonal.website/.
  5. Findley D.F., Martin D.E.K. Some Recent Developments and Directions in Seasonal Adjustment. Journal of Official Statistics. 2006, 21(2):343-365.
  6. Hamilton J.D. Time Series Analysis. Cambridge Univ Pres, 1994.
  7. Hyndman R. Forecast: Forecasting Functions for Time Series and Linear Models. R Package Version 8.2. 2017, http://pkg.robjhyndman.com/forecast.
  8. Hyndman R.J., Khandakar Y Automatic Time Series Forecasting: The Forecast Package for R. Journal of Statistical Software. 2008, 27(3). https://wwwjstatsoft.org/article/view/v027i03. doi: 10.18637/jss.v027.i03.
  9. Hyndman R.J., Koehler A.B. Another Look at Measures of Forecast Accuracy. International Journal of Forecasting. 2006, 22(4): 679-688. doi: 10.1016/j.ijforecast.2006.03.001.
  10. Li Q., Na-Na G., Zhan-Ying H. et al. Application of an Autoregressive Integrated Moving Average Model for Predicting the Incidence of Hemorrhagic Fever with Renal Syndrome. The American Journal of Tropical Medicine and Hygiene. 2012, 87(2):364-370. doi: 10.4269/ajtmh.2012.11-0472.
  11. Rios M., Garcia J.M., Sanchez J.A., Perez D. A Statistical Analysis of the Seasonality in Pulmonary Tuberculosis. European Journal of Epidemiology. 2000, 16(5):483-488.
  12. Ture M., Kurt I. Comparison of Four Different Time Series Methods to Forecast Hepatitis A Virus Infection. Expert Systems with Applications. 2006, 31(1):41-46. doi: 10.1016/j.eswa.2005.09.002.
  13. Wongkoon S., Jaroensutasinee M., Jaroensutasinee K. Development of Temporal Modeling for Prediction of Dengue Infection in Northeastern Thailand. Asian Pacific Journal of Tropical Medicine. 2012, 5(3):249-252. doi: 10.1016/S1995-7645(12)60034-0.
  14. Zhang G.P. Time Series Forecasting Using a Hybrid ARIMA and Neural Network Model — ScienceDirect. Neurocomputing. 2003, 50:159-175. doi: https://doi.org/10.1016/S0925-2312(01)00702-0.
  15. Zhang X., Zhang T, Young A.A., Li X. Applications and Comparisons of Four Time Series Models in Epidemiological Surveillance Data. PloS ONE. 2014, 9(2):e91629. doi: 10.1371/journal.pone.0088075.

Supplementary files

Supplementary Files
Action
1. JATS XML
2. Рис.1 Моделирование и прогноз уровня заболеваемости ГЛПС на территории ПФО (на примере города Уфа).

Download (412KB)
3. Рис.2. Моделирование и прогноз уровня заболеваемости ОРВИ на территории ПФО (на примере Республики Марий Эл).

Download (526KB)

Copyright (c) 2019 Filatova E.N., Solntsev L.A.

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.

СМИ зарегистрировано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор).
Регистрационный номер и дата принятия решения о регистрации СМИ: ПИ № ФС77-75442 от 01.04.2019 г.


This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies