Смешанная техника прогнозирования инфекционной заболеваемости с применением методов декомпозиции временного ряда и Sarima

Обложка


Цитировать

Полный текст

Аннотация

Цель. Оценить возможность применения смешанной техники прогнозирования инфекционной заболеваемости на основе методов декомпозиции временного ряда и SARIMA (decSARIMA).

Материалы и методы. На примере 12 территориальных образований Приволжского федерального округа были проанализированы временные ряды уровня заболеваемости инфекционными патологиями: геморрагической лихорадкой с почечным синдромом (ГЛПС), острыми инфекциями верхних дыхательных путей (ОРВИ) и сифилисом. Декомпозицию временного ряда уровня заболеваемости проводили методом X13-ARIMA-SEATS. Выделяли тренд и сезонную компоненту, каждую из которых затем моделировали методом SARIMA. Итоговую модель уровня заболеваемости получали путем сложения моделей тренда и сезонной компоненты.

Результаты. В среднем модели decSARIMA обладали более высокими или схожими характеристиками качества по сравнению с моделями SARIMA без предварительной декомпозиции. Прогнозные значения уровня заболеваемости, полученные методом decSARIMA, характеризовались более узким доверительным интервалом. Целесообразность применения моделей decSARIMA зависела от компонентного состава и динамики временного ряда уровня заболеваемости. Продемонстрировано значительное улучшение качества модели и прогноза уровня заболеваемости ГЛПС. При моделировании и прогнозе уровня заболеваемости ОРВИ и сифилисом включение этапа декомпозиции временного ряда в анализ признано нецелесообразным.

Заключение. Применение модели decSARIMA позволяет значительно улучшить качество прогноза уровня заболеваемости инфекциями, для которых характерна выраженная сезонность и наличие межгодовых отличий уровня заболеваемости.

Полный текст

ВВЕДЕНИЕ Мониторинг и прогноз заболеваемости является одним из важнейших элементов принятия стратегических решений в проведении санитарно-профилактических мероприятий. На сегодняшний день для моделирования эпидемических временных рядов широко применяется сезонная интегрированная модель авторегрессии — скользящего среднего (Seasonal Autoregressive integrated moving average models, 78 SARIMA, модель Бокса-Дженкинса). С применением SARIMA были получены модели и прогнозы заболеваемости геморрагической лихорадкой с почечным синдромом [10], лихорадкой Денге [13], туберкулезом [11], гепатитом А [12] и другими инфекциями [15]. Преимуществами метода SARIMA являются возможность работы с нестационарными временными рядами, учет изменений тренда, а также сезонных и стохастических колебаний ряда, пригодность для составления краткосрочных и долгосрочных прогнозов [1]. Недостатком метода является то, что идентификация моделей SARIMA субъективна и требует высокой квалификации исполнителя, хотя автоматизация процедуры значительно упрощает его применение [8]. Другое более серьезное ограничение применения SARIMA заключается в том, что метод учитывает только линейные закономерности изменения временного ряда [14]. В то же время, на уровень заболеваемости оказывают влияние многие факторы, среди которых климат, биология возбудителя и/или переносчика инфекционного агента, состояние иммунной системы реципиента, социальные отношения и другое. Сочетанное воздействие этих факторов может приводить к нелинейной динамике показателя, а следовательно, и возрастанию погрешности при использовании SARIMA для анализа и прогноза инфекционной заболеваемости [8, 15]. Улучшение качества прогноза возможно путем применения дополнительных процедур обработки временного ряда [1]. При анализе инфекционной заболеваемости популярным является применение методов сезонной декомпозиции [5, 15]. Как правило, при декомпозиции исходный ряд разделяют на тренд, сезонную и случайную компоненты. В определенном приближении можно сказать, что тренд характеризует многолетние изменения заболеваемости, сезонная компонента описывает ее закономерные колебания в пределах календарного года или квартала, а случайная компонента отражает нерегулярные колебания показателя [6]. Каждую составляющую компоненту временного ряда заболеваемости можно использовать для построения предсказательной модели, хотя случайная компонента, как правило, не учитывается [15]. При этом каждая компонента обладает своими отличительными характеристиками, влияющими на идентификацию модели. Вследствие этого ожидаемая точность модели, полученной с помощью декомпозиции, должна быть выше по сравнению с точностью модели, полученной при анализе исходного временного ряда. Как и алгоритм SARIMA, алгоритм декомпозиции временных рядов реализован в пакетах многих статистических программ, что позволяет проводить процедуру первичного анализа и прогнозирования уровня инфекционной заболеваемости в автоматизированном режиме. Целью данной работы явилась оценка возможности применения смешанной техники прогнозирования инфекционной заболеваемости на основе методов декомпозиции временного ряда и SARIMA. МАТЕРИАЛЫ И МЕТОДЫ Нами были проанализированы временные ряды уровня заболеваемости тремя инфекционными патологиями, актуальными для Российской Федерации: геморрагическая лихорадка с почечным синдромом (ГЛПС, код МКБ 10 - А98.5), острые инфекции верхних дыхательных путей множественной и неуточненной локализации (ОРВИ, J06), сифилис (впервые выявленный) все формы (А50-А53). Данные о первичной заболеваемости для контингента «все жители» были получены из [3]. Использовали помесячные значения на интервале 2010-2017 гг. для 12 территориальных образований Приволжского федерального округа (ПФО) в целом по региону и отдельно в регио-нальной столице (всего 24 территории). Оренбургская область и республика Мордовия не были включены в исследование, поскольку для этих территорий отсутствовали некоторые данные о первичной заболеваемости за анализируемый период. Алгоритм моделирования был реализован в виде скриптов на языках Python и R с использованием интегрированных сред разработки Spyder и RStudio. Построение модели уровня заболеваемости проводили в три этапа. На первом этапе проводили декомпозицию временного ряда уровня заболеваемости с выделением тренда, сезонной и случайной компонент. Периодичность временного ряда принималась равной 12 месяцам. Процедура декомпозиции была выполнена с использованием метода X13-ARIMA-SEATS, разработанного Бюро переписи США (US Bureau of the Census, http://www.census.gov/srd/www/x13as/). Метод был реализован с применением функции seas пакета «seasonal» для языка R [4]. Контроль качества разложения осуществлялся путем применения статистических тестов Бокс-Льюнга на отсутствие автокорреляции остатков и теста Шапиро-Уилка на соответствие распределения остатков нормальному распределению. После декомпозиции проводили оценку динамики компонент и их численного вклада в уровень заболеваемости. На втором этапе производили раздельное моделирование тренда и сезонной компоненты с применением SARIMA с периодом 12 месяцев. Этап алгоритма был реализован с использованием функции auto.arima пакета «forecast» для языка R [7]. Подбор оптимальных параметров модели осуществлялся автоматически в рамках работы функции на основании статистических тестов: тест Дирка-Фуллера для определения порядка интегрирования, тест Осборна для определения сезонности и информационного критерия Акаике для финального выбора модели. Контроль качества разложения осуществляется путем применения статистических тестов БоксЛьюнга на отсутствие автокорреляции остатков и теста Харке-Бера на соответствие распределения остатков нормальному распределению. На третьем этапе получали итоговую модель уровня заболеваемости путем сложения моделей тренда и сезонной компоненты. Расчет 95% доверительного интервала предсказанных значений также производили путем суммирования соответствующих значений для моделей тренда и сезонной компоненты. Моделирования случайной компоненты не производили. Для каждой из 24 территорий оценивали возможность применения decSARIMA для построения модели и прогноза для трех исследуемых инфекций. В качестве обучающей выборки использовали данные о первичной заболеваемости за период 2010- 2016 гг. без предварительной обработки. Для проверки прогностической способности получаемой модели использовали данные о первичной заболеваемости за 2017 г. Для оценки точности прогноза моделей применяли параметр средней абсолютной масштабируемой ошибки (MASE) [9], при этом в качестве наивного прогноза рассчитывали усредненные помесячные значения уровня заболеваемости. Проводили сравнение прогнозирующей способности моделей, полученных методом decSARIMA и методом SARIMA без предварительной декомпозиции. Для этого для каждого заболевания рассчитывали значения ошибок MASE моделей decSARIMA и SARIMA для 24 исследуемых территорий. Далее с применением непараметрического критерия Манна-Уитни для каждого заболевания проводили сравнение двух распределений значений ошибок. Различия распределений ошибок MASE decSARIMA и ошибок MASE SARIMA с уровнем значимости p<0.05 считали статистически значимыми. В тексте распределение значений MASE описывали с указанием медианы, 25 и 75 процентилей. 80 РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ Нами были проанализированы временные ряды уровня заболеваемости тремя инфекционными патологиями на 24 территориях ПФО различного масштаба. Для каждой инфекции и каждой территории удалось построить предсказательную модель уровня заболеваемости как методом decSARIMA, так и методом SARIMA без предварительной декомпозиции. При построении моделей decSARIMA и проведении процедуры декомпозиции для различных инфекций были выявлены отличия динамики компонент временных рядов и их вклада в общий уровень заболеваемости. В среднем модели decSARIMA обладали более высокими или схожими характеристиками качества модели и прогноза по сравнению с моделями SARIMA. Медиана значений MASE для всех моделей decSARIMA составила 0,730 (0,555; 1,000), а для всех моделей SARIMA — 0,795 (0,593; 1,090). Также прогнозные значения уровня заболеваемости, полученные методом decSARIMA, характеризовались более узким доверительным интервалом. Преимущество, использования моделей decSARIMA зависело от компонентного состава и динамики компонент временного ряда уровня заболеваемости. Так, в уровень заболеваемости ГЛПС большой вклад вносили как тренд, так и сезонная компонента. При этом тренд характеризовался наличием межгодовых вариаций с периодами спада и подъема значений. Нам не удалось выявить четко выраженную многолетнюю цикличность тренда, возможно, в связи с недостаточно длительным временным интервалом, использованном в исследовании. Также декомпозиция уровня заболеваемости ГЛПС позволила выделить четко выраженную и стабильную сезонную компоненту, что свидетельствует о наличии внутригодовой (сезонной) цикличности заболеваемости инфекцией. Модели заболеваемости ГЛПС, полученные методом decSARIMA, обладали более высокой точностью по сравнению с моделями SARIMA (рис. 1). При моделировании заболеваемости ГЛПС значение MASE моделей decSARIMA составило 0,822 (0,558; 1,221), а моделей SARIMA — 1,020 (0,832; 1,507). При этом распределения значений MASE моделей decSARIMA и SARIMA статистически значимо отличалось (p=0,009).

Рис.1 Моделирование и прогноз уровня заболеваемости ГЛПС на территории ПФО (на примере города Уфа).

Также как и в случае ГЛПС, существенный вклад в уровень заболеваемости ОРВИ вносили тренд и сезонная компонента. Сезонная компонента характеризовалась четкой внутригодовой цикличностью, в то время как межгодовых изменений уровня тренда выявить не удалось. В среднем значения тренда сохранялись на высоком, но постоянном уровне. При этом, хотя точность моделей decSARIMA в среднем превышала точность моделей SARIMA (значение MASE моделей decSARIMA составило 0,879 (0,708; 1,121), для моделей SARIMA — 0,931 (0,762; 1,169)) (рис. 2), статистически значимых различий между двумя распределениями MASE выявить не удалось (р=0,204).

Рис.2. Моделирование и прогноз уровня заболеваемости ОРВИ на территории ПФО (на примере Республики Марий Эл).

При декомпозиции временного ряда уровня заболеваемости сифилисом нам не удалось выделить значимую сезонную компоненту. При этом был отмечен относительно весомый вклад случайной компоненты. Таким образом, в уровень заболеваемости сифилисом основной вклад вносили тренд (практически на всех территориях наблюдали нисходящий тренд) и случайная компонента. Применение декомпозиции не давало преимуществ при построении прогностический модели уровня заболеваемости сифилисом. Значение MASE моделей decSARIMA составило 0,586 (0,467; 0,713), а моделей SARIMA — 0,545 (0,447; 0,638). Статистически значимых отличий распределения значений MASE для моделей, построенных двумя методами, выявлено не было (р=0,360). На основании полученных нами данных мы предполагаем, что применение смешанной техники прогнозирования инфекционной заболеваемости на основе методов декомпозиции временного ряда и SARIMA способно улучшить качество моделирования и прогноза уровня инфекционной заболеваемости некоторыми инфекциями. Прежде всего, это инфекции, для которых характерна выраженная сезонность и наличие межгодовых отличий уровня заболеваемости (изменения тренда). В этом случае применение декомпозиции и раздельное моделирование тренда и сезонной компоненты позволяет снизить ошибку модели и прогноза, а также сузить доверительный интервал прогноза.Преимущества decSARIMA для моделирования заболеваемости такими инфекциями можно легко объяснить тем, что каждая составляющая временного ряда, полученная в ходе декомпозиции, имеет свои отличные характеристики. Следовательно, попытки описать все компоненты единой функцией неизбежно приведут к возникновению ошибок. Помимо статистического, можно предложить и биологическое обоснование необходимости раздельного моделирования компонент временного ряда заболеваемости, поскольку такой подход учитывает сложность и многофакторность эпидемического процесса. В то же время, модель decSARIMA является сложной, поскольку представляет из себя сумму двух SARIMA моделей. Это приводит к затруднениям при подборе параметров модели. Определенным образом проблему можно решить за счет создания автоматических алгоритмов обработки данных, в том числе на основе уже имеющихся в широком доступе статистических программ и пакетов. Другим следствием сложности модели decSARIMA является повышенный риск переобучения модели («оверфиттинга»). Переобученные модели идеально описывают тестовую выборку, но дают прогноз с большой ошибкой. Следовательно, для инфекций, временной ряд уровня заболеваемости которыми не демонстрирует выраженную динамику тренда и сезонной компоненты, или они слабо выражены, или сильно выражена случайная компонента, усложнение модели раздельным моделированием тренда и сезонной компонент не дает преимуществ по сравнению с более простыми методами и не является целесообразным. Следует также отметить, что процедура декомпозиции позволяет разделить исходный временной ряд заболеваемости на компоненты, отражающие различные с биологической точки зрения процессы. В то время, как тренд и случайная компонента характеризуют закономерные изменения показателя, случайная компонента, как правило, отражает непредсказуемые события, например, эпидемические вспышки. С этой точки зрения декомпозиция может рассматриваться как самостоятельный инструмент анализа эпидемического процесса и, в том числе, применяться для выявления сезонности заболевания и/или факторов, воздействующих на разные этапы его протекания [2]. Нами было показано, что применение смешанной техники прогнозирования инфекционной заболеваемости на основе методов декомпозиции временного ряда и SARIMA позволяет значительно улучшить качество прогноза уровня заболеваемости инфекциями, для которых характерна выраженная сезонность и наличие межгодовых отличий уровня заболеваемости. Для инфекций, у которых отсутствует хорошо выраженная внутригодовая и многолетняя цикличность уровня заболеваемости, применение сложной модели decSARIMA для моделирования и прогноза, хоть и представляет определенные преимущества, является нецелесообразным.

×

Об авторах

Е. Н. Филатова

Нижегородский НИИ эпидемиологии и микробиологии им. акад. И.Н. Блохиной

Автор, ответственный за переписку.
Email: fake@neicon.ru

Филатова Елена Николаевна - кандидат биологических наук.

603950, Нижний Новгород, ул. Малая Ямская, 71, р.т. (831)469-79-46

Россия

Л. А. Солнцев

Нижегородский НИИ эпидемиологии и микробиологии им. акад. И.Н. Блохиной

Email: fake@neicon.ru
Нижний Новгород Россия

Список литературы

  1. Кондратьев М.А. Методы прогнозирования и модели распространения заболеваний. Компьютерные исследования и моделирование. 2013, 5(5):863-882.
  2. Филатова Е.Н., Солнцев Л.А., Уткин О.В. Влияние сезонных факторов на динамику уровня заболеваемости инфекционным мононуклеозом в разных возрастных группах (на примере Нижнего Новгорода). Эпидемиология и инфекционные болезни. 2017, 22(2): 79—85. doi: 10.18821/1560-9529-2017-22-2-79-85.
  3. Эпидемиологический Атлас ПФО [Электронный ресурс]. http://epid-atlas.nniiem.ru/.
  4. Barnett A.G., PJ. Baker PJ., Dobson A.J. Season: Analysing Seasonal Data R Functions. R Package Version 0.3-5. 2014, http://www.seasonal.website/.
  5. Findley D.F., Martin D.E.K. Some Recent Developments and Directions in Seasonal Adjustment. Journal of Official Statistics. 2006, 21(2):343-365.
  6. Hamilton J.D. Time Series Analysis. Cambridge Univ Pres, 1994.
  7. Hyndman R. Forecast: Forecasting Functions for Time Series and Linear Models. R Package Version 8.2. 2017, http://pkg.robjhyndman.com/forecast.
  8. Hyndman R.J., Khandakar Y Automatic Time Series Forecasting: The Forecast Package for R. Journal of Statistical Software. 2008, 27(3). https://wwwjstatsoft.org/article/view/v027i03. doi: 10.18637/jss.v027.i03.
  9. Hyndman R.J., Koehler A.B. Another Look at Measures of Forecast Accuracy. International Journal of Forecasting. 2006, 22(4): 679-688. doi: 10.1016/j.ijforecast.2006.03.001.
  10. Li Q., Na-Na G., Zhan-Ying H. et al. Application of an Autoregressive Integrated Moving Average Model for Predicting the Incidence of Hemorrhagic Fever with Renal Syndrome. The American Journal of Tropical Medicine and Hygiene. 2012, 87(2):364-370. doi: 10.4269/ajtmh.2012.11-0472.
  11. Rios M., Garcia J.M., Sanchez J.A., Perez D. A Statistical Analysis of the Seasonality in Pulmonary Tuberculosis. European Journal of Epidemiology. 2000, 16(5):483-488.
  12. Ture M., Kurt I. Comparison of Four Different Time Series Methods to Forecast Hepatitis A Virus Infection. Expert Systems with Applications. 2006, 31(1):41-46. doi: 10.1016/j.eswa.2005.09.002.
  13. Wongkoon S., Jaroensutasinee M., Jaroensutasinee K. Development of Temporal Modeling for Prediction of Dengue Infection in Northeastern Thailand. Asian Pacific Journal of Tropical Medicine. 2012, 5(3):249-252. doi: 10.1016/S1995-7645(12)60034-0.
  14. Zhang G.P. Time Series Forecasting Using a Hybrid ARIMA and Neural Network Model — ScienceDirect. Neurocomputing. 2003, 50:159-175. doi: https://doi.org/10.1016/S0925-2312(01)00702-0.
  15. Zhang X., Zhang T, Young A.A., Li X. Applications and Comparisons of Four Time Series Models in Epidemiological Surveillance Data. PloS ONE. 2014, 9(2):e91629. doi: 10.1371/journal.pone.0088075.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML
2. Рис.1 Моделирование и прогноз уровня заболеваемости ГЛПС на территории ПФО (на примере города Уфа).

Скачать (412KB)
3. Рис.2. Моделирование и прогноз уровня заболеваемости ОРВИ на территории ПФО (на примере Республики Марий Эл).

Скачать (526KB)

© Филатова Е.Н., Солнцев Л.А., 2019

Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution 4.0 International License.

СМИ зарегистрировано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор).
Регистрационный номер и дата принятия решения о регистрации СМИ: ПИ № ФС77-75442 от 01.04.2019 г.


Данный сайт использует cookie-файлы

Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта.

О куки-файлах