Визначення детермінантів туберкульозу: аналіз методів машинного навчання та нейронних мереж
DOI: 10.31673/2412-9070.2025.021793
Анотація
Туберкульоз (ТБ) залишається однією з найсерйозніших інфекційних хвороб у світі, зокрема в Індії, де високий рівень захворюваності створює значні виклики для системи охорони здоров’я. Дослідження присвячене аналізу детермінантів поширення туберкульозу в Індії за допомогою методів машинного навчання (ML) та нейронних мереж (NN). Метою роботи є виявлення ключових факторів, що впливають на рівень захворюваності, та розробка точних прогнозних моделей для підтримки стратегій профілактики та лікування. На основі статистичних даних за 2019–2022 роки, що охоплюють демографічні характеристики, соціальні фактори та медичні показники, було проведено комплексний аналіз. Застосовано методи обробки даних, включаючи кореляційний аналіз, oversampling (SMOGN) для балансування вибірки, а також моделювання з використанням лінійних регресій (LM, Ridge, Lasso), алгоритмів ML (Decision Tree, K-Nearest Neighbors, Random Forest) та глибокої нейронної мережі. Результати показали, що лінійні моделі мають обмежену точність (R² Test до 0.600), тоді як Random Forest (R² Test = 0.832) та K-Nearest Neighbors (R² Test = 0.865) значно перевершують їх завдяки здатності враховувати нелінійні залежності. Найвищу точність продемонструвала нейронна мережа (R² Test = 0.822, RMSE Test = 0.433), що підкреслює її ефективність у виявленні складних взаємозв’язків. Ключовими факторами, що впливають на захворюваність, визначено чисельність населення (Population), гендерне співвідношення (Gender Ratio), кількість спеціалізованих центрів (Nodal_DR_TB_Centres_Per_Population) та міські характеристики (City_Encoded). Отримані результати підтверджують перспективність інтеграції ML та NN у медичні дослідження для прогнозування та контролю туберкульозу, що може сприяти розробці персоналізованих підходів до терапії та покращенню громадського здоров’я.
Ключові слова: машинне навчання; нейронні мережі; прогнозування захворюваності; oversampling; SMOGN; лінійна регресія; Random Forest; K-Nearest Neighbors; детермінанти; інтеграція.