Predictive and Explainable Machine Learning Models for Endocrine, Nutritional, and Metabolic Mortality in Italy Using Geolocalized Pollution Data

Donato Romano; Michele Magarelli; Pierfrancesco Novielli; Domenico Diacono; Pierpaolo Di Bitonto; Nicola Amoroso; Alfonso Monaco; Roberto Bellotti; Sabina Tangaro

doi:10.3390/asi8020048

Applied System Innovation (Apr 2025)

Predictive and Explainable Machine Learning Models for Endocrine, Nutritional, and Metabolic Mortality in Italy Using Geolocalized Pollution Data

Donato Romano,
Michele Magarelli,
Pierfrancesco Novielli,
Domenico Diacono,
Pierpaolo Di Bitonto,
Nicola Amoroso,
Alfonso Monaco,
Roberto Bellotti,
Sabina Tangaro

Affiliations

Donato Romano: Dipartimento di Scienze del Suolo, della Pianta e degli Alimenti, Università degli Studi di Bari Aldo Moro, 70125 Bari, Italy
Michele Magarelli: Dipartimento di Scienze del Suolo, della Pianta e degli Alimenti, Università degli Studi di Bari Aldo Moro, 70125 Bari, Italy
Pierfrancesco Novielli: Dipartimento di Scienze del Suolo, della Pianta e degli Alimenti, Università degli Studi di Bari Aldo Moro, 70125 Bari, Italy
Domenico Diacono: Istituto Nazionale di Fisica Nucleare, Sezione di Bari, 70125 Bari, Italy
Pierpaolo Di Bitonto: Dipartimento di Scienze del Suolo, della Pianta e degli Alimenti, Università degli Studi di Bari Aldo Moro, 70125 Bari, Italy
Nicola Amoroso: Istituto Nazionale di Fisica Nucleare, Sezione di Bari, 70125 Bari, Italy
Alfonso Monaco: Istituto Nazionale di Fisica Nucleare, Sezione di Bari, 70125 Bari, Italy
Roberto Bellotti: Istituto Nazionale di Fisica Nucleare, Sezione di Bari, 70125 Bari, Italy
Sabina Tangaro: Dipartimento di Scienze del Suolo, della Pianta e degli Alimenti, Università degli Studi di Bari Aldo Moro, 70125 Bari, Italy

DOI: https://doi.org/10.3390/asi8020048
Journal volume & issue: Vol. 8, no. 2
p. 48

Abstract

Read online

This study investigated the predictive performance of three regression models—Gradient Boosting (GB), Random Forest (RF), and XGBoost—in forecasting mortality due to endocrine, nutritional, and metabolic diseases across Italian provinces. Utilizing a dataset encompassing air pollution metrics and socio-economic indices, the models were trained and tested to evaluate their accuracy and robustness. Performance was assessed using metrics such as coefficient of determination (r2), mean absolute error (MAE), and root mean squared error (RMSE), revealing that GB outperformed both RF and XGB, offering superior predictive accuracy and model stability (r2 = 0.55, MAE = 0.17, and RMSE = 0.05). To further interpret the results, SHAP (SHapley Additive exPlanations) analysis was applied to the best-performing model to identify the most influential features driving mortality predictions. The analysis highlighted the critical roles of specific pollutants, including benzene and socio-economic factors such as life quality and instruction, in influencing mortality rates. These findings underscore the interplay between environmental and socio-economic determinants in health outcomes and provide actionable insights for policymakers aiming to reduce health disparities and mitigate risk factors. By combining advanced machine learning techniques with explainability tools, this research demonstrates the potential for data-driven approaches to inform public health strategies and promote targeted interventions in the context of complex environmental and social determinants of health.

Published in Applied System Innovation

ISSN: 2571-5577 (Online)
Publisher: MDPI AG
Country of publisher: Switzerland
LCC subjects: Technology: Technology (General): Industrial engineering. Management engineering: Applied mathematics. Quantitative methods
Website: https://www.mdpi.com/journal/asi

About the journal

Abstract

Keywords