Promotion de la santé et prévention des maladies chroniques au Canada (May 2023)

Utilisation des arbres de classification et de régression pour modéliser les données manquantes sur l’IMC, la taille et la masse corporelle chez les jeunes

  • Amanda Doggett,
  • Ashok Chaurasia,
  • Jean-Philippe Chaput,
  • Scott T. Leatherdale

DOI
https://doi.org/10.24095/hpcdp.43.5.03f
Journal volume & issue
Vol. 43, no. 5
pp. 257 – 269

Abstract

Read online

IntroductionLes données issues de mesures de l’indice de masse corporelle (IMC) autodéclarées par les jeunes comportent souvent de graves lacunes, ce qui peut avoir un effet important sur les résultats des recherches les utilisant. La première étape du traitementdes données manquantes consiste à étudier leur niveau et leur structuration. Or les études antérieures qui ont analysé les données manquantes sur l’IMC chez les jeunes ont utilisé une régression logistique, une approche limitée dans sa capacité à discerner des sous-groupes ou à obtenir une hiérarchie dans l’importance des variables, des dimensions pourtant susceptibles de contribuer grandement à la compréhension de la structuration des données manquantes. MethodsCette étude a utilisé des modèles d’arbre de classification et de régression (CART, pour classification and regression tree) stratifiés selon le sexe pour analyser les données manquantes sur la taille, la masse corporelle et l’IMC chez 74 501 jeunes participant à l’étude COMPASS 2018-2019 (une étude de cohorte prospective qui a porté sur les comportements de santé des jeunes canadiens), dans laquelle 31 % des données sur l’IMC étaient manquantes. Des variables telles que le régime alimentaire, le mouvement, les résultats scolaires, la santé mentale et l’utilisation de substances ont été étudiées afin de vérifier leurs associations avec les données manquantes sur la taille, la masse corporelle et l’IMC. ResultsD’après les modèles CART, le fait d’être à la fois plus jeune, de se sentir en surpoids, d’être moins actif physiquement et d’avoir une santé mentale moins bonne a produit des sous-groupes de filles et de garçons où il était très probable que des valeurs d’IMC soient manquantes. Les données manquantes sur l’IMC étaient moins probables chez les répondants de l’enquête plus âgés et ne se sentant pas en surpoids. ConclusionSi l’on se fie aux sous-groupes produits par les modèles CART, utiliser un échantillon au sein duquel les cas dont la valeur de l’IMC est manquante ont été supprimés conduirait à tenir davantage compte des jeunes en meilleure santé sur les plans physique, émotionnel et mental. Étant donné que les modèles CART sont aptes à discerner ces sous-groupes ainsi qu’à établir une hiérarchie dans l’importance des variables, ils constituent un outil précieux pour étudier la structuration des données manquantes et la manière appropriée de gérer ces dernières.