Passer au contenu principal

Votre navigateur n’est malheureusement pas entièrement pris en charge. Si vous avez la possibilité de le faire, veuillez passer à une version plus récente ou utiliser Mozilla Firefox, Microsoft Edge, Google Chrome, ou Safari 14 ou plus récent. Si vous n’y parvenez pas et que vous avez besoin d’aide, veuillez nous faire part de vos commentaires.

Nous vous serions reconnaissants de nous faire part de vos commentaires sur cette nouvelle expérience.Faites-nous part de votre opinion(S’ouvre dans une nouvelle fenêtre)

Elsevier
Publier avec nous
Connect

Comprendre et utiliser les statistiques en médecine

31 août 2023

La référence pour utiliser les statistiques en médecine.

Comprendre et utiliser les statistiques en médecine

Comprendre et utiliser les statistiques en médecine

Avant-propos

En 2007 paraissait la 3e et dernière édition de « comprendre et utiliser les statistiques dans les sciences de la vie ». Une mise à jour étant à l’évidence nécessaire, il a fallu se pencher sur les modifications à apporter. Une réalité s’est alors rapidement imposée : tout avait changé, ou presque. En 15 ans, la statistique médicale a connu des bouleversements considérables. Les représentations graphiques, autrefois souvent considérées avec condescendance, sont devenues un enjeu de communication scientifique incontournable avec, à la clé, le succès du concept de « visualisation des données » plus souvent décliné sous la forme anglophone de data visualisation. Les progrès théoriques réalisés par les statisticiens n’ont pas été en reste. Ils ont notamment permis la vulgarisation de méthodes permettant d’analyser des données répétées dans le temps, comme cela est souvent le cas en épidémiologie ou dans les essais cliniques. Ces méthodes, tels les modèles linéaires généralisés mixtes, sont désormais implémentées dans la plupart des logiciels de statistiques. Elles posent pourtant de redoutables problèmes d’interprétation, problèmes souvent ignorés par ceux qui les utilisent avec, parfois, des conséquences non négligeables sur la fiabilité des résultats publiés. Le mésusage de l’outil statistique est d’ailleurs régulièrement pointé comme sujet de préoccupation majeur par les revues scientifiques les plus prestigieuses. Ce mésusage est certes en partie expliqué par une course effrénée aux publications ; il provient également d’une incompréhension des fondements de la statistiques, en particulier de ce que les tests d’hypothèses permettent de dire ou de ne pas dire. Enfin, comment ne pas évoquer ici l’arrivée d’une « science des données », particulièrement à son aise avec les « big data », deux nouveaux concepts à la mode, mais qui rendent pourtant souvent perplexes les biostatisticiens.

Voilà, en quelques lignes, le programme qui va nous occuper dans les pages à venir. Vous n’y trouverez aucune formule mathématique, ou si peu. Nous pensons en effet que la compréhension intime, en particulier formelle, des outils statistiques n’est envisageable et véritablement utile que pour le seul statisticien professionnel. Point de formule, mais pas de discours simpliste non plus. Un excès louable de pédagogie pourrait amener à penser que quelques règles élémentaires permettraient d’utiliser les outils statistiques en toute sécurité. Voilà qui est peut-être vrai lors des premiers pas du biostatisticien, mais qui peut se révéler nuisible par la suite. Il n’y a que rarement du « vrai » et du « faux » en biostatistique ; le plus souvent, les outils sont plutôt « acceptables dans un contexte donné ». Le scientifique doit penser au cadre expérimental, à la question posée, à l’outil statistique envisagé puis, à partir de ce contexte très général, c’est lui ou elle qui décidera si oui ou non les résultats sont suffisamment fiables pour pouvoir être rapportés. C’est notamment dans cette optique que nous avons abordé la question des conditions de validité des tests ou des modèles. Il s’agit d’une position tant éthique que méthodologique : le chercheur est responsable de ce qu’il communique dans ses publications ou dans ses conférences et la statistique est, dans ce domaine, un élément incontournable. Il ne faudra donc pas s’étonner que, par moments, nous ayons pris la décision de souligner la complexité de certains des concepts ou méthodes présentées. Cette complexité doit nous rendre d’autant plus humbles et prudents dans nos conclusions.

Penser l’analyse des données aujourd’hui ne peut se faire sans considérer l’outil logiciel qui va être utilisé. Nous n’avons eu aucune hésitation à ce sujet. R est en effet devenu incontournable du fait de sa puissance, de sa nature ouverte et de ses capacités graphiques. Il est certes un peu difficile à apprendre, mais il oblige de ce fait à une certaine rigueur, ce qui renforce encore davantage la fiabilité des analyses réalisées. À ce propos, les nombreux scripts présents dans le livre sont autant d’exemples de programmation pouvant servir à l’apprentissage de R (1). Les jeux de données utilisés sont par ailleurs disponibles en ligne, ce qui permet de refaire l’ensemble des analyses (2). Ils seront décrits au fur et à mesure de leur utilisation. Le jeu principal est relatif à l’étude « santé mentale en prison », qui visait à estimer les prévalences des troubles mentaux en milieux carcéral. Pour ce faire, 799 détenus ont été interrogés, 93 variables sont disponibles pour la plupart d’entre eux. L’article décrivant les principaux résultats de l’étude est également disponible en ligne (3).

Enfin, nous tenons à remercier chaleureusement Jimmy Mullaert, Mohammed Sedki et Louis Falissard pour la lecture critique d’une partie de la version initiale du manuscrit ; ils ne peuvent être tenus pour responsables des erreurs inévitables qu’il contient.

Paris, le 10 juillet 2023

Bruno Falissard et André Gillibert

1 Pour ceux qui souhaiteraient une introduction à R, il existe par exemple le MOOC « introduction à la statistique avec R » disponible sur la plateforme FUN deux fois par ans. Les vidéos étant par ailleurs disponibles sur https://www.youtube.com/@statb.falissard7434/videos. 2 https://www.kaggle.com/datasets/brunofalissard/data-du-livre-cums 3https://bmcpsychiatry.biomedcentral.com/articles/10.1186/1471-244x-6-33

Comprendre et utiliser les statistiques en médecine(S’ouvre dans une nouvelle fenêtre) de Bruno Falissard et André Gillibert. © 2023 Elsevier Masson SAS

Les auteurs

Bruno Falissard est un ancien élève de l’École Polytechnique, professeur des universités, praticien hospitalier (biostatistique), directeur du CESP (Centre de recherche en épidémiologie et santé des populations), membre titulaire de l’Académie nationale de médecine. André Gillibert est praticien hospitalier en santé publique dans l’unité de biostatistique du CHU de Rouen.

Je découvre le livre(S’ouvre dans une nouvelle fenêtre)

Tous nos ouvrages sur le site elsevier-masson.fr(S’ouvre dans une nouvelle fenêtre)