« Big Data » : un Janus du 21ème siècle ?

6 Février 2018
Dossier

Page 7 sur 10: « Big data » et médecine de prédiction en transplantation

Page 7 sur 10

« Big data » et médecine de prédiction en transplantation

Bien que l’apprentissage automatique (ou « machine learning ») soit dominé par le secteur industriel (comme Netflix® dont les algorithmes permettent, en fonction du profil, de proposer des films adaptés à l’utilisateur), la médecine de demain ne peut pas rester une simple observatrice. Pour atteindre ce but, le domaine de la transplantation (rénale, en particulier et de la médecine, en général) se doit d’aller vers une pratique intégrant l’ensemble des données des patients : non seulement les informations cliniques, biologiques, immunologiques et histologiques, mais aussi de nouveaux biomarqueurs et des technologies révolutionnaires que ce soit en immunologie ou issues de l’expression de gènes spécifiques, tout cela au sein de « smart data » multidimensionnelles.

En effet, malgré les avancées considérables concernant les résultats à court terme de la transplantation rénale, peu d'améliorations ont été faites au cours des 15 dernières années sur la survie à long terme non seulement des patients transplantés mais aussi de la fonction des organes transplantés. Les deux principales limitations sont la grande hétérogénéité des patients et l'absence de systèmes pronostiques robustes pouvant permettre de fournir une prédiction individuelle de la perte de fonction de l’organe transplanté. Prédire avec précision quels patients présentent un risque élevé de perte de fonction permettrait une transition vers une médecine plus personnalisée/individualisée.

L’amélioration de la capacité prédictive de la survie à long terme n’a pas seulement pour objectif l’amélioration des soins cliniques quotidiens ou des décisions thérapeutiques, mais aussi la réalisation d'essais cliniques, qui manquent généralement de puissance en raison des nombres faibles d'évènements survenant la première année de transplantation : la plupart des études cliniques réalisées dans le domaine de la transplantation d’organes qui choisissent comme critère d’analyse la survie de l’organe transplanté analysent surtout la fonction de l’organe dans sa première année de transplantation. Malgré ce besoin médical pressant, il n'existe actuellement aucun outil validé pour prédire la survie à long terme des organes transplantés après la transplantation rénale. Les paramètres de la transplantation pris individuellement (comme le débit de filtration glomérulaire, la protéinurie, l'histologie ou les anticorps dirigés contre le donneur) n'ont pas un pouvoir prédictif suffisant. Les efforts réalisés jusqu’à présent pour développer des modèles pronostiques fondés sur des combinaisons de paramètres ont été limités par le nombre trop faible de patients inclus, l'absence de validation appropriée, les détails phénotypiques limités des registres (c’est-à-dire les informations liées au patient transplanté), l'absence de surveillance systématique de la réponse immunitaire et l'incapacité d'inclure des facteurs pronostiques clés qui affectent la survie des organes transplantés.

En effet, un simple prédicteur ne peut procurer une estimation adéquate et précise du pronostic du patient compte tenu de la variabilité entre les patients et des causes des maladies. Le modèle pronostique doit donc prendre en compte plusieurs facteurs pronostiques conjointement pour permettre une prédiction individuelle précise. Ainsi des modèles pronostiques multivariés (qui prennent en compte l’ensemble de ces données) sont réalisés afin d’obtenir des outils permettant d’estimer des probabilités que l’évènement associé à différentes combinaisons de prédicteurs survienne. Cela a pour objectif de fournir aux médecins qui suivent ces patients des informations pronostiques précises sur la base de multiples prédicteurs et de minimiser les biais liés à l’hétérogénéité de pronostic de chaque patient alors même qu’ils sont atteints par une même pathologie. Ces modèles ont également pour intérêt de confronter des facteurs pronostiques entre eux et évaluer la part prédictive additionnelle d’un facteur pronostique par rapport aux autres. En effet, si un nouveau biomarqueur, par exemple, est associé à un évènement, encore faut-il démontrer sa valeur additive pour son emploi dans la pratique courante par rapport aux critères qui sont déjà disponibles.

La principale limitation est donc le nombre croissant de nouveaux facteurs de risques incluant les biomarqueurs sanguins, urinaires mais également l’étude de l’expression des gènes au sein de l’organe transplanté apportant pour chaque patient des dizaines de milliers de nouvelles informations. Cela rend donc les modèles de classification et de pronostic usuels nettement sub-optimaux et impose l’utilisation des modèles statistiques de « machine learning » applicables aux données multidimensionnelles des « smart data ». Leurs avantages sont d’une part leur capacité à identifier des facteurs de risques importants parmi des patients ayant des facteurs de risques marginaux et, d’autre part, d’inclure continuellement de nouveaux facteurs de risques avec un faible risque d’erreur. Les plus utilisés sont actuellement l’« artificial neural network » (réseaux de neurones artificiels), le « Random Forest » (arbres décisionnels) et les archétypes. Un réseau de neurones artificiels est un système dont la conception est à l'origine schématiquement inspirée du fonctionnement des neurones biologiques et qui, par la suite, s'est rapproché des méthodes statistiques. Ce modèle est majoritairement utilisé pour la classification et la prédiction individuelle avec une grande tolérance pour le bruit de fond et sa capacité à classer des « patterns » (c’est-à-dire des grands ensembles de comportement) non visibles sans eux. Les analyses de « Random Forest » permettent la classification, la régression et d'autres tâches, qui fonctionnent en construisant une multitude d'arbres décisionnels en indiquant le mode des classes (classification) ou la prédiction moyenne (régression). L'algorithme du « Random Forest » est de nos jours l'un des meilleurs algorithmes de classification disponibles. Les archétypes expriment quant à eux l'unicité de chaque échantillon en termes de relation avec chaque archétype, permettant une évaluation précise et probabiliste. De plus, l'utilisation de ces analyses, en combinaison avec des méthodes telles que l'analyse en composantes principales, permet de visualiser les caractéristiques uniques de chaque échantillon par rapport à tous les autres échantillons d'un ensemble de référence dans des figures bidimensionnelles ou tridimensionnelles. La création de scores, issus de ces algorithmes de « machine learning » permettra ainsi de fournir aux médecins de transplantation un outil innovant et facilement accessible pour la prédiction précoce du risque individuel de rejet, de perte de fonction du greffon ou bien de décès en utilisant la multitude de facteurs de risques disponibles sans sélection préalable. Cela permettra alors d’approcher une médecine personnalisée ou de précision et d’améliorer les résultats à long terme de la transplantation.

N°52