Cet article a été publié dans le cadre du Blogathon sur la science des données.
introduction
Analyse de survie
L'analyse de survie est une branche importante de la statistique qui est prise en compte pour répondre à toutes ces questions..
L'étude d'analyse de survie doit définir un délai dans lequel cette étude est menée. Comme dans de nombreux cas, il est possible que la période de temps donnée pour que l'événement se produise soit la même. L'analyse de survie implique la modélisation des données d'un événement à l'autre. Donc, Nous devons définir le contexte de l'analyse de survie dans l'étude aussi longtemps que le “un événement” dans le cadre de l'analyse de survie.
Il existe différentes manières d'effectuer une analyse de survie. Cela se fait de plusieurs manières, comme quand on définit un groupe. Certaines d'entre elles sont des courbes de Kaplan Meier, Modèles de régression de Cox, fonction de danger, fonction de survie, etc.
Lorsque l'analyse de survie est effectuée pour comparer l'analyse de survie de deux groupes différents. Là, nous effectuons le test Log-Rank.
Quand l'analyse de survie aime décrire des variables catégorielles et quantitatives sur la survie, nous aimons faire la régression des risques proportionnels de Cox, modèles de survie paramétriques, etc.
Dans l'analyse de survie, nous devons définir certains termes avant de continuer, comme l'événement, le temps, la censure, fonction de survie, etc.
Événement, quand on parle de, est l'activité qui se produit ou se produira dans l'étude d'analyse de survie, comme la mort d'une personne d'une maladie particulière, le temps d'obtenir la guérison par un diagnostic médical, il est temps de guérir avec les vaccins, le moment où la panne de la machine s'est produite dans l'atelier, temps d'apparition de la maladie, etc.
Conditions météorologiques
dans l'étude de cas d'analyse de survie, il s'agit du temps écoulé entre le début de l'observation de l'analyse de survie sur le sujet et le moment où l'événement se produira. Comme dans le cas d'une machine mécanique à un défaut, nous devons connaître le
(une) heure d'un événement où la machine démarrera
(b) quand la machine tombera-t-elle en panne
(c) perte de machine ou arrêt de machine à partir d'une étude d'analyse de survie.
La censure / Observation censurée
Cette terminologie est définie comme si le sujet sur lequel nous menons l'étude d'analyse de survie n'était pas affecté par l'événement d'étude défini, alors ils sont décrits comme censurés. Le sujet censuré peut également ne pas avoir d'événement après la fin de l'observation de l'analyse de survie.. Le sujet est dit censuré dans le sens où rien n'a été observé en dehors du sujet après le temps de censure.
Observation de la censure ils sont aussi de 3 les types-
1. Loi censurée
La censure de droite est utilisée dans de nombreux problèmes. Cela se produit lorsque nous ne savons pas ce qui est arrivé aux gens après un certain moment.
Il se produit lorsque le temps réel de l'événement est supérieur au temps censuré lorsque c <t. Cela se produit si certaines personnes ne peuvent pas être suivies pendant toute la durée de l'étude parce qu'elles sont décédées ou ont été perdues de vue ou ont abandonné l'étude..
2. Censuré à gauche
La censure de gauche, c'est quand nous ne savons pas ce qui est arrivé aux gens avant un certain temps. La censure par la gauche est le contraire, Que se passe-t-il lorsque le temps réel de l'événement est inférieur au temps censuré lorsque c> t.
3. plage censurée
La censure par intervalles, c'est quand nous savons que quelque chose s'est passé dans un intervalle (pas avant l'heure de début ou après l'heure de fin de l'étude) mais on ne sait pas exactement quand c'est arrivé dans l'intervalle.
La censure par intervalle est une concaténation de la censure gauche et droite lorsque le temps est connu pour s'être écoulé entre deux points dans le temps.
Fonction de survie S
Ici, nous discuterons de la estimateur de Kaplan Meier.
estimateur de Kaplan Meier
L'estimateur de Kaplan Meier est utilisé pour estimer la fonction de survie pour les données de durée de vie.. C'est une technique statistique non paramétrique. Également connu sous le nom d'estimateur de limite de produit, et le concept réside dans l'estimation du temps de survie pendant un certain temps d'un événement médical important, un certain moment de la mort, panne de machine ou tout événement majeur significatif.
Il existe de nombreux exemples comme
1. Défaillance des pièces de la machine après plusieurs heures de fonctionnement.
2. Combien de temps prendra le vaccin COVID 19 en guérissant le patient.
3. Combien de temps faut-il pour obtenir une guérison à partir d'un diagnostic médical, etc.
4. Estimer combien d'employés quitteront l'entreprise dans une période de temps spécifiée.
5. Combien de patients seront guéris d'un cancer du poumon?
Pour estimer la survie de Kaplan Meier, nous devons d'abord estimer la fonction de survie S
Où (ré) est le nombre d'événements de décès en ce moment
Les hypothèses de survie de Kaplan Meier
Dans des cas réels, nous n'avons aucune idée de la véritable fonction du taux de survie. Donc, dans l'estimateur de Kaplan Meier, nous estimons et approximons la fonction de survie réelle à partir des données de l'étude. Il y a 3 Hypothèses de survie de Kaplan Meier
1) Les probabilités de survie sont les mêmes pour tous les échantillons qui se sont joints à la fin de l'étude et ceux qui se sont joints plus tôt.. Il n'est pas censé changer l'analyse de survie qui peut affecter.
2) La survenance d'un événement a lieu à un moment précis.
3) La censure des études ne dépend pas du résultat. La méthode de Kaplan Meier ne dépend pas du résultat d'intérêt.
L'interprétation de l'analyse de survie est l'axe Y montrant la probabilité qu'un sujet ne soit pas inclus dans l'étude de cas. L'axe des X montre la représentation de l'intérêt du sujet après avoir survécu jusqu'au moment. Chaque baisse de la fonction de survie (approximé par l'estimateur de Kaplan-Meier) est causée par l'événement d'intérêt qui se produit au cours d'au moins une observation.
Le graphique est généralement accompagné d'intervalles de confiance, pour décrire l'incertitude sur les estimations ponctuelles (les intervalles de confiance les plus larges montrent une incertitude élevée, cela se produit lorsque nous avons quelques participants) se produit à la fois dans les observations qui meurent et celles qui sont censurées.
Aspects importants à considérer pour l'analyse de l'estimateur de Kaplan Meier
1) Nous devons effectuer le test de log rank pour faire n'importe quel type d'inférence.
2) Les résultats de Kaplan Meier peuvent être facilement biaisés. Le Kaplan Meier est une approche univariée pour résoudre le problème.
3) La suppression des données censurées entraînera une modification de la forme de la courbe. Cela créera des biais dans l'ajustement du modèle.
4) Les tests statistiques et les observations deviennent trompeurs si une dichotomie variable continue est effectuée.
5) En dichotomisant les médias, nous prenons des mesures statistiques telles que la médiane pour créer des groupes, mais cela peut entraîner des problèmes dans l'ensemble de données.
Prenons l'exemple en Python
Enlacer un cahier- (https://drive.google.com/file/d/1VGKZNViDbx4rx_7lGMCA6dgU3XuMKGVU/view?usp=partage)
Importons l'importante bibliothèque nécessaire pour travailler en Python
Premier, nous importons différentes bibliothèques python pour notre travail. Ici, nous avons pris l'ensemble de données sur le cancer du poumon. Après bibliothèques et chargement, nous allons lire les données en utilisant la bibliothèque pandas. L'ensemble de données contient différentes informations
Traitement 1 = norme, 2 = tester, Type de cellule 1 = feuilleté, 2 = petit
téléphone portable, 3 = adéno, 4 = grand, Survie en jours, État 1 = mort, 0 = censuré, Score de Karnofsky (une mesure de la performance globale, 100 = mieux), Mois à compter du diagnostic, Âge en années Traitement antérieur 0 = non, 10 = oui, etc.
Ici on voit la tête et la queue.
À présent, ici nous importons le code Python pour effectuer l'estimateur Kaplan Meier
Ici, nous effectuons l'analyse sur le score de Karnofsky, l'axe des x représente la chronologie et l'axe des y montre le score. Le meilleur score est 1, signifie que le sujet est en forme, une vingtaine de 0 signifie le pire score.
Ensuite, nous appliquons le code de survie, Thérapie précédente, le traitement ici, nous allons faire l'analyse d'estimation de Kaplan Meier.
Ensuite, nous correspondons kmf1 = KaplanMeierFitter () pour s'adapter à la fonction Kaplan Meier et exécuter le code suivant pour différentes données liées aux problèmes de cancer du poumon.
L'estimateur de Kaplan Meier après avoir exécuté le code montre le graphique entre le test de traitement standard et le test de traitement.
Dans cet article, mon objectif principal était d'expliquer l'analyse de survie avec l'estimateur de Kaplan Meier. Les choses qui s'y rapportent et une description du problème dans la vraie vie.
Avantages et inconvénients de l'estimateur Kaplan Meier
avantage
1) Ne nécessite pas trop de fonctionnalités; seul le temps est requis pour l'événement d'analyse de survie.
2) Fournit un aperçu moyen lié à l'événement.
Désavantages
1) De nombreuses variables ne peuvent pas être corrélées et surveillées simultanément.
2) Si les données de censure sont supprimées, le modèle sera asymétrique au moment de l'ajustement.
3) Une estimation adéquate de l'ampleur du changement de l'événement ne peut pas être prédite.