Questo articolo è stato pubblicato nell'ambito del Blogathon sulla scienza dei dati.
introduzione
Analisi di sopravvivenza
L'analisi di sopravvivenza è un ramo importante della statistica che viene preso in considerazione per rispondere a tutte queste domande..
Lo studio di analisi della sopravvivenza dovrebbe definire un arco di tempo in cui questo studio è condotto. Come in molti casi, è possibile che il periodo di tempo concesso per il verificarsi dell'evento sia lo stesso l'uno con l'altro. L'analisi di sopravvivenza implica la modellazione dei dati di volta in volta. Perciò, Abbiamo bisogno di definire il contesto dell'analisi di sopravvivenza nello studio il tempo come il “evento” nel contesto dell'analisi di sopravvivenza.
Ci sono diversi modi in cui facciamo analisi di sopravvivenza. Si fa in diversi modi, come quando definiamo un gruppo. Alcuni di loro sono curve di Kaplan Meier, Modelli di regressione di Cox, funzione di pericolo, funzione di sopravvivenza, eccetera.
Quando viene eseguita l'analisi di sopravvivenza per confrontare l'analisi di sopravvivenza di due diversi gruppi. Lì eseguiamo il test Log-Rank.
Quando l'analisi della sopravvivenza ama descrivere le variabili categoriche e quantitative sulla sopravvivenza, ci piace fare la regressione dei rischi proporzionali di Cox, modelli parametrici di sopravvivenza, eccetera.
Nell'analisi della sopravvivenza, dobbiamo definire alcuni termini prima di procedere, come l'evento, tempo, la censura, funzione di sopravvivenza, eccetera.
Evento, quando parliamo di, è l'attività che sta accadendo o accadrà nello studio di analisi di sopravvivenza, come la morte di una persona per una particolare malattia, il tempo per ottenere la cura da una diagnosi medica, tempo di guarire con i vaccini, il momento in cui si è verificato il guasto della macchina in officina, tempo per l'insorgenza della malattia, eccetera.
Tempo metereologico
nel caso di studio dell'analisi di sopravvivenza è il tempo dall'inizio dell'osservazione dell'analisi di sopravvivenza sul soggetto al momento in cui si verificherà l'evento. Come nel caso di una macchina meccanica ad un guasto, dobbiamo sapere il
(un) ora di un evento in cui la macchina si avvia
(B) quando si guasterà la macchina?
(C) perdita della macchina o arresto della macchina dallo studio di analisi di sopravvivenza.
Censura / Osservazione censurata
Questa terminologia è definita come se l'argomento su cui stiamo facendo lo studio di analisi di sopravvivenza non sia influenzato dall'evento di studio definito, poi vengono descritti come censurati. Il soggetto censurato può anche non avere un evento dopo la fine dell'osservazione dell'analisi di sopravvivenza.. Il soggetto è detto censurato nel senso che nulla è stato osservato al di fuori del soggetto dopo il tempo di censura.
Censura di osservazione sono anche di 3 tipi-
1. Legge censurata
La censura di destra è usata in molti problemi. Succede quando non siamo sicuri di cosa sia successo alle persone dopo un certo punto nel tempo.
Si verifica quando il tempo reale dell'evento è maggiore del tempo censurato in cui c <T. Questo accade se alcune persone non possono essere seguite per tutto il tempo perché sono morte o sono state perse al follow-up o hanno abbandonato lo studio..
2. Sinistra censurata
La censura di sinistra è quando non siamo sicuri di cosa sia successo alle persone prima di qualche tempo. La censura da sinistra è l'opposto, Cosa succede quando il tempo reale dell'evento è inferiore al tempo censurato in cui c> T.
3. gamma censurata
La censura a intervalli è quando sappiamo che qualcosa è successo in un intervallo (non prima dell'orario di inizio o dopo l'orario di fine dello studio) ma non sappiamo esattamente quando è successo nell'intervallo.
La censura a intervalli è una concatenazione di censura sinistra e destra quando è noto che il tempo si è verificato tra due punti temporali.
Funzione di sopravvivenza S
Qui, parleremo di EstimatoreIl "Estimatore" è uno strumento statistico utilizzato per dedurre le caratteristiche di una popolazione da un campione. Si basa su metodi matematici per fornire stime accurate e affidabili. Esistono diversi tipi di stimatori, come l'imparzialità e la coerenza, che vengono scelti in base al contesto e all'obiettivo dello studio. Il suo corretto utilizzo è essenziale nella ricerca scientifica, Sondaggi e analisi dei dati.... di Kaplan Meier.
Stimatore Kaplan Meier
Lo stimatore di Kaplan Meier viene utilizzato per stimare la funzione di sopravvivenza per i dati relativi alla vita.. È una tecnica di statistica non parametrica. Conosciuto anche come stimatore del limite di prodotto, e il concetto sta nella stima del tempo di sopravvivenza durante un certo tempo di un importante evento medico, un certo momento della morte, guasto della macchina o qualsiasi evento significativo importante.
Ci sono molti esempi come
1. Guasto di parti della macchina dopo diverse ore di funzionamento.
2. Quanto durerà il vaccino contro il COVID 19 nel curare il paziente.
3. Quanto tempo ci vuole per ottenere una cura da una diagnosi medica, eccetera.
4. Stima quanti dipendenti lasceranno l'azienda in un determinato periodo di tempo.
5. Quanti pazienti saranno curati con il cancro ai polmoni?
Per stimare la sopravvivenza di Kaplan Meier, dobbiamo prima stimare la funzione di sopravvivenza S
In cui si (D) è il numero di eventi di morte al momento
Ipotesi di sopravvivenza di Kaplan Meier
In casi reali, non abbiamo idea della vera funzione del tasso di sopravvivenza. Perciò, nello stimatore di Kaplan Meier stimiamo e approssimiamo la funzione di sopravvivenza reale dai dati dello studio. Ci sono 3 Ipotesi di sopravvivenza di Kaplan Meier
1) Le probabilità di sopravvivenza sono le stesse per tutti i campioni che si sono uniti alla fine dello studio e per quelli che si sono uniti in precedenza.. Non dovrebbe cambiare l'analisi di sopravvivenza che può influenzare.
2) Il verificarsi di un evento avviene in un momento specifico.
3) La censura dello studio non dipende dal risultato. Il metodo Kaplan Meier non dipende dal risultato di interesse.
L'interpretazione dell'analisi di sopravvivenza è l'asse Y che mostra la probabilità di un soggetto non incluso nel caso di studio. L'asse X mostra la rappresentazione dell'interesse del soggetto dopo essere sopravvissuto fino al momento. Ogni calo nella funzione di sopravvivenza (approssimato dallo stimatore di Kaplan-Meier) è causato dall'evento di interesse che si verifica durante almeno un'osservazione.
Il grafico è solitamente accompagnato da intervalli di confidenza, per descrivere l'incertezza sulle stime puntuali (gli intervalli di confidenza più ampi mostrano un'elevata incertezza, questo accade quando abbiamo pochi partecipanti) si verifica sia nelle osservazioni che muoiono sia in quelle che vengono censurate.
Aspetti importanti da considerare per l'analisi dello stimatore Kaplan Meier
1) Abbiamo bisogno di eseguire il log rank test per fare qualsiasi tipo di inferenza.
2) I risultati di Kaplan Meier possono essere facilmente distorti. Il Kaplan Meier è un approccio univariato alla risoluzione del problema.
3) L'eliminazione dei dati censurati provocherà un cambiamento nella forma della curva. Questo creerà distorsioni nell'adattamento del modello.
4) Le prove e le osservazioni statistiche diventano fuorvianti se la dicotomia variabileIn statistica e matematica, un "variabile" è un simbolo che rappresenta un valore che può cambiare o variare. Esistono diversi tipi di variabili, e qualitativo, che descrivono caratteristiche non numeriche, e quantitativo, che rappresentano quantità numeriche. Le variabili sono fondamentali negli esperimenti e negli studi, poiché consentono l'analisi delle relazioni e dei modelli tra elementi diversi, facilitare la comprensione di fenomeni complessi.... continuo.
5) Dicotomizzando i media, Adottiamo misure statistiche come medianoLa mediana è una misura statistica che rappresenta il valore centrale di un insieme di dati ordinati. Per calcolarlo, I dati sono organizzati dal più basso al più alto e viene identificato il numero al centro. Se c'è un numero pari di osservazioni, I due valori fondamentali sono mediati. Questo indicatore è particolarmente utile nelle distribuzioni asimmetriche, poiché non è influenzato da valori estremi.... Per creare gruppi, ma questo può portare a problemi nel set di dati.
Prendiamo l'esempio in Python
Allacciare un taccuino- (https://drive.google.com/file/d/1VGKZNViDbx4rx_7lGMCA6dgU3XuMKGVU/view?usp=condivisione)
Importiamo l'importante libreria necessaria per lavorare in Python
Primo, stiamo importando diverse librerie Python per il nostro lavoro. Qui, abbiamo preso il set di dati sul cancro del polmone. Dopo le librerie e il caricamento, leggeremo i dati utilizzando la libreria pandas. Il set di dati contiene informazioni diverse
Trattamento 1 = standard, 2 = prova, Tipo di cella 1 = traballante, 2 = piccolo
cellulare, 3 = adeno, 4 = grande, Sopravvivenza in giorni, Stato 1 = morto, 0 = censurato, Punteggio di Karnofsky (un misuraIl "misura" È un concetto fondamentale in diverse discipline, che si riferisce al processo di quantificazione delle caratteristiche o delle grandezze degli oggetti, fenomeni o situazioni. In matematica, Utilizzato per determinare le lunghezze, Aree e volumi, mentre nelle scienze sociali può riferirsi alla valutazione di variabili qualitative e quantitative. L'accuratezza della misurazione è fondamentale per ottenere risultati affidabili e validi in qualsiasi ricerca o applicazione pratica.... delle prestazioni complessive, 100 = meglio), Mesi dalla diagnosi, Età in anni Terapia precedente 0 = no, 10 = si, eccetera.
Qui vediamo la testa e la coda.
Ora, qui importiamo il codice Python per eseguire il Kaplan Meier Estimator
Qui, effettuiamo l'analisi sul punteggio di Karnofsky, l'asse x rappresenta la timeline e l'asse y mostra il punteggio. Il miglior punteggio è 1, significa che il soggetto è adatto, un punteggio di 0 significa il punteggio peggiore.
Quindi applichiamo il codice di sopravvivenza, Terapia precedente, il trattamento qui faremo l'analisi di stima di Kaplan Meier.
Quindi, ci adattiamo kmf1 = KaplanMeierFitter () per adattare la funzione Kaplan Meier ed eseguire il seguente codice per diversi dati relativi a problemi di cancro ai polmoni.
Lo stimatore Kaplan Meier dopo aver eseguito il codice mostra il grafico tra lo standard del test di trattamento e il test di trattamento.
In questo articolo, il mio obiettivo principale era spiegare l'analisi di sopravvivenza con lo stimatore Kaplan Meier. Le cose ad esso correlate e una descrizione del problema nella vita reale.
Vantaggi e svantaggi di Kaplan Meier Estimator
Vantaggio
1) Non richiede troppe funzioni; è richiesto solo il tempo per l'evento di analisi di sopravvivenza.
2) Fornisce una panoramica media relativa all'evento.
Svantaggi
1) Molte variabili non possono essere correlate e monitorate contemporaneamente.
2) Se i dati di censura vengono rimossi, il modello sarà distorto al momento dell'adattamento.
3) Non è possibile prevedere una stima adeguata dell'entità del cambiamento nell'evento.