Este artigo foi publicado como parte do Data Science Blogathon.
Introdução
Análise de sobrevivência
A análise de sobrevivência é um importante ramo da estatística que é levado em consideração para responder a todas essas perguntas..
O estudo de Análise de Sobrevivência deve definir um período de tempo em que este estudo é conduzido. Como em muitos casos, é possível que o período de tempo dado para que o evento ocorra seja o mesmo entre si. A análise de sobrevivência envolve a modelagem de dados de tempos em eventos. Portanto, Precisamos definir o contexto da análise de sobrevivência no estudo, tanto quanto o “evento” no contexto da análise de sobrevivência.
Existem diferentes maneiras de fazermos análises de sobrevivência. Isso é feito de várias maneiras, como quando definimos um grupo. Algumas delas são curvas Kaplan Meier, Modelos de regressão de Cox, função de perigo, função de sobrevivência, etc.
Quando a análise de sobrevivência é realizada para comparar a análise de sobrevivência de dois grupos diferentes. Lá realizamos o teste Log-Rank.
Quando a análise de sobrevivência gosta de descrever variáveis categóricas e quantitativas na sobrevivência, gostamos de fazer regressão de riscos proporcionais de Cox, modelos paramétricos de supervivencia, etc.
Na análise de sobrevivência, precisamos definir certos termos antes de prosseguir, como o evento, o tempo, a censura, função de sobrevivência, etc.
Evento, quando falamos sobre, é a atividade que está acontecendo ou acontecerá no estudo de análise de sobrevivência, como a morte de uma pessoa por uma doença específica, o tempo para obter a cura por um diagnóstico médico, hora de curar com vacinas, o tempo de ocorrência da falha da máquina no chão de fábrica, tempo para o início da doença, etc.
Clima
no estudo de caso de análise de sobrevivência é o tempo desde o início da observação da análise de sobrevivência sobre o assunto até o momento em que o evento ocorrerá. Como no caso de uma máquina mecânica com defeito, precisamos saber o
(uma) hora de um evento quando a máquina irá iniciar
(b) quando a máquina irá falhar
(c) perda ou desligamento da máquina devido ao estudo de análise de sobrevivência.
Censura / Observação censurada
Esta terminologia é definida como se o tópico no qual estamos fazendo o estudo de análise de sobrevivência não fosse afetado pelo evento de estudo definido, então eles são descritos como censurados. O sujeito censurado também pode não ter um evento após o término da observação da análise de sobrevivência.. O assunto é denominado censurado no sentido de que nada foi observado fora do assunto após o tempo de censura.
Censura de observação eles também são de 3 tipos-
1. Lei censurada
A censura de direita é usada em muitos problemas. Ocorre quando não temos certeza do que aconteceu com as pessoas depois de um certo ponto no tempo.
Ocorre quando o tempo real do evento é maior que o tempo censurado quando c <t. Isso acontece se algumas pessoas não puderem ser acompanhadas o tempo todo porque morreram, perderam o acompanhamento ou desistiram do estudo..
2. Censurado à esquerda
A censura de esquerda é quando não temos certeza do que aconteceu às pessoas antes. A censura da esquerda é o oposto, O que acontece quando o tempo real do evento é menor que o tempo censurado quando c> t.
3. Intervalo censurado
A censura de intervalo é quando sabemos que algo aconteceu em um intervalo (não antes da hora de início ou após a hora de término do estudo) mas não sabemos exatamente quando aconteceu no intervalo.
A censura de intervalo é uma concatenação da censura à esquerda e à direita quando se sabe que ocorreu o tempo entre dois pontos no tempo.
Função de sobrevivência S
Aqui, vamos discutir o Estimador Kaplan Meier.
Estimador Kaplan Meier
O estimador Kaplan Meier é usado para estimar a função de sobrevivência para dados de vida.. É uma técnica estatística não paramétrica. Também conhecido como estimador de limite de produto, e o conceito está em estimar o tempo de sobrevivência durante um determinado período de um evento médico importante, um certo momento de morte, falha da máquina ou qualquer evento significativo importante.
Existem muitos exemplos como
1. Falha de peças da máquina após várias horas de operação.
2. Quanto tempo vai durar a vacina COVID 19 na cura do paciente.
3. Quanto tempo leva para obter a cura de um diagnóstico médico, etc.
4. Estimar quantos funcionários deixarão a empresa em um período de tempo especificado.
5. Quantos pacientes serão curados com câncer de pulmão?
Para estimar a sobrevivência de Kaplan Meier, primeiro precisamos estimar a função de sobrevivência S
Onde (d) é o número de eventos de morte no momento
Suposições de sobrevivência de Kaplan Meier
Em casos da vida real, não temos ideia da verdadeira função da taxa de sobrevivência. Portanto, no estimador Kaplan Meier, estimamos e aproximamos a função de sobrevivência real a partir dos dados do estudo. Existem 3 Suposições de sobrevivência de Kaplan Meier
1) As probabilidades de sobrevivência são as mesmas para todas as amostras que se juntaram no final do estudo e aquelas que se juntaram anteriormente.. Não é suposto mudar a análise de sobrevivência que pode afetar.
2) A ocorrência de um evento ocorre em um horário específico.
3) A censura do estudo não depende do resultado. O método Kaplan Meier não depende do resultado de interesse.
A interpretação da análise de sobrevivência é o eixo Y mostrando a probabilidade de um sujeito não incluído no estudo de caso. O eixo X mostra a representação do interesse do sujeito após sobreviver até o tempo. Cada queda na função de sobrevivência (aproximado pelo estimador Kaplan-Meier) é causado pelo evento de interesse que ocorre durante pelo menos uma observação.
O gráfico é geralmente acompanhado por intervalos de confiança, para descrever a incerteza sobre as estimativas pontuais (os maiores intervalos de confiança mostram alta incerteza, isso acontece quando temos alguns participantes) ocorre tanto nas observações que morrem quanto nas que estão sendo censuradas.
Aspectos importantes a serem considerados para a análise do estimador Kaplan Meier
1) Precisamos realizar o teste de log rank para fazer qualquer tipo de inferência.
2) Os resultados de Kaplan Meier podem ser facilmente tendenciosos. O Kaplan Meier é uma abordagem univariada para resolver o problema.
3) A exclusão de dados censurados causará uma mudança na forma da curva. Isso criará vieses no ajuste do modelo.
4) Testes estatísticos e observações tornam-se enganosos se a dicotomia variável contínua for realizada.
5) Dicotomizando a mídia, tomamos medidas estatísticas, como a mediana, para criar grupos, mas isso pode levar a problemas no conjunto de dados.
Vamos dar o exemplo em Python
Enlace a Notebook- (https://drive.google.com/file/d/1VGKZNViDbx4rx_7lGMCA6dgU3XuMKGVU/view?usp = compartilhamento)
Vamos importar a importante biblioteca necessária para trabalhar em Python
Primeiro, estamos importando diferentes bibliotecas Python para o nosso trabalho. Aqui, pegamos o conjunto de dados de câncer de pulmão. Depois de bibliotecas e carregamento, vamos ler os dados usando a biblioteca pandas. O conjunto de dados contém informações diferentes
Tratamento 1 = padrão, 2 = teste, Tipo de célula 1 = escamoso, 2 = pequeno
celular, 3 = adeno, 4 = grande, Sobrevivência em dias, Estado 1 = morto, 0 = censurado, Pontuação de Karnofsky (uma medida de desempenho geral, 100 = melhor), Meses a partir do diagnóstico, Idade em anos Terapia anterior 0 = não, 10 = sim, etc.
Aqui vemos a cabeça e a cauda.
Agora, aqui importamos o código Python para realizar o Kaplan Meier Estimator
Aqui, realizamos a análise da pontuação de Karnofsky, o eixo x representa a linha do tempo e o eixo y mostra a pontuação. A melhor pontuação é 1, significa que o assunto é adequado, uma pontuação de 0 significa a pior pontuação.
Em seguida, aplicamos o código de sobrevivência, Terapia Anterior, o tratamento aqui faremos a Análise de Estimativa Kaplan Meier.
Então, nós cabemos kmf1 = KaplanMeierFitter () para ajustar a função Kaplan Meier e executar o seguinte código para diferentes dados relacionados a problemas de câncer de pulmão.
O estimador Kaplan Meier depois de executar o código mostra o gráfico entre o padrão de teste de tratamento e o teste de tratamento.
Neste artigo, meu objetivo principal era explicar a análise de sobrevivência com o estimador Kaplan Meier. As coisas relacionadas a ele e uma descrição do problema na vida real.
Vantagens e desvantagens do Estimador Kaplan Meier
Vantagem
1) Não requer muitos recursos; apenas tempo é necessário para o evento de análise de sobrevivência.
2) Fornece uma visão geral média relacionada ao evento.
Desvantagens
1) Muitas variáveis não podem ser correlacionadas e monitoradas simultaneamente.
2) Se os dados de censura forem removidos, o modelo será inclinado no momento do ajuste.
3) Uma estimativa adequada da magnitude da mudança no evento não pode ser prevista.