Técnicas de seleção de funções em aprendizado de máquina

Conteúdo

Introdução

Al crear un modelo de aprendizaje automático en la vida real, es casi raro que todas las variables del conjunto de datos sean útiles para crear un modelo. Agregar variables redundantes reduce la capacidad de generalización del modelo y también puede reducir la precisión general de un clasificador. O que mais, agregar más y más variables a un modelo aumenta la complejidad general del modelo.

Según el Ley de la parsimonia a partir de ‘navalha de Occam’, la mejor explicación a un problema es la que involucra la menor cantidad de supuestos posibles. Portanto, la selección de características se convierte en una parte indispensable de la construcción de modelos de aprendizaje automático.

objetivo

El objetivo de la selección de características en el aprendizaje automático es encontrar el mejor conjunto de características que le permita construir modelos útiles de los fenómenos estudiados.

Las técnicas para la selección de funciones en el aprendizaje automático se pueden clasificar en general en las siguientes categorías:

Técnicas supervisadas: Estas técnicas se pueden usar para datos etiquetados y se usan para identificar las características relevantes para aumentar la eficiencia de modelos supervisados ​​como clasificación y regresión.

Técnicas no supervisadas: Estas técnicas se pueden utilizar para datos sin etiquetar.

Desde un punto de vista taxonómico, estas técnicas se clasifican en:

UMA. Métodos de filtrado

B. Métodos de envoltura

C. Métodos integrados

D. Métodos híbridos

Neste artigo, analizaremos algunas técnicas populares de selección de funciones en el aprendizaje automático.

UMA. Métodos de filtrado

Los métodos de filtro recogen las propiedades intrínsecas de las características medidas a través de estadísticas univariadas en lugar del rendimiento de validación cruzada. Estos métodos son más rápidos y menos costosos computacionalmente que los métodos de envoltura. Cuando se trata de datos de alta dimensão, es computacionalmente más económico utilizar métodos de filtrado.

Analicemos algunas de estas técnicas:

Ganho de informação

La ganancia de información calcula la reducción de la entropía a partir de la transformación de un conjunto de datos. Se puede utilizar para la selección de características evaluando la ganancia de información de cada variável en el contexto de la variable de destino.

image-2-1-3866781

Teste qui-quadrado

La prueba de chi-cuadrado se usa para características categóricas en un conjunto de datos. Calculamos Chi-cuadrado entre cada característica y el objetivo y seleccionamos el número deseado de características con las mejores puntuaciones de Chi-cuadrado. Para aplicar correctamente el chi-cuadrado para probar la relación entre varias características en el conjunto de datos y la variable objetivo, se deben cumplir las siguientes condiciones: las variables deben ser categórico, muestreado independientemente y los valores deben tener un frecuencia esperada mayor que 5.

image-3-1-5037882

Puntuación de Fisher

La puntuación de Fisher es uno de los métodos de selección de características supervisadas más utilizados. El algoritmo que usaremos devuelve los rangos de las variables basados ​​en la puntuación del pescador en orden descendente. Luego podemos seleccionar las variables según el caso.

image-4-1-2161850

Coeficiente de correlación

La correlación es una medir de la relación lineal de 2 ou mais variáveis. Mediante la correlación, podemos predecir una variable a partir de la otra. La lógica detrás del uso de la correlación para la selección de características es que las buenas variables están altamente correlacionadas con el objetivo. O que mais, las variables deben estar correlacionadas con el objetivo, pero no deben estar correlacionadas entre sí.

Si dos variables están correlacionadas, podemos predecir una a partir de la otra. Portanto, si dos características están correlacionadas, el modelo realmente solo necesita una de ellas, ya que la segunda no agrega información adicional. Usaremos la correlación de Pearson aquí.

image-5-1-7481091

Necesitamos establecer un valor absoluto, Digamos 0.5 como el umbral para seleccionar las variables. Si encontramos que las variables predictoras están correlacionadas entre sí, podemos descartar la variable que tiene un valor de coeficiente de correlación más bajo con la variable objetivo. También podemos calcular múltiples coeficientes de correlación para comprobar si más de dos variables están correlacionadas entre sí. Este fenómeno se conoce como multicolinealidad.

Umbral de varianza

El umbral de varianza es un enfoque de línea de base simple para la selección de características. Elimina todas las características cuya variación no alcanza algún umbral. Por padrão, elimina todas las características de varianza cero, quer dizer, las características que tienen el mismo valor en todas las muestras. Suponemos que las características con una varianza más alta pueden contener información más útil, pero tenga en cuenta que no estamos teniendo en cuenta la relación entre las variables de característica o las variables de característica y objetivo, que es uno de los inconvenientes de los métodos de filtro.

image-6-1-8090829

Get_support devuelve un vector booleano donde True significa que la variable no tiene varianza cero.

Diferencia absoluta media (MAD)

‘La diferencia absoluta media (MAD) calcula la diferencia absoluta del valor medio. La principal diferencia entre las medidas de varianza y MAD es la ausencia del cuadrado en esta última. El MAD, al igual que la varianza, también es una variante de escala ». [1] Esto significa que a mayor DMA, mayor poder discriminatorio.

image-7-1-4238673

Relación de dispersión

‘Otra medida de dispersión aplica la media aritmética (SOU) y la media geométrica (GM). Para una característica dada (positiva) Xeu en n patrones, AM y GM están dados por

image-16-7002411

respectivamente; desde SOYeu ≥ GMeu, con igualdad si y solo si Xi1 = Xi2 =…. = Xsobre, luego la proporción

image-17-4829304

se puede utilizar como medida de dispersión. Una mayor dispersión implica un mayor valor de Ri, por lo que una característica más relevante. Pelo contrário, cuando todas las muestras de características tienen (aproximadamente) el mismo valor, Ri está cerca de 1, lo que indica una característica de baja relevancia ‘. [1]

image-8-1-5876813

image-9-1543135

B. Métodos de envoltura:

Los envoltorios requieren algún método para buscar en el espacio todos los posibles subconjuntos de características, evaluando su calidad aprendiendo y evaluando un clasificador con ese subconjunto de características. El proceso de selección de características se basa en un algoritmo de aprendizaje automático específico que intentamos encajar en un conjunto de datos determinado. Sigue un enfoque de búsqueda codiciosa al evaluar todas las posibles combinaciones de características contra el criterio de evaluación. Los métodos de envoltura generalmente dan como resultado una mejor precisión predictiva que los métodos de filtro.

Analicemos algunas de estas técnicas:

Selección de funciones avanzadas

Este es un método iterativo en el que comenzamos con la variable de mejor rendimiento contra el objetivo. A seguir, seleccionamos otra variable que ofrezca el mejor rendimiento en combinación con la primera variable seleccionada. Este proceso continúa hasta que se alcanza el criterio preestablecido.

image-10-4975489

Eliminación de características hacia atrás

Este método funciona exactamente de manera opuesta al método de selección de características hacia adelante. Aqui, comenzamos con todas las funciones disponibles y construimos un modelo. A seguir, tomamos la variable del modelo que da el mejor valor de medida de evaluación. Este proceso continúa hasta que se alcanza el criterio preestablecido.

image-11-5415191

Este método, junto con el discutido anteriormente, también se conoce como el método de selección secuencial de características.

Selección exhaustiva de funciones

Este es el método de selección de características más sólido cubierto hasta ahora. Esta es una evaluación de fuerza bruta de cada subconjunto de características. Esto significa que intenta todas las combinaciones posibles de las variables y devuelve el subconjunto de mejor rendimiento.

image-12-3752197

Eliminación de características recursivas

Dado un Estimador externo que asigna pesos a las características (por exemplo, los coeficientes de un modelo lineal), el objetivo de la eliminación de características recursivas (RFE) es seleccionar características considerando recursivamente conjuntos de características cada vez más pequeños. Primeiro, el estimador se entrena en el conjunto inicial de características y la importancia de cada característica se obtiene mediante un atributo coef_ o mediante un atributo feature_importances_.

Mais tarde, las características menos importantes se eliminan del conjunto actual de características. Ese procedimiento se repite de forma recursiva en el conjunto podado hasta que finalmente se alcanza el número deseado de características para seleccionar. ‘[2]

image-13-4515923

C. Métodos integrados:

Estos métodos abarcan los beneficios de los métodos de envoltura y de filtro, al incluir interacciones de características pero también mantener un costo computacional razonable. Los métodos integrados son iterativos en el sentido de que se encargan de cada iteración del proceso de Treinamento del modelo y extraen cuidadosamente las características que más contribuyen al entrenamiento para una iteración en particular.

Analicemos algunas de estas técnicas, Clique aqui:

Regularização LASSO (L1)

La regularización consiste en agregar una penalización a los diferentes parametros del modelo de aprendizaje automático para reducir la libertad del modelo, quer dizer, para evitar un ajuste excesivo. En la regularización de modelos lineales, la penalización se aplica sobre los coeficientes que multiplican cada uno de los predictores. De los diferentes tipos de regularización, Lasso o L1 tiene la propiedad de reducir algunos de los coeficientes a cero. Portanto, esa característica se puede eliminar del modelo.

image-14-4381766

Importancia del bosque aleatorio

Random Forests es una especie de algoritmo de ensacado que agrega un número específico de árboles de decisión. Las estrategias basadas en árboles utilizadas por los bosques aleatorios se clasifican naturalmente según lo bien que mejoran la pureza del , ou em outras palavras, una disminución en la impureza (Impureza de gini) sobre todos los árboles. Los nodos con la mayor disminución de impurezas ocurren al comienzo de los árboles, mientras que las notas con la menor disminución de impurezas ocurren al final de los árboles. Portanto, al podar árboles debajo de un nodo en particular, podemos crear un subconjunto de las características más importantes.

image-15-3340326

conclusão

Hemos discutido algunas técnicas para la selección de funciones. Hemos dejado a propósito las técnicas de extracción de características como Análisis de Componentes Principales, Descomposición de Valor Singular, Análisis Discriminante Lineal, etc. Estos métodos ayudan a reducir la dimensionalidad de los datos o reducir el número de variables preservando la varianza de los datos.

Aparte de los métodos discutidos anteriormente, existen muchos otros métodos de selección de características. También existen métodos híbridos que utilizan técnicas de filtrado y envoltura. Si desea explorar más sobre las técnicas de selección de características, na minha opinião, un excelente material de lectura completo seríaSelección de funciones para el reconocimiento de patrones y datos«por Urszula Stańczyk y Lakhmi C. Jain.

Referências

Documento denominado ‘Filtros de selección de características eficientes para datos de alta dimensiónpor Artur J. Ferreira, Mário AT Figueiredo [1]

https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.RFE.html%20%5b2%5d [2]

Assine a nossa newsletter

Nós não enviaremos SPAM para você. Nós odiamos isso tanto quanto você.