Técnicas de selección de funciones en el aprendizaje automático

Contenidos

Introducción

Al crear un modelo de aprendizaje automático en la vida real, es casi raro que todas las variables del conjunto de datos sean útiles para crear un modelo. Agregar variables redundantes reduce la capacidad de generalización del modelo y también puede reducir la precisión general de un clasificador. Además, agregar más y más variables a un modelo aumenta la complejidad general del modelo.

Según el Ley de la parsimonia de ‘La navaja de Occam’, la mejor explicación a un problema es la que involucra la menor cantidad de supuestos posibles. Por lo tanto, la selección de características se convierte en una parte indispensable de la construcción de modelos de aprendizaje automático.

Objetivo

El objetivo de la selección de características en el aprendizaje automático es encontrar el mejor conjunto de características que le permita construir modelos útiles de los fenómenos estudiados.

Las técnicas para la selección de funciones en el aprendizaje automático se pueden clasificar en general en las siguientes categorías:

Técnicas supervisadas: Estas técnicas se pueden usar para datos etiquetados y se usan para identificar las características relevantes para aumentar la eficiencia de modelos supervisados ​​como clasificación y regresión.

Técnicas no supervisadas: Estas técnicas se pueden utilizar para datos sin etiquetar.

Desde un punto de vista taxonómico, estas técnicas se clasifican en:

A. Métodos de filtrado

B. Métodos de envoltura

C. Métodos integrados

D. Métodos híbridos

En este artículo, analizaremos algunas técnicas populares de selección de funciones en el aprendizaje automático.

A. Métodos de filtrado

Los métodos de filtro recogen las propiedades intrínsecas de las características medidas a través de estadísticas univariadas en lugar del rendimiento de validación cruzada. Estos métodos son más rápidos y menos costosos computacionalmente que los métodos de envoltura. Cuando se trata de datos de alta dimensión, es computacionalmente más económico utilizar métodos de filtrado.

Analicemos algunas de estas técnicas:

Ganancia de información

La ganancia de información calcula la reducción de la entropía a partir de la transformación de un conjunto de datos. Se puede utilizar para la selección de características evaluando la ganancia de información de cada variable en el contexto de la variable de destino.

image-2-1-3866781

Prueba de chi-cuadrado

La prueba de chi-cuadrado se usa para características categóricas en un conjunto de datos. Calculamos Chi-cuadrado entre cada característica y el objetivo y seleccionamos el número deseado de características con las mejores puntuaciones de Chi-cuadrado. Para aplicar correctamente el chi-cuadrado para probar la relación entre varias características en el conjunto de datos y la variable objetivo, se deben cumplir las siguientes condiciones: las variables deben ser categórico, muestreado independientemente y los valores deben tener un frecuencia esperada mayor que 5.

image-3-1-5037882

Puntuación de Fisher

La puntuación de Fisher es uno de los métodos de selección de características supervisadas más utilizados. El algoritmo que usaremos devuelve los rangos de las variables basados ​​en la puntuación del pescador en orden descendente. Luego podemos seleccionar las variables según el caso.

image-4-1-2161850

Coeficiente de correlación

La correlación es una medida de la relación lineal de 2 o más variables. Mediante la correlación, podemos predecir una variable a partir de la otra. La lógica detrás del uso de la correlación para la selección de características es que las buenas variables están altamente correlacionadas con el objetivo. Además, las variables deben estar correlacionadas con el objetivo, pero no deben estar correlacionadas entre sí.

Si dos variables están correlacionadas, podemos predecir una a partir de la otra. Por lo tanto, si dos características están correlacionadas, el modelo realmente solo necesita una de ellas, ya que la segunda no agrega información adicional. Usaremos la correlación de Pearson aquí.

image-5-1-7481091

Necesitamos establecer un valor absoluto, digamos 0.5 como el umbral para seleccionar las variables. Si encontramos que las variables predictoras están correlacionadas entre sí, podemos descartar la variable que tiene un valor de coeficiente de correlación más bajo con la variable objetivo. También podemos calcular múltiples coeficientes de correlación para comprobar si más de dos variables están correlacionadas entre sí. Este fenómeno se conoce como multicolinealidad.

Umbral de varianza

El umbral de varianza es un enfoque de línea de base simple para la selección de características. Elimina todas las características cuya variación no alcanza algún umbral. De forma predeterminada, elimina todas las características de varianza cero, es decir, las características que tienen el mismo valor en todas las muestras. Suponemos que las características con una varianza más alta pueden contener información más útil, pero tenga en cuenta que no estamos teniendo en cuenta la relación entre las variables de característica o las variables de característica y objetivo, que es uno de los inconvenientes de los métodos de filtro.

image-6-1-8090829

Get_support devuelve un vector booleano donde True significa que la variable no tiene varianza cero.

Diferencia absoluta media (MAD)

‘La diferencia absoluta media (MAD) calcula la diferencia absoluta del valor medio. La principal diferencia entre las medidas de varianza y MAD es la ausencia del cuadrado en esta última. El MAD, al igual que la varianza, también es una variante de escala ». [1] Esto significa que a mayor DMA, mayor poder discriminatorio.

image-7-1-4238673

Relación de dispersión

‘Otra medida de dispersión aplica la media aritmética (AM) y la media geométrica (GM). Para una característica dada (positiva) XI en n patrones, AM y GM están dados por

image-16-7002411

respectivamente; ya que SOYI ≥ GMI, con igualdad si y solo si Xi1 = Xi2 =…. = Xen, luego la proporción

image-17-4829304

se puede utilizar como medida de dispersión. Una mayor dispersión implica un mayor valor de Ri, por lo que una característica más relevante. Por el contrario, cuando todas las muestras de características tienen (aproximadamente) el mismo valor, Ri está cerca de 1, lo que indica una característica de baja relevancia ‘. [1]

image-8-1-5876813

image-9-1543135

B. Métodos de envoltura:

Los envoltorios requieren algún método para buscar en el espacio todos los posibles subconjuntos de características, evaluando su calidad aprendiendo y evaluando un clasificador con ese subconjunto de características. El proceso de selección de características se basa en un algoritmo de aprendizaje automático específico que intentamos encajar en un conjunto de datos determinado. Sigue un enfoque de búsqueda codiciosa al evaluar todas las posibles combinaciones de características contra el criterio de evaluación. Los métodos de envoltura generalmente dan como resultado una mejor precisión predictiva que los métodos de filtro.

Analicemos algunas de estas técnicas:

Selección de funciones avanzadas

Este es un método iterativo en el que comenzamos con la variable de mejor rendimiento contra el objetivo. A continuación, seleccionamos otra variable que ofrezca el mejor rendimiento en combinación con la primera variable seleccionada. Este proceso continúa hasta que se alcanza el criterio preestablecido.

image-10-4975489

Eliminación de características hacia atrás

Este método funciona exactamente de manera opuesta al método de selección de características hacia adelante. Aquí, comenzamos con todas las funciones disponibles y construimos un modelo. A continuación, tomamos la variable del modelo que da el mejor valor de medida de evaluación. Este proceso continúa hasta que se alcanza el criterio preestablecido.

image-11-5415191

Este método, junto con el discutido anteriormente, también se conoce como el método de selección secuencial de características.

Selección exhaustiva de funciones

Este es el método de selección de características más sólido cubierto hasta ahora. Esta es una evaluación de fuerza bruta de cada subconjunto de características. Esto significa que intenta todas las combinaciones posibles de las variables y devuelve el subconjunto de mejor rendimiento.

image-12-3752197

Eliminación de características recursivas

Dado un estimador externo que asigna pesos a las características (por ejemplo, los coeficientes de un modelo lineal), el objetivo de la eliminación de características recursivas (RFE) es seleccionar características considerando recursivamente conjuntos de características cada vez más pequeños. Primero, el estimador se entrena en el conjunto inicial de características y la importancia de cada característica se obtiene mediante un atributo coef_ o mediante un atributo feature_importances_.

Luego, las características menos importantes se eliminan del conjunto actual de características. Ese procedimiento se repite de forma recursiva en el conjunto podado hasta que finalmente se alcanza el número deseado de características para seleccionar. ‘[2]

image-13-4515923

C. Métodos integrados:

Estos métodos abarcan los beneficios de los métodos de envoltura y de filtro, al incluir interacciones de características pero también mantener un costo computacional razonable. Los métodos integrados son iterativos en el sentido de que se encargan de cada iteración del proceso de entrenamiento del modelo y extraen cuidadosamente las características que más contribuyen al entrenamiento para una iteración en particular.

Analicemos algunas de estas técnicas, haga clic aquí:

Regularización LASSO (L1)

La regularización consiste en agregar una penalización a los diferentes parámetros del modelo de aprendizaje automático para reducir la libertad del modelo, es decir, para evitar un ajuste excesivo. En la regularización de modelos lineales, la penalización se aplica sobre los coeficientes que multiplican cada uno de los predictores. De los diferentes tipos de regularización, Lasso o L1 tiene la propiedad de reducir algunos de los coeficientes a cero. Por lo tanto, esa característica se puede eliminar del modelo.

image-14-4381766

Importancia del bosque aleatorio

Random Forests es una especie de algoritmo de ensacado que agrega un número específico de árboles de decisión. Las estrategias basadas en árboles utilizadas por los bosques aleatorios se clasifican naturalmente según lo bien que mejoran la pureza del nodo, o en otras palabras, una disminución en la impureza (Impureza de gini) sobre todos los árboles. Los nodos con la mayor disminución de impurezas ocurren al comienzo de los árboles, mientras que las notas con la menor disminución de impurezas ocurren al final de los árboles. Por lo tanto, al podar árboles debajo de un nodo en particular, podemos crear un subconjunto de las características más importantes.

image-15-3340326

Conclusión

Hemos discutido algunas técnicas para la selección de funciones. Hemos dejado a propósito las técnicas de extracción de características como Análisis de Componentes Principales, Descomposición de Valor Singular, Análisis Discriminante Lineal, etc. Estos métodos ayudan a reducir la dimensionalidad de los datos o reducir el número de variables preservando la varianza de los datos.

Aparte de los métodos discutidos anteriormente, existen muchos otros métodos de selección de características. También existen métodos híbridos que utilizan técnicas de filtrado y envoltura. Si desea explorar más sobre las técnicas de selección de características, en mi opinión, un excelente material de lectura completo sería ‘Selección de funciones para el reconocimiento de patrones y datos«por Urszula Stańczyk y Lakhmi C. Jain.

Referencias

Documento denominado ‘Filtros de selección de características eficientes para datos de alta dimensión’ por Artur J. Ferreira, Mário AT Figueiredo [1]

https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.RFE.html%20%5b2%5d [2]

Suscribite a nuestro Newsletter

No te enviaremos correo SPAM. Lo odiamos tanto como tú.