Glosario de términos comunes de aprendizaje automático, estadística y ciencia de datos

Palabra

Descripción

Aprendizaje automático El aprendizaje automático se refiere a las técnicas involucradas en el manejo de grandes datos de la manera más inteligente (a través de el desarrollo de algoritmos) para obtener información procesable. En estas técnicas, esperamos que los algoritmos aprendan por sí mismos sin estar programados explícitamente. Cuidador de elefantes Mahout es un proyecto open source de Apache que se utiliza para crear algoritmos de aprendizaje automático escalables. Implementa técnicas populares de aprendizaje automático como recomendación, clasificación y agrupación en clústeres.

Características de Mahout:

Mahout ofrece un marco para realizar tareas de minería de datos en grandes volúmenes de datos

Mahout posibilita que las aplicaciones analicen grandes conjuntos de datos de forma eficaz y rápida

Además ofrece capacidades de función de fitness distribuidas para programación evolutiva.

Incluye varias implementaciones de clústeres habilitadas para MapReduce, como k-means, fuzzy k-means, Dirichlet y Mean-Shift

Mapa reducido Hadoop MapReduce es un marco de software para escribir fácilmente aplicaciones que procesan grandes cantidades de datos (conjuntos de datos de varios terabytes) en paralelo en grandes grupos (cientos de nodos) de hardware básico de una manera confiable y tolerante a fallas.

Un marco MapReduce de forma general se compone de tres operaciones:

Mapa: cada nodo trabajador aplica la función de mapa a los datos locales y escribe la salida en un almacenamiento temporal. Un nodo maestro garantiza que solo se procese una copia de los datos de entrada redundantes.
Barajar: Los nodos de trabajo redistribuyen los datos en función de las claves de salida (producidas por la función de mapa), de modo que todos los datos que pertenecen a una clave se encuentran en el mismo nodo de trabajo.
Reducir: Los nodos de trabajo ahora procesan cada grupo de datos de salida, por clave, en paralelo.

Para obtener más información sobre MapReduce, visite aquí.

Análisis de la cesta de mercado El análisis de la cesta de mercado (además llamado MBA) es una técnica ampliamente utilizada entre los especialistas en marketing para identificar la mejor combinación factible de los productos o servicios que los clientes compran a menudo. Esto además se denomina análisis de asociación de productos. El análisis de asociación se realiza principalmente en base a un algoritmo denominado «Algoritmo a priori». El resultado de este análisis se llama reglas de asociación. Los especialistas en marketing usan estas reglas para diseñar estrategias para sus recomendaciones.

Cuando se compran dos o más productos, el análisis de la cesta de la compra se realiza para chequear si la compra de un producto aumenta la probabilidad de compra de otros productos. Este conocimiento es una herramienta para que los especialistas en marketing agrupen los productos o diseñen una estrategia de venta cruzada de productos a un cliente.

Modelado de mezcla de mercado Market Mix Modeling es un enfoque analítico que utiliza información histórica como el punto de venta para cuantificar el impacto de algunos de los componentes en las ventas.

Suponga que la venta total es 100 $, este total se puede dividir en subcomponentes, dicho de otra forma, 60 $ venta base, 20 $ precio, 18 $ pueden ser distribución y 2 $ pueden deberse a actividades promocionales. Estos números se pueden lograr usando varios métodos lógicos. Cada método puede dar lugar a una ruptura distinto. Por eso, es muy importante estandarizar el procedimiento de desglose de las ventas totales en estos componentes. Esta técnica formal se conoce formalmente como MMM o Market Mix Modeling.

Estimación de máxima verosimilitud Es un método para hallar los valores de los parámetros que hacen que la probabilidad sea máxima. Los valores resultantes se denominan estimaciones de máxima verosimilitud (MLE). Significar Para un conjunto de datos, se dice que la media es el valor promedio de todos los números. A veces se puede usar como representación de todos los datos.

A modo de ejemplo, si tiene las calificaciones de los estudiantes de una clase y preguntó qué tan bien se está desempeñando la clase. Sería irrelevante decir las calificaciones de cada estudiante, en cambio, puede hallar la media de la clase, que será un representante del desempeño de la clase.
Para hallar la media, sume todos los números y posteriormente divida por el número de ítems del conjunto.

A modo de ejemplo, si los números son 1, 2, 3, 4, 5, 6, 7, 8, 8, entonces la media sería 44/9 = 4,89.

MedianaLa mediana es una medida estadística que representa el valor central de un conjunto de datos ordenados. Para calcularla, se organizan los datos de menor a mayor y se identifica el número que se encuentra en el medio. Si hay un número par de observaciones, se promedia los dos valores centrales. Este indicador es especialmente útil en distribuciones asimétricas, ya que no se ve afectado por valores extremos.... La mediana de un conjunto de números suele ser el valor medio. Cuando los números totales del conjunto son pares, la mediana será el promedio de los dos valores medios. La mediana se utiliza para medir la tendencia central.

Para calcular la mediana de un conjunto de números, siga los pasos a continuación:

Organizar los números en orden ascendente o descendente
Encuentre el valor medio, que será n / 2 (donde n son los números del conjunto)

MAL Un sistema de información de administración (MIS) es un sistema informático que consta de hardware y software que sirve como columna vertebral de las operaciones de una organización. Un MIS recopila datos de múltiples sistemas en línea, analiza la información y reporta datos para ayudar en la toma de decisiones de administración.

Objetivos de MIS:

Para impulsar la toma de decisiones, proporcionando datos precisos y actualizados sobre una gama de activos organizacionales.
Correlacionar múltiples puntos de datos para diseñar estrategias para impulsar las operaciones.

ML-as-a-Service (MLaaS) El aprendizaje automático como servicio (MLaaS) es una serie de servicios que proporcionan herramientas de aprendizaje automático como parte de los servicios de computación en la nube. Esto puede incluir herramientas para visualización de datos, acreditación facial, procesamiento del lenguaje natural, acreditación de imágenes, análisis predictivo y aprendizaje profundo. Algunos de los principales proveedores de ML como servicio son:

Estudio de aprendizaje automático de Microsoft Azure
Aprendizaje automático de AWS
Aprendizaje automático de IBM Watson
Motor de aprendizaje automático de Google Cloud
BigML

Modo La moda es el valor que ocurre con mayor frecuencia en la población. Es una métrica para medir la tendencia central, dicho de otra forma, una forma de expresar, en un número (de forma general) único, información importante sobre una variable aleatoria o una población.

El modo se puede calcular a través de los siguientes pasos:

Cuente el número de veces que aparece cada valor
Toma el valor que aparece más

Entendamos con un ejemplo:

Supongamos que tenemos un conjunto de datos que tiene 10 puntos de datos, que se enumeran a continuación:

4,5,2,8,4,7,6,4,6,3

Entonces ahora calcularemos el número de veces que ha aparecido cada valor.

Valor	Contar
2	1
3	1
4	3
5	1
6	2
7	1
8	1

Entonces vemos que el valor 4 es el que más se repite, dicho de otra forma, 3 veces. Entonces, el modo de este conjunto de datos será 4.

Selección de modelo La selección del modelo es la tarea de elegir un modelo estadístico de un conjunto de modelos conocidos. Varios métodos que se pueden usar para seleccionar el modelo son:

Análisis exploratorio de datos
Metodos cientificos

Algunos de los criterios para elegir el modelo pueden ser:

Criterio de información de Akaike (AIC)
R ajustado2
Criterio de información bayesiano (BIC)
Prueba de razón de verosimilitud

Simulación de Montecarlo La idea detrás de Monte Carlo Simulation es usar muestras aleatorias de parámetros o entradas para explorar el comportamiento de un procedimiento complejo. Las simulaciones de Monte Carlo toman muestras de una distribución de probabilidad para cada variable para producir cientos o cientos de resultados posibles. Los resultados se analizan para obtener probabilidades de que ocurran diferentes resultados. Clasificación de clases múltiples Los problemas que disponen más de una clase en la variable objetivo se denominan problemas de clasificación de clases múltiples.

A modo de ejemplo, si el objetivo es predecir la calidad de un producto, que puede ser Excelente, bueno, promedio, regular, malo. Para este caso, la variable tiene 5 clases, por lo que es un obstáculo de clasificación de 5 clases.

Analisis multivariable El análisis multivariado es un procedimiento de comparar y analizar la dependencia de múltiples variables entre sí.

A modo de ejemplo, podemos hacer un análisis bivariado de la combinación de dos características continuas y hallar una vinculación entre ellas.

Regresión multivariante Multivariado, como sugiere la palabra, se refiere a ‘múltiples variables dependientes’. Un modelo de regresión diseñado para tratar con múltiples variables dependientes se llama modelo de regresión multivariante.

Considere el ejemplo: para un conjunto dado de detalles sobre los intereses de un estudiante, puntaje previo por materia, etc., desea predecir el GPA para todos los semestres (GPA1, GPA2,….). Este enunciado del problema se puede abordar a través de regresión multivariante, dado que tenemos más de una variable dependiente.