Glossário de Termos Comuns de Aprendizado de Máquina, Estatística e Ciência de Dados

Conteúdo

Palavra

Descrição

Aprendizado de máquina El aprendizaje automático se refiere a las técnicas involucradas en el manejo de grandes datos de la manera más inteligente (a través de el desarrollo de algoritmos) para obtener información procesable. En estas técnicas, esperamos que los algoritmos aprendan por sí mismos sin estar programados explícitamente. Cuidador de elefantes Mahout es un proyecto open source de Apache que se utiliza para crear algoritmos de aprendizaje automático escalables. Implementa técnicas populares de aprendizaje automático como recomendación, clasificación y agrupación en clústeres.

Características de Mahout:

  • Mahout ofrece un marco para realizar tareas de minería de datos en grandes volúmenes de datos
  • Mahout posibilita que las aplicaciones analicen grandes conjuntos de datos de forma eficaz y rápida
  • Además ofrece capacidades de función de fitness distribuidas para programación evolutiva.
  • Incluye varias implementaciones de clústeres habilitadas para MapReduce, como k-means, fuzzy k-means, Dirichlet y Mean-Shift
Mapa pequeno Hadoop MapReduce es un marco de software para escribir fácilmente aplicaciones que procesan grandes cantidades de datos (conjuntos de datos de varios terabytes) en paralelo en grandes grupos (cientos de nodos) de hardware básico de una manera confiable y tolerante a fallas.

Un marco MapReduce de forma general se compone de tres operaciones:

  1. Mapa: cada nodo trabajador aplica la función de mapa a los datos locales y escribe la salida en un almacenamiento temporal. Un nodo maestro garantiza que solo se procese una copia de los datos de entrada redundantes.
  2. Barajar: Los nodos de trabajo redistribuyen los datos en función de las claves de salida (producidas por la función de mapa), de modo que todos los datos que pertenecen a una clave se encuentran en el mismo nodo de trabajo.
  3. Reducir: Los nodos de trabajo ahora procesan cada grupo de datos de salida, por clave, en paralelo.

Para obtener más información sobre MapReduce, Visita aqui.

Análisis de la cesta de mercado El análisis de la cesta de mercado (además llamado MBA) es una técnica ampliamente utilizada entre los especialistas en marketing para identificar la mejor combinación factible de los productos o servicios que los clientes compran a menudo. Esto además se denomina análisis de asociación de productos. El análisis de asociación se realiza principalmente en base a un algoritmo denominadoAlgoritmo a priori”. El resultado de este análisis se llama reglas de asociación. Los especialistas en marketing usan estas reglas para diseñar estrategias para sus recomendaciones.

Cuando se compran dos o más productos, el análisis de la cesta de la compra se realiza para chequear si la compra de un producto aumenta la probabilidad de compra de otros productos. Este conocimiento es una herramienta para que los especialistas en marketing agrupen los productos o diseñen una estrategia de venta cruzada de productos a un cliente.

Modelado de mezcla de mercado Market Mix Modeling es un enfoque analítico que utiliza información histórica como el punto de venta para cuantificar el impacto de algunos de los componentes en las ventas.

Suponga que la venta total es 100 $, este total se puede dividir en subcomponentes, Em outras palavras, 60 $ venta base, 20 $ preço, 18 $ pueden ser distribución y 2 $ pueden deberse a actividades promocionales. Estos números se pueden lograr usando varios métodos lógicos. Cada método puede dar lugar a una ruptura distinto. Por isso, es muy importante estandarizar el procedimiento de desglose de las ventas totales en estos componentes. Esta técnica formal se conoce formalmente como MMM o Market Mix Modeling.

Estimación de máxima verosimilitud Es un método para hallar los valores de los parámetros que hacen que la probabilidad sea máxima. Los valores resultantes se denominan estimaciones de máxima verosimilitud (MLE). Significar Para un conjunto de datos, se dice que la media es el valor promedio de todos los números. A veces se puede usar como representación de todos los datos.

Como um exemplo, si tiene las calificaciones de los estudiantes de una clase y preguntó qué tan bien se está desempeñando la clase. Sería irrelevante decir las calificaciones de cada estudiante, em vez de, puede hallar la media de la clase, que será un representante del desempeño de la clase.
Para hallar la media, sume todos los números y posteriormente divida por el número de ítems del conjunto.

Como um exemplo, si los números son 1, 2, 3, 4, 5, 6, 7, 8, 8, entonces la media sería 44/9 = 4,89.

Mediana La mediana de un conjunto de números suele ser el valor medio. Cuando los números totales del conjunto son pares, la mediana será el promedio de los dos valores medios. La mediana se utiliza para medir la tendencia central.

Para calcular la mediana de un conjunto de números, Siga os passos abaixo:

  1. Organizar los números en orden ascendente o descendente
  2. Encuentre el valor medio, que será n / 2 (donde n son los números del conjunto)
MAL Un sistema de información de administración (MIS) es un sistema informático que consta de hardware y software que sirve como columna vertebral de las operaciones de una organización. Un MIS recopila datos de múltiples sistemas en línea, analiza la información y reporta datos para ayudar en la toma de decisiones de administración.

Objetivos de MIS:

  • Para impulsar la toma de decisiones, proporcionando datos precisos y actualizados sobre una gama de activos organizacionales.
  • Correlacionar múltiples puntos de datos para diseñar estrategias para impulsar las operaciones.
ML-as-a-Service (MLaaS) El aprendizaje automático como servicio (MLaaS) es una serie de servicios que proporcionan herramientas de aprendizaje automático como parte de los servicios de computación en la nube. Esto puede incluir herramientas para visualización de datos, acreditación facial, processamento de linguagem natural, acreditación de imágenes, análisis predictivo y aprendizaje profundo. Algunos de los principales proveedores de ML como servicio son:

  • Estudio de aprendizaje automático de Microsoft Azure
  • Aprendizaje automático de AWS
  • Aprendizaje automático de IBM Watson
  • Motor de aprendizaje automático de Google Cloud
  • BigML
Caminho La moda es el valor que ocurre con mayor frecuencia en la población. Es una métrica para medir la tendencia central, Em outras palavras, una forma de expresar, en un número (em geral) exclusivo, información importante sobre una variable aleatoria o una población.

El modo se puede calcular a través de los siguientes pasos:

  • Cuente el número de veces que aparece cada valor
  • Toma el valor que aparece más

Vamos entender com um exemplo:

Supongamos que tenemos un conjunto de datos que tiene 10 Os pontos de dados, que se enumeran a continuación:

4,5,2,8,4,7,6,4,6,3

Entonces ahora calcularemos el número de veces que ha aparecido cada valor.

Valor Contar
2 1
3 1
4 3
5 1
6 2
7 1
8 1

Entonces vemos que el valor 4 es el que más se repite, Em outras palavras, 3 vezes. Então, el modo de este conjunto de datos será 4.

Seleção de modelo La selección del modelo es la tarea de elegir un modelo estadístico de un conjunto de modelos conocidos. Varios métodos que se pueden usar para seleccionar el modelo son:

  • Análise exploratória de dados
  • Metodos cientificos

Algunos de los criterios para elegir el modelo pueden ser:

  • Criterio de información de Akaike (AIC)
  • R ajustado2
  • Criterio de información bayesiano (BIC)
  • Prueba de razón de verosimilitud
Simulación de Montecarlo La idea detrás de Monte Carlo Simulation es usar muestras aleatorias de parámetros o entradas para explorar el comportamiento de un procedimiento complejo. Las simulaciones de Monte Carlo toman muestras de una distribución de probabilidad para cada variable para producir cientos o cientos de resultados posibles. Los resultados se analizan para obtener probabilidades de que ocurran diferentes resultados. Clasificación de clases múltiples Los problemas que disponen más de una clase en la variable objetivo se denominan problemas de clasificación de clases múltiples.

Como um exemplo, si el objetivo es predecir la calidad de un producto, que puede ser Excelente, Nós vamos, média, regular, pequeno. Para este caso, la variable tiene 5 aulas, por lo que es un obstáculo de clasificación de 5 aulas.

Analisis multivariável El análisis multivariado es un procedimiento de comparar y analizar la dependencia de múltiples variables entre sí.

Como um exemplo, podemos hacer un análisis bivariado de la combinación de dos características continuas y hallar una vinculación entre ellas.

Regresión multivariante Multivariado, como sugiere la palabra, se refiere a ‘múltiples variables dependientes’. Un modelo de regresión diseñado para tratar con múltiples variables dependientes se llama modelo de regresión multivariante.

Considere el ejemplo: para un conjunto dado de detalles sobre los intereses de un estudiante, puntaje previo por materia, etc., desea predecir el GPA para todos los semestres (GPA1, GPA2,….). Este enunciado del problema se puede abordar a través de regresión multivariante, dado que tenemos más de una variable dependiente.

Assine a nossa newsletter

Nós não enviaremos SPAM para você. Nós odiamos isso tanto quanto você.