Glossário de Termos Comuns de Aprendizado de Máquina, Estatística e Ciência de Dados

Palavra

Descrição

Aprendizado de máquina El aprendizaje automático se refiere a las técnicas involucradas en el manejo de grandes datos de la manera más inteligente (a través de el desarrollo de algoritmos) para obtener información procesable. En estas técnicas, esperamos que los algoritmos aprendan por sí mismos sin estar programados explícitamente. Cuidador de elefantes Mahout es un proyecto open source de Apache que se utiliza para crear algoritmos de aprendizaje automático escalables. Implementa técnicas populares de aprendizaje automático como recomendación, clasificación y agrupación en clústeres.

Características de Mahout:

Mahout ofrece un marco para realizar tareas de minería de datos en grandes volúmenes de datos

O Mahout permite que as aplicações analisem grandes conjuntos de dados de forma eficaz e rápida

Além disso, oferece capacidades de função de fitness distribuídas para programação evolutiva.

Inclui várias implementações de clusters habilitadas para MapReduce, como k-means, fuzzy k-means, Dirichlet e Mean-Shift

Mapa pequeno O Hadoop MapReduce é uma estrutura de software para escrever facilmente aplicações que processam grandes quantidades de dados (conjuntos de dados de vários terabytes) em paralelo em grandes grupos (centenas de nós) de hardware básico de uma forma fiável e tolerante a falhas.

Uma framework MapReduce, de forma geral, é composta por três operações:

Mapa: cada nó trabalhador aplica a função de mapa aos dados locais e escreve a saída num armazenamento temporário. Un nodo maestro garante que solo se processe una cópia de los datos de entrada redundantes.
Barajar: Los nodos de trabajo redistribuyen los datos en función de las claves de salida (producidas por la función de mapa), de modo que todos los dados que pertencen a una clave se encuentran no mesmo nodo de trabalho.
Reducir: Los nodos de trabajo ahora processan cada grupo de datos de salida, por clave, en paralelo.

Para obter más informação sobre o MapReduce, Visita aqui.

Análise de la cesta de mercado El análisis de la cesta de mercado (además llamado MBA) es una técnica amplamente utilizada entre los especialistas en marketing para identificar la mejor combinación factible de los productos o servicios que los clientes compran a menudo. Isto também é chamado de análise de associação de produtos. A análise de associação é realizada principalmente com base num algoritmo chamado “Algoritmo a priori”. O resultado desta análise é chamado de regras de associação. Os especialistas em marketing usam estas regras para desenhar estratégias para as suas recomendações.

Quando se compram dois ou mais produtos, A análise da cesta de compras é realizada para verificar se a compra de um produto aumenta a probabilidade de compra de outros produtos. Este conhecimento é uma ferramenta para que os especialistas em marketing agrupem os produtos ou desenhem uma estratégia de venda cruzada de produtos a um cliente.

Modelação de mistura de mercado Market Mix Modeling es un enfoque analítico que utiliza información histórica como el punto de venta para cuantificar el impacto de algunos de los componentes en las ventas.

Suponga que la venta total es 100 $, este total se puede dividir en subcomponentes, Em outras palavras, 60 $ venta base, 20 $ preço, 18 $ pueden ser distribución y 2 $ pueden deberse a atividades promocionais. Estos números se pueden lograr usando vários métodos lógicos. Cada método pode dar lugar a uma rutura distinto. Por isso, es muy importante estandarizar el procedimiento de desglose de las ventas totales en estos componentes. Esta técnica formal se conoce formalmente como MMM o Market Mix Modeling.

Estimación de máxima verosimilitud Es un método para hallar los valores de los parámetros que hacen que la probabilidad sea máxima. Os valores resultantes são designados estimativas de máxima verosimilhança (MLE). Significar Para um conjunto de dados, diz-se que a média é o valor médio de todos os números. Por vezes pode ser usada como representação de todos os dados.

Como um exemplo, se tiver as notas dos alunos de uma turma e perguntar quão bem a turma está a desempenhar-se. Seria irrelevante indicar as notas de cada aluno, em vez de, pode calcular a média da turma, que será um representante do desempenho da turma.
Para calcular a média, soma todos os números e posteriormente divide pelo número de elementos do conjunto.

Como um exemplo, se os números forem 1, 2, 3, 4, 5, 6, 7, 8, 8, então a média seria 44/9 = 4,89.

MedianaA mediana é uma medida estatística que representa o valor central de um conjunto de dados ordenados. Para calculá-lo, Os dados são organizados do menor para o maior e o número no meio é identificado. Se houver um número par de observações, Os dois valores principais são calculados em média. Este indicador é especialmente útil em distribuições assimétricas, uma vez que não é afetado por valores extremos.... A mediana de um conjunto de números é geralmente o valor central. Quando o número total do conjunto é par, a mediana será a média dos dois valores centrais. A mediana é usada para medir a tendência central.

Para calcular a mediana de um conjunto de números, Siga os passos abaixo:

Organize os números em ordem ascendente ou descendente
Encontre o valor central, que será n / 2 (onde n são os números do conjunto)

ERRADO Um sistema de informação de gestão (SIG) é um sistema informático composto por hardware e software que serve como coluna vertebral das operações de uma organização. Um SIG recolhe dados de múltiplos sistemas online, analisa a informação e reporta dados para ajudar na tomada de decisões de gestão.

Objetivos de um SIG:

Para impulsionar a tomada de decisões, fornecendo dados precisos e atualizados sobre uma variedade de ativos organizacionais.
Correlacionar múltiplos pontos de dados para criar estratégias que impulsionem as operações.

ML como Serviço (MLaaS) Aprendizagem automática como serviço (MLaaS) é uma série de serviços que fornecem ferramentas de aprendizagem automática como parte dos serviços de computação na nuvem. Isto pode incluir ferramentas para visualização de dados, reconhecimento facial, processamento de linguagem natural, reconhecimento de imagens, análise preditiva e aprendizagem profunda. Alguns dos principais fornecedores de ML como serviço são:

Estúdio de Aprendizagem Automática da Microsoft Azure
Aprendizagem Automática da AWS
Aprendizagem Automática do IBM Watson
Motor de Aprendizagem Automática do Google Cloud
BigML

Caminho A moda é o valor que ocorre com mais frequência na população. É uma métrica para medir a tendência central, Em outras palavras, uma forma de expressar, em um número (em geral) exclusivo, informação importante sobre uma variável aleatória ou uma população.

O modo pode ser calculado através dos seguintes passos:

Conte o número de vezes que cada valor aparece
Pegue o valor que aparece mais

Vamos entender com um exemplo:

Suponhamos que temos um conjunto de dados que possui 10 Os pontos de dados, que são listados a seguir:

4,5,2,8,4,7,6,4,6,3

Então agora calcularemos o número de vezes que cada valor ocorreu.

Valor	Contar
2	1
3	1
4	3
5	1
6	2
7	1
8	1

Então vemos que o valor 4 é aquele que mais se repete, Em outras palavras, 3 vezes. Então, o modo deste conjunto de dados será 4.

Seleção de modelo A escolha do modelo é a tarefa de selecionar um modelo estatístico a partir de um conjunto de modelos conhecidos. Vários métodos que se pueden usar para selecionar el modelo filho:

Análise exploratória de dados
Métodos científicos

Algunos de los criterios para elegir el modelo pueden ser:

Critério de informação de Akaike (AIC)
R ajustado2
Critério de informação bayesiano (BIC)
Prueba de razón de verosimilitud

Simulação de Montecarlo La idea detrás de Monte Carlo Simulation es usar muestras aleatorias de parámetros o entradas para explorar el comportamiento de un procedimiento complejo. Las simulaciones de Monte Carlo toman muestras de una distribución de probabilidad para cada variable para producir cientos o cientos de resultados posibles. Los resultados se analizan para obtener probabilidades de que ocurran diferentes resultados. Clasificación de clases múltiples Os problemas que têm mais de uma classe na variável alvo são chamados de problemas de classificação multiclasse.

Como um exemplo, se o objetivo é prever a qualidade de um produto, que pode ser Excelente, Nós vamos, média, regular, pequeno. Para este caso, a variável tem 5 aulas, pelo que é um obstáculo de classificação de 5 aulas.

Analisis multivariável A análise multivariada é um procedimento de comparar e analisar a dependência de múltiplas variáveis entre si.

Como um exemplo, podemos fazer uma análise bivariada da combinação de duas características contínuas e encontrar uma ligação entre elas.

Regressão multivariante Multivariado, como a palavra sugere, refere-se a 'múltiplas variáveis dependentes'. Un modelo de regresión diseñado para tratar con múltiples variables dependientes se llama modelo de regresión multivariante.

Considere el ejemplo: para un conjunto dado de detalles sobre los intereses de un estudiante, puntaje previo por materia, etc., desea predecir el GPA para todos los semestres (GPA1, GPA2,....). Este enunciado del problema se puede abordar a través de regresión multivariante, dado que tenemos más de una variable dependiente.