En esta era de Ciencia de los datos donde R y Python gobiernan el gallinero, echemos un vistazo a otra herramienta de ciencia de datos llamada Weka. Weka existe desde hace bastante tiempo y se desarrolló internamente en la Universidad de Waikato con fines de investigación. Lo que hace que Weka sea digno de probar es la curva de aprendizaje fácil.
Para alguien que no ha codificado durante un tiempo, Weka con su GUI proporciona la transición más fácil al mundo de la ciencia de datos. Al estar escrito en Java, aquellos con experiencia en Java también pueden llamar a la biblioteca en su código.
Personalmente, tuve mi primera oportunidad de Ciencia de los datos cuando hice un curso en la Universidad de Waikato. Fue una introducción saludable y me brindó una transición fluida a la ciencia de datos. Más tarde, cuando tuve que abordar problemas más importantes, pasé a R. Así que recomiendo encarecidamente Weka como una herramienta de aprendizaje para aquellos que buscan adentrarse en el mundo de los datos.
A continuación se muestra la pedagogía del aprendizaje paso a paso que lo ayudará a comprender los conceptos de una manera mejor y más concreta:
Paso 1 : ¿Qué es Weka y por qué usarlo?
Según Wikipedia :,
Weka es una colección de aprendizaje automático algoritmos para tareas de minería de datos. Los algoritmos se pueden aplicar directamente a un conjunto de datos o se pueden llamar desde su propio código Java. Weka contiene instrumentos para preprocesamiento, clasificación, regresión, agrupamientoEl "agrupamiento" es un concepto que se refiere a la organización de elementos o individuos en grupos con características o objetivos comunes. Este proceso se utiliza en diversas disciplinas, incluyendo la psicología, la educación y la biología, para facilitar el análisis y la comprensión de comportamientos o fenómenos. En el ámbito educativo, por ejemplo, el agrupamiento puede mejorar la interacción y el aprendizaje entre los estudiantes al fomentar el trabajo..., reglas de asociación y visualización de datos.
Es posible que desee echar un vistazo a esto video de Brandon Weinberg. Este video le dará una visión considerable de esta increíble herramienta. Es posible que no entienda todo a través de este video, pero sin duda aprenderá las cosas.
Paso 2: configuración de la máquina
Ahora que conocemos a Weka, podemos pasar a la siguiente etapa. Para saber más sobre la herramienta y las personas detrás de su éxito, puede echar un vistazo a este sitio sobre el Proyecto Weka. Además, también puede descargar el software y obtener la última versión para su sistema desde este Enlace.
Paso 3: aprender los conceptos básicos de Weka
La mejor manera de comenzar con Weka es utilizando los MOOC ofrecidos por la Universidad de Waikato. Data Mining with Weka es un curso de buena reputación, pero no está disponible durante todo el año. Sin embargo, no se preocupe, en tales casos uno puede acceder a los videos del curso desde este Canal de Youtube. Se puede ver el enlace oficial de este curso. aquí. Los conjuntos de datos que se discutirán aquí se pueden descargar desde este Enlace. La página tiene más enlaces a conjuntos de datos. Weka utiliza datos en formato ARFF. En caso de que los datos no estén en formato ARFF, puede convertirlos de formato CSV a ARFF tomando la ayuda de este video.
Paso 4: conjuntos de datos
Después de haber probado los conjuntos de datos proporcionados por los coordinadores del curso, probaremos un conjunto de datos nuevo de DataHack. Dado que el formato sería .csv, conviértalo a formato ARFF, para que podamos leerlo en la interfaz de Weka. Después de haber realizado estos cursos, una vez que haya adquirido las habilidades suficientes para comenzar a trabajar y analizar conjuntos de datos utilizando la GUI de Weka. Quienes visitaron el enlace MOOC habrían visto el curso ‘Más minería de datos con Weka’.
Paso 5: más minería de datos con Weka
Aquí, se han discutido algunas características más avanzadas del uso del software. Desarrolla la experiencia del uso del curso anterior, por lo tanto, es un requisito previo.
Serie de YouTube
Además de este curso, es posible que desee echar un vistazo a esta serie de conferencias de YouTube de Rushdi Shams.Hay un total de 38 conferencias. Puede omitir algunas de las 2-3 conferencias iniciales si encuentra que el contenido es similar a los cursos anteriores. Este curso se ha basado en varias habilidades que son complementarias a las proporcionadas por la serie anterior.
Noticias de Weka
Hay algunas discusiones interesantes sucediendo en Reddit sobre Weka. Es recomendable pasar por el enlace mencionado para recopilar noticias sobre Weka y cómo lo están utilizando otros. Esto debería dar una perspectiva suficiente sobre el próximo paso posible después de Weka.
Paso 6: Línea de comandos de Weka
Siguiente paso: A partir de ahora, hemos estado confiando en el uso de Weka usando la GUI de Weka. A partir de ahora, ambos cursos se basan en GUI para este propósito, aquellos con experiencia en Programación JAVA pueden confiar en llamar a Weka desde dentro del Código JAVA. Esto es útil porque cuando se prueba o se trabaja con grandes conjuntos de datos, las secuencias de comandos ayudan a automatizar su trabajo. Además, dado que JAVA se usa para Hadoop Framework, Weka también se puede usar para BigData. Puede leer más usando Weka en BigData en aquí.
Entonces, aquellos interesados en este aspecto de Weka pueden probar esta serie de conferencias por Dr. Noureddin Sadawi. Es posible que desee consultar este tutorial de la API de Weka lista de reproducción además. El énfasis está en llamar a la API de Weka desde el código JAVA, repite algunos de los conceptos anteriores, pero usamos Weka usando una interfaz de línea de comandos.
Paso 7: Desafío Word2Vec
Habiendo obtenido una visión significativa, ahora veremos el análisis de sentimientos. Hay un pequeño conjunto de datos con un tamaño de conjuntos de datos de alrededor de 25 MB. Por lo tanto, estos se pueden procesar utilizando la GUI de Weka. Para conjuntos de datos de más de 40 MB, necesitamos usar el método de línea de comando. Esta discusión podría ser útil.
–
Este camino ha sido aportado por Abhinav Unnam, quien hizo una pasantía con nosotros el año pasado. Abhinav se encuentra actualmente en un curso de doble titulación de IIT Roorkee, una de las mejores universidades de ingeniería de la India. Comenzó su viaje de aprendizaje automático a través de Weka y hoy disfruta participando en varias competencias de Kaggle usando R y Kaggle.