Empezando con Kaggle | El primer vistazo a Kaggle

Contenidos

Este artículo fue publicado como parte del Blogatón de ciencia de datos

Introducción

Toda carrera actual necesita tener una comunidad, un grupo de personas con las que podamos hablar sobre el trabajo, los errores, las ideas y aprender. Kaggle es la comunidad de ciencia de datos más grande y popular del mundo. Tener una comunidad así nos ayuda a sentir que “pertenecemos”, que es uno de los sentimientos cruciales para nuestra interacción social y nuestra salud.

En este artículo, veremos a Kaggle como una comunidad completa y a Kaggle como una plataforma: todas sus diferentes herramientas, servicios y recursos disponibles para que podamos aprender al igual que practicar la ciencia de datos.

Veamos la interfaz que obtenemos cuando visitamos Kaggle por primera vez.

56769screenshot20357-4251898

Antes de comenzar a usar Kaggle, necesitamos crear una cuenta y luego iniciar sesión, puede ver ambas opciones en la esquina superior derecha. Una vez que haya terminado con eso, esto es lo que podría parecer.

90248screenshot20358-2029611

Algunas de las cosas visibles aquí pueden ser diferentes para usted porque la interfaz está personalizada con la forma en que he usado Kaggle hasta ahora desde el momento en que me registré.

Navbar y todo lo que tenemos a nuestra disposición en Kaggle:

62386screenshot20360-3091979

Una vez que hago clic en ‘más’, esas son todas las cosas a las que puedo acceder desde mi cuenta de Kaggle.

75241screenshot20361-3319797

En mi opinión, hay 4 cosas importantes que hacen que Kaggle «LO MEJOR».

1. Cursos y certificados gratuitos disponibles

Hay muchos cursos disponibles en múltiples dominios de aprendizaje automático y ciencia de datos. No solo los cursos están disponibles, después de cada lección, sino que también hay cuadernos de práctica (ejercicios) disponibles para familiarizarse con el tema. Para obtener su certificado gratuito de Kaggle, es necesario completar todas las tareas y ejercicios.

53223screenshot20362-7878913
20483screenshot20363-9160728
44530screenshot20364-3094428

Hay pocos cursos más, pero a través de esto, quería mostrarte que existe tal diversidad de temas en estos cursos que no tienes que ir a ningún lado, en cualquier momento para sentirte perdido en algún tema o problema, obtén ayuda desde aquí.

Déjame mostrarte cómo se ven estos cursos con un ejemplo:

59463screenshot20367-8543587
48640screenshot20368-7917057

Al final de cada curso, hay una lección adicional, que es diferente en términos de contenido pero similar al caso de uso y comprensión del curso. En su mayoría incluyen algún tema famoso y / o poderoso. Aquí tenemos AutoML (de Google) para automatizar el aprendizaje automático.

2. Una enorme colección de conjuntos de datos disponibles públicamente / aportados para practicar / trabajar

Para cualquier tarea de ciencia de datos o aprendizaje automático o aprendizaje profundo, necesitamos datos y muchos de ellos la mayor parte del tiempo. En lugar de navegar en diferentes sitios para diferentes tipos / tamaños de conjuntos de datos, Kaggle proporciona un lugar común para una gran colección de todos estos conjuntos de datos. Puede usarlos con un clic. Son extremadamente fáciles de usar.

29028screenshot20369-8522682
32956screenshot20370-9281940

Una vez que haga clic en «Conjuntos de datos» en la barra de navegación, esto es lo que verá. Puede buscar un conjunto de datos específico, importar / contribuir con su propio conjunto de datos a la comunidad o estudiar o comenzar a trabajar en un conjunto de datos, que se muestra en esta página. (Conjuntos de datos de tendencias, Conjuntos de datos populares, Conjuntos de datos vistos recientemente)

Para la demostración, buscaré un conjunto de datos específico («conjunto de datos de manchas solares»). Veamos cómo se ve.

29789screenshot20371-7931344

El número en la selección roja es el número de votos positivos que le dieron las personas, para la opción más relevante / me gusta. Exploremos y veamos este conjunto de datos en detalle.

Hay muchas cosas que podemos utilizar para saber más sobre estos datos y empezar a trabajar de inmediato.

  • Puede descargar el conjunto de datos,
  • cree un nuevo Kaggle Notebook con este conjunto de datos ya cargado.
  • Algunos detalles sobre las columnas dentro de los datos.
  • Actividades que involucran estos datos.
  • Por último, pero no menos importante, todos los cuadernos creados y compartidos públicamente hasta la fecha que utilizan estos datos.

3. Competencias de ciencia de datos / aprendizaje automático / aprendizaje profundo

Aunque no he participado en ninguno de ellos, me encanta cómo completamos en tiempo real un problema junto con la comunidad de Kaggle y ganamos increíbles premios en efectivo (si participamos en esa competencia en particular). Definitivamente quiero participar algún día pronto, espero que las imágenes te motiven. No es necesario que solo las grandes empresas o las empresas ricas puedan hacer eso. Tú también puedes hacer eso. Hay ciertos protocolos que deben seguirse y listo, tienes tu propia competencia alojada.

79134screenshot20376-1388455
50413screenshot20377-9405335

He clasificado la competencia completada hasta hoy según su valor de recompensa. Mirar de cerca.

4. Cuadernos Kaggle (código)

Para cualquier tarea relacionada con la ciencia de datos o informática, tenemos que escribir al menos algún código. Kaggle nos proporciona su propio entorno de Notebook con un cierto límite de cuánto podemos almacenar en ellos (colectivamente por cuenta), cuántas horas de GPU disponibles y cuántas horas de TPU disponibles. Están completamente integrados con todos los servicios de Kaggle y se pueden usar de forma independiente como cualquier otro entorno de notebook (Datalore, Google Colab, Jupyter, etc.), lo que significa que puede usarlos para su práctica, competencias de Kaggle, cursos de Kaggle, analizando algunos Kaggle / o conjuntos de datos que no son de Kaggle y muchos más. Debes comprobarlos.

92661screenshot20378-7517554

Al hacer clic en ese botón negro, crea su cuaderno o abre el cuaderno de otra persona que desea leer y aprender / comparar. Todos estos cuadernos visibles se comparten públicamente de forma explícita, lo que significa que sus cuadernos no serán visibles para nadie a menos que usted elija hacerlo.

Para cambiar de CPU a GPU o TPU, siga esto:

72424screenshot20380-4251022

Estas son la mayoría de las opciones funcionales que tiene a su disposición con respecto a este portátil:

89069screenshot20381-3102904
62421screenshot20382-8573959

Veamos cómo usarlos con datos (importados / tomados directamente de Kaggle / descargados de URL, etc.) y comience a trabajar en sus tareas de ciencia de datos.

90089screenshot20383-7931089
93972screenshot20384-7494173

Aquí le mostraré cómo usar ese conjunto de datos de «manchas solares» que vimos anteriormente. Empiece por buscar.

48408screenshot20385-1494437
98343screenshot20386-1007680

Ahora los datos se cargan correctamente. La selección de la imagen de arriba es el directorio en el que se almacena. Veamos un pequeño pandas código sobre cómo importar el conjunto de datos.

44616screenshot20387-4312854

Lo último que puede hacer después de completar su proyecto / trabajo es compartirlo con la comunidad en Kaggle. Este es un paso importante porque al compartir nuestras ideas, nuestro trabajo, ampliamos las utilidades disponibles para la comunidad y nos apoyamos mutuamente. Crecemos gracias a los demás.

A la izquierda del botón azul grande en la parte superior derecha, verá un «Cuota» botón. Haga clic en eso y seleccione Público en el menú desplegable.

31300screenshot20388-7976762

Espero que le haya gustado lo que vio en esta guía y esté ansioso por comenzar a usar Kaggle.

Gargeya Sharma

B.Tech Computer Science 3er año
Especializado en ciencia de datos y aprendizaje profundo
Pasante científico de datos en Upswing Cognitive Hospitality Solutions
Para obtener más información, consulte mi página de inicio de Github

LinkedIn GitHub

Los medios que se muestran en este artículo no son propiedad de DataPeaker y se utilizan a discreción del autor.

Suscribite a nuestro Newsletter

No te enviaremos correo SPAM. Lo odiamos tanto como tú.