Conjuntos de datos de Kaggle | Principales conjuntos de datos de Kaggle para practicar para los científicos de datos

Contenidos

Introducción

65134art-8450680

Kaggle tiene muchos recursos en línea que ayudan a uno a comenzar con la ciencia de datos. Tiene miles de conjuntos de datos, concursos de ciencia de datos, envíos de códigos en los conjuntos de datos, chat de la comunidad e incluso cursos para principiantes. El usuario también obtiene un perfil de usuario público que se puede compartir, que rastrea y muestra todas las contribuciones y logros del usuario.

El perfil de usuario muestra a quién sigue el usuario, quién sigue al usuario, código del usuario, cualquier conjunto de datos del usuario y otra información. También existen varios métodos de clasificación. El perfil de kaggle sirve como una buena manera de crear proyectos en línea que se pueden compartir y mostrar su talento. Al igual que su perfil de HackerEarth o Code Chef muestra sus habilidades de codificación competitivas, su perfil de kaggle sirve como una forma de expresar sus habilidades de ciencia de datos.

Para construir un buen perfil de kaggle, es necesario trabajar en los datos y crear cuadernos Python o R de alta calidad en forma de proyectos y contar una historia a través de los datos. Se pueden agregar varios gráficos de datos, escribir rebajas y entrenar modelos en Kaggle Notebooks. Se pueden hacer muchas cosas con ellos. Y lo mejor de Kaggle Notebooks es que: el usuario no necesita instalar Python o R en su computadora para usarlo. Casi todas las bibliotecas principales se pueden importar directamente. Kaggle también proporciona TPU de forma gratuita. Las unidades de procesamiento tensorial (TPU) son aceleradores de hardware especializados en tareas de aprendizaje profundo. Son compatibles con Tensorflow 2.1 tanto a través de la API de alto nivel de Keras como, en un nivel inferior, en modelos que utilizan un ciclo de entrenamiento personalizado.

Por lo tanto, trabajar con conjuntos de datos en Kaggle es muy fácil y conveniente y todos los principiantes deben probar Kaggle para desarrollar algunas habilidades y conocimientos.

Aquí hay algunos conjuntos de datos que todo principiante puede probar y crear proyectos increíbles:

1. Películas y programas de televisión de Netflix

51509ntflix-8793984

¿A quién no le gusta Netflix? Este conjunto de datos de kaggle tiene programas de televisión y películas disponibles en Netflix. Se puede crear un proyecto de análisis de datos exploratorios de buena calidad utilizando este conjunto de datos. Con este conjunto de datos, se puede averiguar: qué tipo de contenido se produce en qué país, identificar contenido similar a partir de la descripción y tareas mucho más interesantes.

  1. Enlace al conjunto de datos

Mis cuadernos favoritos

  1. EDA en la computadora portátil de Netflix
  2. Datos de Netflix: cuaderno de análisis y visualización

2. Desempeño de los estudiantes en los exámenes

85211exam-8403279

Estos datos se basan en la demografía de la población. Los datos contienen varias características como el tipo de comida que se le da al estudiante, el nivel de preparación de la prueba, el nivel de educación de los padres y el desempeño de los estudiantes en matemáticas, lectura y escritura. Con los datos, se pueden resolver varios tipos de problemas de regresión y clasificación. También se puede usar para encontrar qué factores pueden conducir a mejores puntajes en los exámenes. En general, será interesante trabajar en él.

  1. Enlace al conjunto de datos

Mis cuadernos favoritos

  1. Desempeño del estudiante en el cuaderno de exámenes

3. Clasificación de precios móviles

84146phone-3523780

El conjunto de datos de Clasificación de precios móviles tiene muchas características de datos y una amplia variedad de datos que siguen varios patrones de distribución. Hay características categóricas, datos numéricos continuos e incluso datos binarios. Una gran cantidad de patrones de datos asegura que uno sea capaz de trabajar con una gran cantidad de datos y lidiar con varios cálculos matemáticos y estadísticas.

  1. Enlace al conjunto de datos

Mis cuadernos favoritos

  1. Cuaderno de predicción de precios para dispositivos móviles
  2. Predicción de precio móvil n. ° 2

4. Imágenes de perros y gatos

84974cat_and_dog-2996462

El clásico conjunto de datos de clasificación Perro vs Gato. Hay muchas imágenes de perros y gatos que se pueden usar para entrenar modelos y hacer predicciones. Este conjunto de datos es imprescindible para los estudiantes que intentan ingresar al procesamiento de imágenes o la visión por computadora. Además, puedes ver muchas imágenes lindas de gatos y perros.

  1. Enlace al conjunto de datos

Mis cuadernos favoritos

  1. Cuaderno clasificador de imágenes de perros y gatos

5. Reseñas de hoteles de Trip Advisor

90269trip-9098233

Los hoteles son una parte importante de los viajes y las vacaciones. Las reseñas de hoteles son datos de texto, que se pueden procesar mediante métodos de procesamiento del lenguaje natural (PNL). Hay más de 20.000 reseñas de hoteles seguidas de una calificación de estrellas de 1 a 5. El conjunto de datos se puede utilizar para entrenar un modelo de clasificación para determinar la calificación de estrellas de una revisión de prueba determinada. Puede ser un buen trampolín para entrar en el análisis de texto y la PNL.

  1. Enlace al conjunto de datos

Mis cuadernos favoritos

  1. Cuaderno de predicción de opiniones sobre hoteles

6. Mercado de la vivienda de Melbourne

16194melb-8955601

El conjunto de datos del mercado inmobiliario de Melbourne es un recurso de aprendizaje favorito de todos los tiempos para los principiantes en la ciencia de datos. Tiene muchas características: datos numéricos, categóricos e incluso geográficos (latitud y longitud). Por tanto, también se puede utilizar para análisis geoespacial y otros problemas de agrupación. De manera similar, también se pueden realizar tareas de regresión y clasificación en este conjunto de datos. También hay numerosos ejemplos de código y guías disponibles para este conjunto de datos, lo que lo convierte en el conjunto de datos ideal para los estudiantes.

  1. Enlace al conjunto de datos

Mis cuadernos favoritos

  1. Melbourne || Cuaderno de análisis integral del mercado de la vivienda
  2. Cuaderno de análisis integral del mercado inmobiliario de Melboune

7. Modelado de abandono

15848churn-9648912

La tasa de abandono de empleados indica la frecuencia con la que los empleados de la empresa renuncian a sus trabajos dentro de un período determinado. Es un aspecto importante de HR Analytics y estrategia corporativa. Los datos son características de la vida real como la edad, el género, el tiempo de vínculo con la empresa y otras características importantes. Los datos se pueden utilizar para crear un modelo de clasificación y explorar patrones interesantes en los datos.

  1. Enlace al conjunto de datos

Mis cuadernos favoritos

  1. Cuaderno de clasificación de abandono

8. Amazon Top 50 libros más vendidos 2009-2019

82787book-9936496

Siempre es interesante trabajar con un conjunto de datos de ventas y obtener información. Las características incluyen la calificación de los usuarios de Amazon, la cantidad de reseñas en Amazon y otras. Este conjunto de datos se puede utilizar para crear proyectos EDA y también crear análisis de regresión. Se puede utilizar para crear un caso de estudio interesante sobre el éxito de los libros más vendidos.

  1. Enlace al conjunto de datos

Mis cuadernos favoritos

  1. Cuaderno de libros más vendidos de Amazon

9. Conjunto de datos personales de gastos médicos

24160hosp-5591675

Este conjunto de datos se utiliza para realizar previsiones de seguros en función de varias funciones. Las características interesantes incluyen el IMC, el número de niños y si la persona es fumadora o no. También se incluye en la categoría de datos demográficos y se puede utilizar para mostrar un análisis de los gastos de seguro de una persona.

  1. Enlace al conjunto de datos

Mis cuadernos favoritos

  1. Cargos para pacientes || Cuaderno de agrupación y regresión

10. Resultados de la búsqueda de exoplanetas Kepler

47296space-8839848

Kepler había verificado 1284 nuevos exoplanetas en mayo de 2016. En octubre de 2017, hay más de 3000 exoplanetas confirmados en total (utilizando todos los métodos de detección, incluidos los terrestres). El telescopio aún está activo y continúa recopilando nuevos datos sobre su misión extendida.

Los datos tienen varias características, todas las cuales pueden ser un poco difíciles de entender. Se puede encontrar una guía explicada detallada aquí.

  1. Enlace al conjunto de datos

Notas finales

Hay muchos portátiles en este conjunto de datos, puede ser un poco difícil para los principiantes, pero se puede trabajar mucho en este conjunto de datos.

Hay muchos más conjuntos de datos y desafíos disponibles en Kaggle, de los cuales los principiantes pueden aprender. También se puede usar su perfil de Kaggle como un medio para expresar sus habilidades en ciencia de datos.

Los medios que se muestran en este artículo sobre los conjuntos de datos de Kaggle no son propiedad de DataPeaker y se utilizan a discreción del autor.

Suscribite a nuestro Newsletter

No te enviaremos correo SPAM. Lo odiamos tanto como tú.