¡6 proyectos de ciencia de datos de código abierto para probar en casa!

Contenidos

Visión general

  • Trabaje en sus habilidades de ciencia de datos con estos proyectos de código abierto
  • Estos proyectos de ciencia de datos de código abierto cubren una amplia gama de temas, desde la visión por computadora hasta el análisis web.

Introducción

¿Le ha resultado difícil aprender en casa? La mayoría de nosotros estamos en el mismo barco: hay demasiadas cosas con las que hacer malabares durante estos tiempos tumultuosos y el aprendizaje, contrariamente a nuestras expectativas iniciales, ha pasado a un segundo plano.

Entonces, ¿cómo podemos volver a encarrilarnos? ¿Cómo podemos combinar nuestro aprendizaje de la ciencia de datos con la experiencia práctica?

Una cosa clave que me ha ayudado enormemente es elegir un proyecto de ciencia de datos de código abierto y ejecutarlo. Esto no solo me ayuda a comprender las áreas clave en las que necesito mejorar, sino que también me muestra el camino a seguir.

data_science_projects_github-3564080

Y estos proyectos no son sus proyectos de ciencia de datos comunes y corrientes. Estos son proyectos específicos que abordan un determinado subcampo de la ciencia de datos, como la visión por computadora, el análisis web, etc. El proyecto podría ser un conjunto de datos, una biblioteca de última generación que ha hecho avanzar el campo de la ciencia de datos o incluso una herramienta de análisis de código abierto.

Por lo tanto, elija un proyecto que lo intriga y comience a trabajar en él hoy mismo.

Puede consultar nuestro archivo completo de proyectos de ciencia de datos de código abierto aquí.

6 proyectos de ciencia de datos de código abierto para probar durante este período de bloqueo

github-6003811

Proyectos de visión artificial de código abierto

Gracias al poder de PyTorch, este año estamos viendo una gran cantidad de casos de uso increíbles en el espacio de la visión por computadora. Aquí, he seleccionado algunos proyectos excepcionales de visión por computadora que te encantará explorar y sumergirte.

Y si es nuevo en este campo y desea comenzar, consulte estos recursos:

Este es un caso de uso exquisito de la visión por computadora. Convertir una imagen en una foto tridimensional requirió un conocimiento sofisticado y profundo de herramientas como Photoshop en un momento dado. Ahora, gracias a los avances en el aprendizaje profundo y la visión por computadora, ¡podemos realizar esta transformación en solo unas pocas líneas de código!

Este proyecto, de código abierto en GitHub, hace exactamente eso. Toma una sola imagen de entrada RGB-D y la convierte en una foto 3D. Si prefiere los términos de aprendizaje profundo, entonces esta es «una representación de múltiples capas para una síntesis de vista novedosa que contiene estructuras de color y profundidad alucinadas en regiones ocluidas en la vista original».

Vea un ejemplo de lo que puede hacer con este marco:

Bastante impresionante, ¿verdad? Este proyecto, como ya habrás adivinado, se ha realizado utilizando PyTorch. Ese es un marco con el que debería empezar a familiarizarse:

Este es un proyecto secundario agradable en el que trabajar si no tienes mucho tiempo libre. Hace lo que dice en la caja: le das al modelo una imagen de entrada y la transformará en una versión de dibujos animados:

photo_cartoon_open_source_project-4277153

¿Puede adivinar qué concepto de visión por computadora está detrás de este proyecto? Sí, redes generativas de confrontación (GAN). Estoy realmente sorprendido por los rápidos avances que hemos visto en las GAN desde que se abrió en 2014 a la comunidad. Desde CycleGANs hasta StarGANs, no hay escasez de frameworks que puede elegir y trabajar.

Los desarrolladores detrás de este proyecto de foto a caricatura han abierto un modelo preentrenado para ayudarlo a cargarlo y ejecutarlo rápidamente en su máquina. He visto algunos intentos de esto antes, pero esta es la transformación más realista con la que me he encontrado.

A continuación, se muestran algunos recursos para ayudarlo a comprender las GAN:

Los marcos de detección de objetos han experimentado un progreso notable en los últimos años. Hemos pasado de generar cuadros delimitadores simples en imágenes estáticas a rastrear objetos dinámicos en videos. Ese es el poder de la visión por computadora.

Sin embargo, el progreso en la unión de los conceptos de detección y reidentificación de objetos ha sido lento (¡por decir lo menos!). En este fascinante estudio, los investigadores presentan una línea de base simple para abordar esta brecha mediante el seguimiento de múltiples objetos de un solo disparo.

Mira su modelo en acción:

multi_object_detection_open_source-3230494

El modelo de línea de base que han obtenido de código abierto supera al estado del arte en conjuntos de datos públicos en 30 fps. Puede encontrar tanto el código como el artículo de investigación en el enlace que he mencionado anteriormente.

Recomiendo seguir los siguientes tutoriales si está buscando aprender a detectar objetos:

Otros proyectos impresionantes de ciencia de datos de código abierto

He seleccionado una lista de diversos proyectos de ciencia de datos de código abierto aquí, desde la generación de audio hasta el análisis deportivo. ¡Prueba tu favorito y disfruta de la experiencia de aprendizaje!

Hice clic en este proyecto tan pronto como vi OpenAI en el título. Soy un gran admirador de su trabajo y aprecio su postura sobre el código abierto de los principales desarrollos para la comunidad de ciencia de datos en general. ¿Quién no ama GPT-2?

Jukebox, como los fanáticos de la música entenderán intuitivamente, es un modelo de red neuronal que genera música cantando en el dominio de audio sin procesar. OpenAI ha abierto los pesos y el código del modelo, junto con una herramienta para explorar las muestras generadas.

auto-music-3228954

Así es como funciona Jukebox: proporcionamos el género, el artista y la letra como entrada, y la red neuronal nos brinda una nueva muestra de música producida desde cero. La gama de música que puede generar Jukebox es asombrosa en su alcance. ¡Es un proyecto fascinante en el que trabajar!

Puede ver (y escuchar) Jukebox en acción en El sitio de OpenAI. Y también puede consultar los artículos de DataPeaker sobre cómo trabajar con datos de audio:

¿Utiliza herramientas de análisis web como Google Analytics para realizar un seguimiento del rendimiento de su sitio? El problema con estas herramientas es que no existe privacidad para su organización. Además, es posible que deba desembolsar algo de dinero si desea las funciones premium. Entonces, no es ideal para todos.

Estas son las brechas clave que ShyNet pretende salvar. Así es como lo expresaron los desarrolladores:

«Lo aloja usted mismo, por lo que los datos se tuyo. Funciona sin cookies, por lo que no necesita avisos de cookies intrusivos. Recopila solo los datos suficientes para ser útil, pero no lo suficiente como para ser espeluznante. Es de código abierto y destinado a para ser autohospedado. E incluso puede encontrar la interfaz fácil de usar «.

Aquí hay una captura de pantalla de muestra de la página de inicio predeterminada de ShyNet:

shynet_web_analytics_open_source_project-4151548

Y si se pregunta qué métricas clave puede brindarle ShyNet, su espera ha terminado:

  • Golpes
  • Sesiones
  • Tiempo de carga de la página
  • Porcentaje de rebote
  • Duración
  • Remitentes
  • Ubicaciones
  • Sistema operativo
  • Navegador
  • Ubicación geográfica y red
  • Tipo de dispositivo

Tenga en cuenta que ShyNet en su formato actual es excelente si tiene una pequeña o mediana empresa. Puede que no sea ideal para usar si estás en una gran empresa. El repositorio de GitHub que he vinculado anteriormente contiene un resumen completo de cómo funciona ShyNet y cómo puede comenzar a usarlo.

Recomiendo seguir la guía detallada a continuación para aprender sobre el mundo del marketing digital (del cual forma parte la analítica web):

Este es un favorito personal. Soy un gran fanático del fútbol y he estado profundizando en el mundo de la analítica deportiva desde hace bastante tiempo. El progreso en este campo ha sido mucho más lento en comparación con otras industrias, pero en los últimos años, los equipos y las franquicias están despertando al poder de la analítica y la ciencia de datos.

Los deportes estadounidenses están muy por delante de otros países en términos de progreso y adaptabilidad, pero los clubes de fútbol europeos finalmente están comenzando a jugar a la pelota. Liverpool, por ejemplo, se basa en gran medida en un enfoque basado en datos de arriba a abajo, incluida la planificación de su estrategia de contratación.

Entonces, si eres un fanático de los deportes y quieres incursionar en el mundo de la analítica, este es el proyecto de código abierto perfecto para ti.

football_analytics_open_source_project-5635158

El repositorio de GitHub contiene una gran cantidad de recursos para comenzar, que incluyen:

  • Recursos y sugerencias sobre habilidades técnicas que vale la pena tener para trabajar en análisis de fútbol.
  • Una colección de tutoriales de Python que muestran cómo trabajar con conjuntos de datos de fútbol.
  • Trabajos de investigación y artículos sobre desarrollos de vanguardia en análisis de fútbol.

Notas finales

Entonces, ¿en qué proyecto de ciencia de datos de código abierto trabajará en mayo? Intenté cubrir una amplia gama de dominios aquí que ofrecen una gran variedad de opciones para ti. Personalmente, estoy muy emocionado de sumergirme en el proyecto del manual de análisis de fútbol y ver cómo puedo ampliar mis conocimientos sobre el tema.

Si tiene otros proyectos de código abierto para compartir con nosotros, no dude en colocar el nombre y el enlace en la sección de comentarios a continuación. ¡Hagamos de este un mes de aprendizaje súper productivo!

Suscribite a nuestro Newsletter

No te enviaremos correo SPAM. Lo odiamos tanto como tú.