Este artículo fue publicado como parte del Blogatón de ciencia de datos
Introducción
, o «Colab» para abreviar, son Jupyter Notebooks alojados por Google que le permiten escribir y ejecutar código Python a través de su navegador. Es fácil de usar un Colab y está vinculado con su cuenta de Google. Colab proporciona acceso gratuito a GPU y TPU, no requiere configuración y es fácil compartir su código con la comunidad.
Colab tiene una historia fascinante. Es una herramienta interna para el análisis de datos en Google. Sin embargo, más tarde se lanzó públicamente y, desde entonces, muchas personas han estado utilizando esta herramienta para lograr sus tareas de aprendizaje automático. La mayoría de los estudiantes y usuarios que no tienen una GPU utilizan colab como recursos gratuitos para ejecutar sus experimentos de ciencia de datos.
Este artículo recopila algunos trucos y consejos útiles que utilizo para facilitar mi trabajo en Colab. He intentado enumerar la mayoría de las fuentes donde las leí primero. Estos consejos le ayudarán a aprovechar al máximo sus cuadernos Colab.
Usando tiempos de ejecución locales
Normalmente, Colab le ofrece recursos de GPU gratuitos. Sin embargo, si ya tiene sus GPU y desea utilizar la interfaz de usuario de Colab, existe una solución. Los usuarios pueden usar la interfaz de usuario de Colab con un tiempo de ejecución local de la siguiente manera:
Puede utilizar este método para ejecutar código en su hardware local y acceder a su sistema de archivos local sin salir del cuaderno Colab. La siguiente documentación profundiza en la forma en que funciona. Mira esto documento para más detalles.
Bloc de notas
Si está creando varios cuadernos con nombres como «untitled.ipynb» y «untitled1.ipynb», etc. Creo que algunos de nosotros podríamos navegar en el mismo barco en este sentido. Entonces el Cuaderno con bloc de notas en la nube podría ser para ti si ese es el caso.
El bloc de notas en la nube es un cuaderno específico disponible en la URL: https://colab.research.google.com/notebooks/empty.ipynb que no se guarda automáticamente en su cuenta de disco. Es útil para la experimentación o el trabajo no trivial y no ocupa espacio en Google Drive.
Reciba notificaciones sobre ejecuciones celulares completadas
Los usuarios reciben notificaciones después de completar las ejecuciones, incluso si cambian a otra pestaña, ventana o aplicación. Los usuarios pueden habilitarlo a través de Herramientas> Configuración> Sitio> Mostrar notificaciones de escritorio (y permitir las notificaciones del navegador una vez que se les solicite) para verificarlo.
Así es como aparece la notificación incluso si está en otra pestaña.
Aquí hay una demostración de notificación que aparece incluso si navega a otra pestaña.
Imagen del autor
Los cuadernos de GitHub Jupyter se abren directamente en Colab
Los cuadernos de Colab se desarrollaron de tal manera que se pueden integrar fácilmente con Github. Significa que puede cargar y guardar cuadernos de Colab en GitHub directamente. Tenemos una manera fácil de hacerlo, gracias a Seungjae Ryan Lee.
Cuando esté en un cuaderno en Github que desee ver en Colab, reemplace Github con githubtocolab en la URL, dejando todo lo demás sin cambios.
Imagen del autor
Conjuntos de datos de Kaggle en Google Colab
En el momento de bajo presupuesto y había consumido su cuota de GPU en Kaggle, este truco podría ser un descanso para usted. Se puede descargar cualquier conjunto de datos sin problemas desde Kaggle a su espacio de trabajo de Colab. Esto es lo que deberías hacer:
Después de hacer clic en la pestaña ‘Crear nuevo token de API’, se genera un archivo kaggle.json que consta de su token de API. Crea una carpeta Kaggle en su Google Drive y almacene el archivo kaggle.json en él
Monte la unidad en un portátil colab
Cambie la ruta de configuración a ‘Kaggle.json’ y cambie el directorio de trabajo actual
import os os.environ['KAGGLE_CONFIG_DIR'] = "/content/drive/My Drive/Kaggle"
%cd /content/drive/MyDrive/Kaggle
Copiar API del conjunto de datos para descargar
La API está presente en la pestaña ‘Datos’ para conjuntos de datos vinculados a competiciones.
Imagen del autor
Por último, ejecute cualquiera de los siguientes comandos para descargar el conjunto de datos
!kaggle datasets download -d alexanderbader/forbes-billionaires-2021-30
!kaggle competitions download -c google-smartphone-decimeter-challenge
Imagen del autor
Busque sus portátiles en la unidad
¿Si desea buscar un portátil Colab específico en la unidad? Vaya al cuadro de búsqueda de unidades y agregue:
application/vnd.google.colaboratory
Enumerará todos sus cuadernos en su Google Drive. Además, también puede especificar el título y la propiedad del cuaderno. Por ejemplo, si necesito buscar un cuaderno creado hace mucho tiempo, que tiene ‘Transferir’ en su título, lo siguiente ayuda a obtenerlo:
Extensión de la tabla de datos
Colab incluye un extensión para cargar marcos de datos de pandas en pantallas interactivas que se pueden clasificar, filtrar y examinar de forma dinámica. Escriba el siguiente código en la celda del cuaderno para habilitar la visualización de la tabla de datos para los marcos de datos de Pandas.
%load_ext google.colab.data_table #To diable the display %unload_ext google.colab.data_table
Aquí hay una demostración rápida:
Imagen del autor
Comparación de cuadernos
Al utilizar Colab, es fácil comparar dos portátiles. Use Ver> Diferenciar cuadernos en el menú Colab o navegue hasta https://colab.research.google.com/diff y en el cuadro de entrada, pegue las URL de los cuadernos para ver la diferencia.
Evite que Colab se desconecte
Desconectado por inactividad:
Esta es una desventaja significativa de Google Colab y estoy seguro de que muchos de ustedes la han experimentado al menos una vez. Decide tomarse un descanso, pero cuando regresa, ¡su computadora portátil está desconectada!
De hecho, si dejamos el portátil inactivo durante más de 30 minutos, Google Colab lo desconecta automáticamente.
Abra Chrome DevTools presionando F12 en Windows o ctrl + shift + i en Linux, y luego escriba el siguiente código JavaScript en su consola:
function KeepClicking(){ console.log("Clicking"); document.querySelector("colab-connect-button").click() } setInterval(KeepClicking,60000)
Cada 60 segundos, esta función hace clic en el botón de conexión. Como resultado, Colab cree que el portátil no está inactivo y que no debería preocuparse por desconectarse.
Desconexión mientras se ejecuta una tarea:
Para comenzar, tenga en cuenta que cuando se conecta a una GPU, solo puede usar la máquina en la nube durante un máximo de 12 horas a la vez.
Es posible que te desconecten en algún momento durante estas 12 horas. «Colaboratory está diseñado para un uso interactivo», según las preguntas frecuentes de Colab. Los cálculos en segundo plano que se han estado ejecutando durante mucho tiempo, especialmente en las GPU, se pueden finalizar.
Usa Tensorboard con Colab
TensorBoard es una herramienta para mostrar métricas y visualizaciones a lo largo de un flujo de trabajo de aprendizaje profundo. Se puede utilizar inmediatamente dentro de Colab.
Cargue primero la extensión de la computadora portátil TensorBoard:
%load_ext tensorboard
Una vez que su modelo esté completo, inicie TensorBoard dentro de la computadora portátil escribiendo:
%tensorboard --logdir logs
Conclusión
Estos fueron algunos trucos que me parecieron muy útiles, especialmente cuando se trata de entrenar modelos Ml en GPU. Aunque los cuadernos de Colab solo pueden funcionar durante un máximo de 12 horas, con los trucos compartidos anteriormente, debería poder aprovechar al máximo su sesión.
Espero que haya encontrado útil este artículo y que tenga un día maravilloso, gracias.
Los medios que se muestran en este artículo no son propiedad de DataPeaker y se utilizan a discreción del autor.