Introducción
Casi todos los dominios / negocios actuales se están transformando a través de SMAC. SMAC es un término colectivo que se refiere a los cambios que ocurren en Social, METROobile, Aanalítica y Cfuerte. El impacto de este cambio ha sido generalizado: organizaciones, personas y productos. En el artículo de hoy, le permitiremos llevar sus capacidades de análisis al siguiente nivel mediante el uso de la computación en la nube.
Hemos explicado el concepto de computación en la nube usando programación R y RStudio usando una metodología paso a paso. Además, también aprenderá sobre los beneficios de usar R en la nube en comparación con el escritorio tradicional o la arquitectura de cliente / servidor local.
Nube: una plataforma habilitadora para la ciencia de datos:
La computación en la nube ha experimentado un crecimiento y una penetración sin precedentes en los últimos años. Ha permitido a las organizaciones escalar rápida y fácilmente. Al utilizar los servicios en la nube, las empresas recopilan, almacenan y analizan una gran cantidad de datos, lo que antes era casi impensable. Sin embargo, con servicios de empresas como Amazon, Google y Microsoft, los servicios en la nube ahora son accesibles para cualquier analista.
Atrás quedaron los días en los que compraba un servidor para una capacidad particular y luego necesitaba comprar uno nuevo, cuando se agotaba la capacidad anterior. Por ejemplo, la mayor parte del análisis que hago normalmente se basa en unos pocos GB de datos, suficientes para ejecutarlos directamente en mi computadora portátil. Sin embargo, recientemente Microsoft publicó ~ 400 GB de datos sobre malware y virus en Kaggle. Si hubiera pensado en resolver este problema en mi computadora portátil, me habría quedado sin plan de Internet con solo descargar el conjunto de datos. Analizarlo es un desafío aparte en sí mismo.
Incluso si hubiera descargado el conjunto de datos, la única forma de hacer el cálculo de significados a través de una forma no basada en la nube era comprando una nueva máquina, lo que no es una solución muy práctica. ¡Aquí es donde entra en juego la computación en la nube!
Debe leer: guía paso a paso para aprender a programar en R
¿Por qué necesitas la ‘nube’?
Como se discutió en el estudio de caso anterior, la nube es más barata para manejar big data que el almacenamiento en computadoras de escritorio, laptops o servidores locales. Esperar. Big Data? ¡Sí! Big Data es un término general que básicamente denota datos cuyo volumen, variedad y velocidad es mayor que las fuentes de datos convencionales y que requiere computación distribuida como Hadoop y almacenamiento no RDBMS como bases de datos NoSQL.
Debe leer: una guía para principiantes para usar big data usando MongoDB
¿Qué es la computación en la nube?
De acuerdo con la Definición de NIST de computación en la nube,
La computación en la nube es un modelo para permitir el acceso de red a pedido, conveniente y ubicuo a un grupo compartido de recursos informáticos configurables (por ejemplo, redes, servidores, almacenamiento, aplicaciones y servicios) que se pueden aprovisionar y liberar rápidamente con un mínimo esfuerzo de administración o interacción del proveedor de servicios. Este modelo de nube se compone de cinco características esenciales, tres modelos de servicio y cuatro modelos de implementación.
La computación en la nube consta de 3 componentes:
- Infraestructura como servicio (IaaS)
- Plataforma como servicio (PaaS)
- Software como servicio (SaaS)
IaaS– Para implementar sus aplicaciones, los usuarios de la nube instalan imágenes del sistema operativo y su software de aplicación en la infraestructura de la nube. En este modelo, el usuario de la nube parchea y mantiene los sistemas operativos y el software de la aplicación.
PaaS– Los proveedores de la nube ofrecen una plataforma informática, que generalmente incluye el sistema operativo, el entorno de ejecución del lenguaje de programación, la base de datos y el servidor web. Los desarrolladores de aplicaciones pueden desarrollar y ejecutar sus soluciones de software en una plataforma en la nube sin el costo y la complejidad de comprar y administrar las capas de hardware y software subyacentes.
SaaS – En el software como servicio (SaaS), los usuarios tienen acceso a bases de datos y software de aplicación. Los proveedores de la nube administran la infraestructura y las plataformas que ejecutan las aplicaciones. SaaS a veces se denomina «software bajo demanda».
¿Cuáles son las ventajas y desventajas de utilizar la computación en la nube con R frente a otras aplicaciones?
Python es gratuito al igual que R, pero la razón principal por la que R puntúa es que la biblioteca estadística de paquetes R es mucho más extensa. SAS sigue siendo el lenguaje líder para el análisis corporativo en el escritorio, pero sigue siendo costoso para las pequeñas empresas y tiene una desventaja significativa en el compromiso de gastos de capital debido a la estructura de licencia anual en lugar de la tarifa de licencia única.
Debe leer: una guía rápida sobre SAS vs R vs Python
¿Cuáles son las ventajas de usar R en la nube en comparación con el escritorio?
- Dado que sabemos que R está limitado a manejar datos tan grandes como el tamaño de la RAM, la nube nos ofrece una solución rápida para manejar Big Data Science usando R. Esto se puede hacer simplemente aumentando la RAM en la instancia de la máquina virtual. Puede ver los diversos tipos de opciones de RAM disponibles en la nube que simplemente no son asequibles en la máquina local.
- Para grandes conjuntos de datos, es mejor usarlo en la nube que descargar el conjunto de datos, procesarlo y luego puntuarlo. Por ejemplo, si tiene una competencia que usa 30 GB de datos, es mejor que lo use en la nube. Por lo tanto, la nube es una excelente manera de aprender sobre Big Data sin tener que preocuparse por la velocidad de Internet.
- La nube tiene una velocidad de ancho de banda mucho mejor. Por lo tanto, instalar software y transferir datos es mucho más rápido en la nube.
- Puede usar servicios adicionales como AzureML con R en la nube en lugar de crear su propio servicio de aprendizaje automático desde cero. Puedes esto tutorial para más información.
- La nube es mucho más escalable para los cambios en el volumen o la velocidad de los datos.
Realice la prueba: ¿Debería convertirme en científico de datos?
¿Cómo usar R Programming en la nube?
Puede crear una instancia (una máquina virtual a la que accede de forma remota) en Amazon Cloud, o en Microsoft Azure o en Google Cloud. Luego, puede simplemente instalar R de la misma manera que lo usa en su escritorio local. Se conecta a su máquina remota a través de SSH o Escritorio remoto.
A continuación, se muestra un proceso paso a paso para crear una instancia en la nube en Amazon Web Services.
Nota: Amazon tiene un nivel gratuito que le permite probar la nube de Amazon de forma gratuita durante 1 año. Sin embargo, esto es solo para micro instancias que tienen muy poca RAM y muy poco espacio en disco. Para mayor RAM y mayor almacenamiento, debe pagar más. Para ver las distintas instancias y sus precios por hora, puede visitar la página aquí. Básicamente, las tarifas se cobran en unidades de cálculo, pero este sitio web facilita el cálculo de los costos.
Primero debe crear su ID de Amazon. Una vez que haya terminado, siga los pasos a continuación para crear una instancia en la nube en los servicios web de Amazon:
- Inicie sesión en la consola de Amazon Web Services (AWS)
- Haga clic en Ejecutar instancia
- Elija el sistema operativo para su máquina virtual al que accederá de forma remota. Aquí he elegido Amazon Linux.
- Elija el tipo de instancia (tamaño de RAM y memoria necesaria). Ver aquí para comparar precios.
- Crea una llave de seguridad. Esto es necesario para un inicio de sesión seguro a prueba de cracker en la máquina remota. Tenga en cuenta que puede usar el escritorio remoto para los sistemas operativos Windows, pero deberá usar SSH para las instancias de Linux.
- Haga clic en Iniciar instancia
- Conéctese a la instancia usando su llave de seguridad siguiendo las instrucciones dadas.
- Ahora trabaje en su máquina remota como lo haría en una máquina local.
- Aquí estoy intentando instalar R
- Una vez que haya terminado su trabajo- rRecuerde cerrar la instancia no sea que incurra en una alta factura mensual.
Puede elegir instancias bajo demanda, o incluso tener instancias reservadas (reservar una máquina virtual por un período de tiempo fijo y, por lo tanto, con un descuento considerable).
Realice la prueba: ¿Debería convertirme en científico de datos?
¿Cómo usar R en la nube usando RStudio?
La edición RStudio Server se ejecuta solo en Linux. Por lo tanto, elegimos la instancia de Linux en la nube y luego configuramos R Studio Server. Luego podemos conectarnos al servidor RStudio remoto a través del navegador y usarlo de la misma manera.
Aquí hay una forma paso a paso de ejecutar RStudio en la nube.
- Nota: instalamos R ya usando sudo yum install R
- Descargue el servidor RStudio en su máquina virtual y luego instale RStudio Server
$ wget http://download2.rstudio.org/rstudio-server-rhel5-0.99.442-i686.rpm $ sudo yum install --nogpgcheck rstudio-server-rhel5-0.99.442-i686.rpm
- Verificas la instalación
$ sudo rstudio-server verify-installation
- Abra el puerto 8787 utilizando el grupo de seguridad en la Consola de AWS (grupos de seguridad del margen izquierdo) creando una regla TCP personalizada (haga clic en Editar en la pestaña de abajo)
- Crea un nuevo usuario con una nueva contraseña usando el terminal SSH para su instancia de nube de máquina virtual
- sudo useradd newuser1
- sudo passwd newuser1
- La dirección IP pública de la instancia en la nube se encuentra en la pestaña Instancias en el margen izquierdo.
- Abre su navegador en IPAddress: 8787 y luego inicia sesión con la identificación de usuario y la contraseña creadas anteriormente
- Ahora está listo para usar R usando la nube a través de un navegador
¿Utilizando R a través de la nube de bioconductores?
La nube de bioconductores es una forma asombrosa de poner en marcha R en la nube. Puedes ver las instrucciones aquí.
¿Cuáles son las otras opciones de computación en la nube?
También puede utilizar las opciones en la nube de Google y Windows Azure. Sin embargo, la mayor parte del espacio está dominado por Amazon Web Services.
¿Algún ejemplo de uso de R con plataformas y otro software como servicio?
Sí, podemos usar Aprendizaje automático de Azure con R en la nube y también usar Google Big Query con R.
¿Algún ejemplo de Big Data usando R en la nube?
Sí, hay muchos ejemplos. Recurso 1 y Recurso 2.
Notas finales
A estas alturas, ya tendría una descripción general de cómo implementar la computación en la nube usando R y R Studio. Realmente disfruté escribiendo y seleccionando los recursos útiles en este artículo. Este artículo también cubre preguntas que las personas suelen hacer mientras aprenden computación en la nube en R. Por lo tanto, he tratado de cubrirlas todas en este artículo. Según mi experiencia personal, descubrí que demostrar la nube en R es relativamente más fácil en comparación con otros softwares.
Espero que este artículo le haya ayudado a familiarizarse con la computación en la nube. Nos encantaría escucharlo de usted. ¿Lo encontraste útil? No dude en publicar sus pensamientos a través de los comentarios a continuación.