Google anuncia mejoras en BigQuery, la herramienta de administración de Big Data lanzada por el gigante de Internet en 2010 como un servicio capaz de analizar big data dentro y fuera del ecosistema de Apache Hadoop. A pesar de esto, con estas actualizaciones profundas, el servicio en la nubeEl "servicio en la nube" se refiere a la entrega de recursos informáticos a través de Internet, permitiendo a los usuarios acceder a almacenamiento, procesamiento y aplicaciones sin necesidad de infraestructura física local. Este modelo ofrece flexibilidad, escalabilidad y ahorro de costos, ya que las empresas solo pagan por lo que utilizan. Además, facilita la colaboración y el acceso a datos desde cualquier lugar, mejorando la eficiencia operativa en diversas... fortalece su operación independiente y busca atraer usuarios de Hadoop, el líder actual en análisis de Big Data.
Mientras que la segunda generación de Hadoop intenta superar sus debilidades como la falta de velocidad y complejidad, al mismo tiempo de reforzar sus obvias ventajas, Google enfoca el desarrollo de BigQuery hacia la comercialización del servicio como alternativa a ese.
Aún cuando BigQuery es compatible con Hadoop y ambos productos han sido creados directa o indirectamente por Google, sus caminos no parecen estar destinados a seguir cruzando. Si lo hacían hasta el momento, a pesar de esto Google demuestra que quiere separarlos cada vez más para impulsar su ventaja competitiva en todos los frentes, incluida su rivalidad con Kinesis de AWS.
En realidad, BigQuery busca ser una factible alternativa a la opción open source presentada por MapReduceMapReduce es un modelo de programación diseñado para procesar y generar grandes conjuntos de datos de manera eficiente. Desarrollado por Google, este enfoque Divide el trabajo en tareas más pequeñas, las cuales se distribuyen entre múltiples nodos en un clúster. Cada nodo procesa su parte y luego se combinan los resultados. Este método permite escalar aplicaciones y manejar volúmenes masivos de información, siendo fundamental en el mundo del Big Data.... y Hadoop Distributed File SystemEl Sistema de Archivos Distribuido de Hadoop (HDFS) es una parte fundamental del ecosistema Hadoop, diseñado para almacenar grandes volúmenes de datos de manera distribuida. HDFS permite el almacenamiento escalable y la gestión eficiente de datos, dividiendo archivos en bloques que se replican en diferentes nodos. Esto asegura la disponibilidad y la resistencia ante fallos, facilitando el procesamiento de datos masivos en entornos de big data.... (HDFSHDFS, o Sistema de Archivos Distribuido de Hadoop, es una infraestructura clave para el almacenamiento de grandes volúmenes de datos. Diseñado para ejecutarse en hardware común, HDFS permite la distribución de datos en múltiples nodos, garantizando alta disponibilidad y tolerancia a fallos. Su arquitectura se basa en un modelo maestro-esclavo, donde un nodo maestro gestiona el sistema y los nodos esclavos almacenan los datos, facilitando el procesamiento eficiente de información...). Con la actualización profunda que, entre otras mejoras, posibilita combinar los resultados de consultas de múltiples tablas de datos, Google pretende explotar la velocidad y el análisis en tiempo real proporcionado por Dremel, el producto en el que se basa el diseño de BigQuery.
Análisis de datos en la nube
Concebido como un servicio que facilita consulta rápida en la nube a partir de que el usuario envía datos a Google por medio de la API de BigQuery, su actualización continúa enfocándose en consultas de tipo SQL. En esta versión nueva, se agregan nuevas capacidades junto con la función antes mencionada de unir datos de varias tablas en una sola consulta por medio de una nueva cláusula JOIN"JOIN" es una operación fundamental en bases de datos que permite combinar registros de dos o más tablas basándose en una relación lógica entre ellas. Existen diferentes tipos de JOIN, como INNER JOIN, LEFT JOIN y RIGHT JOIN, cada uno con sus propias características y usos. Esta técnica es esencial para realizar consultas complejas y obtener información más relevante y detallada a partir de múltiples fuentes de datos...., sin límite en el tamaño de los datos.
Hasta el momento, BigQuery solo podía manejar grupos de datos de un máximo de 8 MB y, por otra parte, agregar funcionalidades para importar marcas de tiempo de otros sistemas, datos de fecha y hora de la consulta o agregar columnas a tablas existentes y recibir correos electrónicos automáticos cuando se les da acceso a más conjuntos de datos.
En palabras de Ju-kay Kwek, Product Manager, los cambios se traducen en más velocidad, simplicidad y facilidad de uso:
En la actualidad, con BigQuery, las ideas comerciales se pueden obtener de forma directa a través de consultas similares a SQL, con menos esfuerzo y a una velocidad mucho mayor de lo que era factible previamente. Unir tablas de datos de terabytes ha sido tradicionalmente una tarea difícil para los analistas, dado que hasta el momento requería habilidades de desarrollo sofisticadas de MapReduce, hardware potente y mucho tiempo.
Su uso está totalmente desvinculado del marco del elefante amarillo, considerando prescindir de él como una ventaja más del producto. Desde Google Comentan que en lugar de instalar Hadoop, utilizar BigQuery ahorrará dinero al pagar solo por cada consulta en lugar del costo de TI de la infraestructura requerida para implementarlo. Con eso y con todo, igualmente, Hadoop se creó en su día a partir de tecnologías como MapReduce y archivo de Google para procesar grandes cantidades de datos a muy bajo costo.
Tecnología Microsoft SQL y Hadoop
Por su parte, Microsoft ha presentado recientemente sus soluciones Big Data desde la nube a favor del Internet de las cosas. Partiendo de una única plataforma para la administración y el análisis de datos, su uso de Hadoop es parte de una de sus principales innovaciones: un SQL Server 2014 más rápido y su Intelligent Systems Service (IIS) y Analytics Platform System (APS).
La última versión de APS es un producto de bajo costo gracias a la combinación de la tecnología de Hadoop y Microsoft SQL para ofrecer un Data Warehouse que almacena y gestiona datos tradicionales junto con la última generación.
Como nuevo servicio de Azure, se presentó Microsoft Azure Intelligent System Service (ISS), una herramienta diseñada para operar desde cualquier sistema operativo con el fin de aprovechar la información generada desde muy temprano. diferentes fuentes, como máquinas, sensores o dispositivos. Asimismo, CCC se pone a disposición gracias a herramientas como Power BI para Office 365 que posibilitan combinar datos locales y datos de la nube de forma complementaria, con el resultado de una rápida administración de la información.
Publicación relacionada: