Spark vs Hadoop, ¿quién ganará?

apache Spark vs Hadoop Son dos de los productos más importantes y conocidos de la familia Big Data.

Aún cuando hay quienes ven estos dos frameworks como competidores en el espacio de big data, no es tan sencillo hacer una comparación Spark contra Hadoop. Hacen muchas cosas de la misma manera, pero hay algunas áreas en las que no se superponen. Als Beispiel, Apache Spark no tiene un sistema de archivos y, deshalb, se basa en el sistema de archivos distribuido de Hadoop.

Si consulta Tendencias de Google, puede ver que Hadoop es más popular en comparación con Apache Spark. Aber trotzdem, compañías como Yahoo, Intel, Baidu, Trend Micro y Groupon ya están usando Apache Spark.

Apache Spark vs Hadoop son comparables en diferentes parámetros. ¿Te interesa saber cuáles son los campos que marcan la diferencia?

Spark contra Hadoop. La batalla esta servida

La resolución de acertijos de Spark vs Hadoop se sirve en tres claves:

ein) Benutzerfreundlichkeit. Uno de los problemas más habituales al momento de contrastar ambos frameworks está relacionado con su facilidad de uso. ¿Cuál es más fácil de utilizar? Spark vs Hadoop? Unter diesen Umständen Apache Spark superaría a su oponente dado que viene equipado con API verdaderamente simples para Scala, Python, Java y Spark SQL. Zur selben Zeit, proporciona información en formato REPL sobre los comandos. Für seinen Teil, aunque es cierto que MapReduce tiene plugins como Pig y Hive que lo hacen algo más fácil de utilizar, al final lo que pasa es que la lógica simple necesita más programación (los programas deben estar escritos en Java), por lo que lo que se gana en usabilidad por una parte se perdería por el otro.

B) Desempeño. Este punto es tal vez el más difícil de solucionar en cualquier comparación entre Spark y Hadoop. Der Punkt ist, dass, Dado que ambos procesan los datos de manera distinto, no es nada fácil determinar quién logra el mejor rendimiento. Para hacer una elección se debe prestar atención que:

Sprechen über Funke – Funke:

Funciona en la memoria y por eso todos los procesos se aceleran.

Pero necesita más memoria para almacenamiento.

Su rendimiento puede verse afectado por la necesidad de usar aplicaciones pesadas.

Im Falle des Hadoop:

Los datos están en el disco y eso ralentiza todo.

La ventaja es que, en comparación con la otra alternativa, las necesidades de almacenamiento son menores.

Al ocuparse de borrar los datos cuando ya no se necesitan, no se producen pérdidas de rendimiento significativas para aplicaciones pesadas.

C) Sicherheit. Si en usabilidad Spark superó a Hadoop, en esta circunstancia no tiene nada que ver. Hadoop no tiene rivales Was:

Proporciona a sus usuarios todos los beneficios de los avances realizados en los proyectos de seguridad de Hadoop. (Knox Gateway o Sentry son algunos ejemplos).

HDFS admite la autorización de nivel de servicio, lo que garantiza los permisos adecuados para los clientes de nivel de archivo.

Ja, zur selben Zeit … verfügt über Hadoop HILO

Für seinen Teil, Spark debe ejecutarse en HDFS para ingresar a los permisos de nivel de archivo y, zur selben Zeit para obtener beneficios de seguridad, debe recurrir a Hadoop YARN.

Pero entonces, ¿Quién puede ser considerado el ganador de la competencia Spark vs Hadoop? Cada uno domina al otro en diferentes áreas. Als Beispiel, Hadoop sería la elección correcta cuando el tamaño de la memoria sea significativamente menor que el tamaño de los datos; pero si lo que buscas es velocidad, no podrías considerar otra alternativa que no sea Spark. ¿Cuál prefieres? ¿Crees que Spark podría terminar reemplazando a MapReduce? ¿Parece más probable que Hadoop siga disfrutando de su hegemonía?