Mapa del Quién es Quién en Big Data
El 70% de las empresas confía en Big Data para la toma de decisiones, ya sea acortando los tiempos, creando modelos predictivos o incluso con la automatización de la toma de decisiones. Sin embargo, la mayoría de las empresas desconocen los nombres y las posibilidades que se esconden detrás de tecnologías como Spark, Kafka, Cassandra, Flume, Elastic, MongoDB…
[divider style=»single» border=»small» color=»#0066bf»]
Spark y Kafka tecnologías punteras del mapa del ecosistema de Big Data y que Paradigma Digital recoge en una práctica infografía.
[divider style=»single» border=»small» color=»#0066bf»]
Y es que ante el vertiginoso avance y continua mejora de las tecnologías, la que hoy es una referencia indiscutible para el ecosistema de Big Data mañana puede quedar obsoleta ante la aparición de una nueva tecnología que revoluciona el mercado. Como ha sucedido con Spark, que ha relevado completamente a una de las tecnologías que se venía utilizando habitualmente como Hadoop, o la irrupción de Kafka que se ha convertido en el bus de mensajería del siglo XXI por su capacidad distribuida y escalabilidad.
Big Data está en la base de todas las grandes tendencias de hoy en día, desde las redes sociales al mundo móvil, pasando por el cloud y el gaming. Para ayudar a las empresas a conocer mejor quién es quién en el ecosistema de Big Data, Paradigma (www.paradigmadigital.com), multinacional española especializada en la transformación digital de las empresas, ha publicado una práctica infografía con la veintena de tecnologías más relevantes a día de hoy, en la que destacan Spark y Kafka, y sus diferentes campos de aplicación.
Para esto, la infografía desvela las 7 grandes áreas de clasificación de las tecnologías Big Data:
- Ingesta: para la recolección de los datos desde su origen, tanto en bases de datos tradicionales o bien en flujos continuos mediante la red. Acá resaltan tecnologías como Flume o bien Sqoop.
- Almacenamiento: para guardar y administrar grandes volúmenes de datos, como pueden ser las bases de datos NoSQL. Nos hallamos con Cassandra, Hadoop HDFS, MongDB o bien Elastic.
- Administración de recursos: para la planificación y asignación de los recursos del clúster donde se realiza el procesamiento. Existen tecnologías como Yarn o bien Mesos.
- Motores de procesamiento: que son el auténtico corazón del Big Data. Son motores capaces de efectuar el cómputo de forma distribuida, para repartir el trabajo entre múltiples nodos de computación y realizar operaciones costosas en escaso tiempo. Resalta, sobre todo Spark, que no solo aguanta el paradigma Map/Reduce sino más bien un conjunto considerablemente mayor de transformaciones que pueden ser ejecutadas paralelamente y que lo hace hasta cien veces más veloz que Hadoop MapReduce, otra de las tecnologías conocidas al lado de Storm o bien Flink.
- Mensajería: para el intercambio de datos entre los diferentes componentes de forma eficaz. Nos hallamos con RabbitMQ y, sobre todo, con Kafka el nuevo autobus de correo del siglo veintiuno tanto por su capacidad distribuida de alto desempeño –al estar desarrollado para manejar cientos y cientos de MB de mensajes por segundo, generados y consumidos por miles y miles de clientes del servicio y ordenados en “topics”– como por su escalabilidad –al poderse ejecutar durante un cluster de nodos–.
- Bibliotecas de consulta: que son bibliotecas orientadas a facilitar el acceso a los datos y que se fundamentan en los motores de procesamiento para elaborar las consultas de forma eficaz. Podemos refererir acá a Hive, Pig o bien Spark SQL.
- Bibliotecas machine learning: son algoritmos para clasificar, pronosticar o bien concretar. Se fundamentan en motores de procesamiento para ejecutar cálculos complejos rapidísimo. Resaltan Spark MLlib o bien FlinkML.
[divider style=»single» border=»small» color=»#0066bf»]
El desarrollo y la evolución de la tecnología es vertiginoso, están apareciendo nuevas tecnologías que mejoran a las anteriores y las dejan obsoletas.
[divider style=»single» border=»small» color=»#0066bf»]
Siendo conscientes de la dificultad del ecosistema de Big Data y la velocidad a la que evolucionan las tecnologías, Paradigma aconseja como primer paso un diagnóstico veloz de los datos de los que dispone o bien puede contar con sencillamente, la organización, para, desde esa visión, identificar un quick win realizable en un corto plazo que aporte beneficios claros en escaso tiempo y con una inversión razonable. Medrar desde ahí enriqueciendo las vías de adquisición de datos y mejorando la inteligencia sobre ellos, va a ser considerablemente más simple, de tal manera la organización se va a ir orientado poquito a poco y de forma ordenada cara el paradigma Data Centric: el apoyo de todos y cada uno de los procesos de negocio en inteligencia Big Data.
Fuente / Paradigma Digital