Tribuna de experto
Bienvenido a la era de la plataforma de datos moderna
Para ser realmente «data driven», una empresa debe cambiar su forma de almacenar y consumir los datos. Las plataformas modernas de datos en la nube, que combinan rendimiento y escalabilidad, están llamadas a sustituir a las históricas soluciones «in situ». Yves Cointrelle, Director de Datos y Análisis de VISEO, comparte algunas ideas sobre el tema.
La crisis sanitaria habrá validado definitivamente el paso a la nube. En una época en la que se requieren cambios rápidos, las empresas ya no quieren verse limitadas por contingencias materiales. Esperar semanas o incluso meses para negociar la compra de servidores y luego dimensionarlos y configurarlos simplemente ya no es factible.
La nube permite desplegar servicios al instante, sin preocuparse por los problemas de rendimiento. La potencia de cálculo es potencialmente infinita y el único límite es la línea presupuestaria. Estas estrategias de «paso a la nube» afectan a los componentes de la infraestructura, pero también a las aplicaciones de ERP y de negocio cuando no están basadas en la nube de forma nativa.
También se espera que las bases de datos, los data lakes y las soluciones analíticas o de IA se trasladen a la nube. Esto es lo que se conoce como plataforma de datos moderna, término que pretende conciliar los conceptos de DataLake, datawarehousing o Analytics: un entorno analítico completo para extraer el mayor valor posible de los datos internos o externos.
La extensión natural del almacén de datos y las iniciativas de Big Data
La plataforma de datos moderna es una extensión natural de los anteriores data wharehouses e iniciativas de Big Data. Tradicionalmente, estas soluciones recogen un gran volumen de datos, tanto en bruto como refinados, que se activan mediante herramientas de análisis, consultas o IA.
Para las empresas que deben hacer frente a importantes volúmenes de datos, la alternativa es recurrir a soluciones dedicadas de software y hardware (dispositivos) con el fin de garantizar un alto rendimiento. Estas soluciones son adecuadas para una amplia gama de casos de uso, aunque son caras y sus costes las han restringido a las telecomunicaciones, el transporte aéreo o la distribución. El enfoque de big data consiste en colocar datos estructurados y no estructurados en un clúster Hadoop, sin saber de antemano si la empresa obtendrá valor de ellos, siempre que encuentre los casos de uso adecuados. Estas infraestructuras, adaptadas a la gestión de grandes volúmenes y adecuadas para la ejecución de algoritmos de IA, se han visto progresivamente sustituidas por soluciones de tipo Data Lake o por cuentas de almacenamiento en la nube. Solo los clientes (por elección u obligación) reacios a pasarse a la nube o los preocupados por la portabilidad de su entorno siguen invirtiendo en estas distribuciones, que poco a poco van perdiendo terreno.
Se espera que todos estos entornos migren a la nube y se conviertan en plataformas de datos modernas. Este concepto ofrece lo mejor de todos los mundos, conciliando los puntos fuertes y los débiles de las plataformas ya existentes. Una plataforma de datos en la nube puede procesar cualquier tipo de dato —datos de gestión, imágenes, sonidos, vídeos, datos de los sensores de IdC, etc.— para todos los usuarios, con un alto nivel de rendimiento y una verdadera facilidad de implementación.
Esta nueva generación de plataformas cubre todo el ciclo de vida de los datos, desde su adquisición, organización, transformación y almacenamiento hasta su valorización. Su enfoque sin servidor permite no reproducir la arquitectura de hardware tradicional y crear instancias de servicios en la nube para establecer y consultar una base de datos, realizar análisis (informes, visualización de datos) o utilizar bricks de IA.
Gracias a la fijación de precios de la nube, una empresa solo paga por el tiempo necesario para un servicio de tratamiento del lenguaje natural, reconocimiento de imágenes o cálculo de alto rendimiento, sin tener que invertir anualmente en una infraestructura ad hoc.
Los hiperescaladores en acción
Uniendo todas las piezas, los hiperescaladores estadounidenses ofrecen este enfoque con Big Query para Google Cloud, Redshift para AWS y Synapse Analytics para Microsoft Azure. Sin embargo, estos entornos propietarios suponen un riesgo de bloqueo de la propiedad (lock-in) al no permitir el paso de una nube a otra.
Para garantizar esta portabilidad necesaria, proveedores como Snowflake proponen servicios básicos de datos gestionados independientes que funcionan en cualquier plataforma elegida. Las ofertas en la nube de Teradata y Oracle también compiten con las ofertas de los hiperescaladores.
Otra posibilidad es colocar las bases de datos tradicionales (MySQL, PostgreSQL) en modo IaaS. Se ejecutan virtualmente en la nube, lo que les garantiza una cierta portabilidad sin llegar al rendimiento y la escalabilidad de las bases de datos nativas en la nube.
La plataforma de datos moderna no se limita a la base de datos. Incluye toda la parte de ingesta, transformación y alimentación previa, pero también las herramientas de catalogación, así como de gestión de la calidad, preparación y visualización de los datos. Para la parte de ETL/ELT, los hiperescaladores también tienen sus propias ofertas dedicadas con Azure Data Factory de Microsoft, Dataflow de Google Cloud o Glue de AWS. Algunas organizaciones también utilizan el dúo Spark y Databricks como plataforma de integración de datos.
Por otro lado tenemos los actores históricos Informatica y Talend, o actores puros como Matillion, nacidos con la nube.
La nube está reorganizando la baraja en el departamento de TI
Estos cambios estructurales en la arquitectura no están exentos de impacto dentro del departamento de TI. Las competencias de los administradores de sistemas y de bases de datos están cambiando significativamente y están surgiendo nuevas funciones. La dimensión en tiempo real y centrada en los datos de una plataforma de datos moderna implica, por ejemplo, que se alimente de datos a medida que se producen y no en sistemas por lotes.
La consolidación o, incluso, la supresión de salas de máquinas o centros de datos también puede llevar a la supresión o externalización de puestos relacionados con la supervisión. Por lo tanto, la transición a la plataforma de datos moderna debe ir acompañada de una estrategia de gestión del cambio con importantes acciones de actualización y recualificación. Al mismo tiempo, la nube es una palanca para atraer y retener el talento, ya que los jóvenes profesionales de la informática desean, evidentemente, trabajar en entornos «actualizados».
Por último, una empresa debe tener en cuenta los costes de esta «cloudificación» en su conjunto (TCO). Si bien en ciertos casos de uso la nube no es necesariamente menos costosa, la gestión y el uso de los datos ofrece, por lo general, escenarios financieramente atractivos. Además, la empresa ya no se plantea la cuestión de la previsibilidad de los costes tratando de anticipar su volumen de datos a dos o tres años vista ni la potencia informática asociada. Otra ventaja de la nube.