El Caos de los Datos: Cómo la Fragmentación Está Frenando la Innovación
Muchas instituciones enfrentan un ecosistema de datos fragmentado, caracterizado por la coexistencia de múltiples plataformas, servicios y herramientas que, en ocasiones, operan con formatos propietarios e incompatibles. Esta situación genera silos de información, dificulta la gobernanza y ralentiza los procesos de análisis y toma de decisiones. Y por supuesto, la IA generativa, ha añadido una capa adicional de complejidad.
Fuente: Databricks
La situación tampoco pasa desapercibida para otros proveedores cloud, quienes han tenido que responder al mercado con soluciones aparentemente unificadas, aunque en la práctica la mayoría de estas propuestas consisten en la agrupación de los mismos servicios que inicialmente contribuyeron a una nueva fragmentación del ecosistema de datos.
Análisis de los Ecosistemas de Datos (Marzo 2025)
El concepto de "Plataformas" no es nuevo y lo hemos observado en numerosas soluciones que hemos estado migrando o decomisionando a lo largo de estos años, desde opciones comerciales licenciadas como SAS o Cloudera hasta plataformas basadas en Hadoop y tecnologías Open Source. Pero, ¿Por qué se está iniciando una nueva fase de migraciones? Y, ¿Por qué los hiperescaladores como AWS o Azure han lanzado sus propias nuevas plataformas de datos?
Para responder a ambas preguntas, primero debemos analizar por qué los clientes han empezado a deprecar las Plataformas Legacy. En segundo lugar, es necesario identificar las motivaciones claves, más allá de lo puramente comercial, que impulsan a los tres grandes proveedores cloud a ofrecer nuevos productos en un formato de plataforma.
La Decomisión de las Plataformas Legacy
La respuesta a la primera pregunta es relativamente sencilla, y de hecho, ya la abordamos de forma indirecta en este blog. La realidad es que las empresas fueron eliminando gradualmente estas plataformas, principalmente porque heredaron numerosas limitaciones propias de los despliegues "on-premise" de aquella época, que resultaban ineficientes y costosas en comparación con las soluciones modernas basadas en la nube.
No me refiero únicamente a las limitaciones en términos de escalabilidad, las dificultades para operar en escenarios de alta disponibilidad y el uso ineficiente de recursos – donde por defecto se dimensionaba más de lo necesario, generando capacidad ociosa, y con el tiempo se quedaba corto y resultaba insuficiente – sino también y sobre todo al elevado costo del licenciamiento.
Fuente: Cedcoss
Históricamente, y aún en la actualidad, el tema de las licencias ha sido un verdadero dolor de cabeza para los usuarios en ámbitos como CRM, CBS, ERP, entre otros. Muchas plataformas han adoptado prácticas de licenciamiento que, en ocasiones, han resultado abusivas, generando un malestar considerable entre los clientes, especialmente en momentos críticos como negociaciones y renovaciones. ¿Cuántas empresas han optado por migrar tras enfrentarse a disputas con sus proveedores sobre el licenciamiento? La respuesta es: muchas.
Y aquí es donde, por simple coincidencia o evolución del mercado, se vincula el cambio de paradigma en el entorno cloud. La eliminación del modelo tradicional de licenciamiento, junto con el concepto de pago por uso y la capacidad y flexibilidad que ofrece la nube, solucionaba la mayoría de los problemas de infraestructura y licenciamiento. Esto impulsó a los clientes a iniciar un proceso masivo y sensato de adopción de servicios en la nube, independientemente de que, en un principio, algunas de las opciones disponibles no fueran perfectas.
Las nubes, en su carrera por liderar el mercado, han ido añadiendo servicios—algunos de alta calidad y otros con limitaciones—para responder a la amplia gama de necesidades empresariales. Ser el primero en ofrecer una solución confiere una ventaja competitiva considerable. Por ejemplo, Amazon Redshift se posicionó como la solución de data warehouse con más implementaciones (alrededor de 6,500) tras la adquisición que realizó AWS a una empresa que desarrolló un DWH basado en PostgreSQL; en otras palabras, no era una solución nativa de la nube y presentaba numerosas limitaciones.
Y a medida que se fueron añadiendo e integrando nuevos servicios en las nubes (agrupados en categorías), la fragmentación fue creciendo y todo se volvió complicado de gobernar y de escalar. Aunque los arquitectos quizás ya estemos acostumbrados a estos desafíos (especialmente considerando que en el pasado la situación era aún peor) la realidad es que construir y gobernar un ecosistema de datos se convirtió en un reto. Esto se debe a que cada uno de los innumerables servicios posee su propio roadmap, evolución, incompatibilidades, así como limitaciones heredadas que complican la integración y gestión de todo el entorno.
La fragmentación del dato existía antes, pero estaba mejor gestionada en las plataformas que se decomisionaron y esto es importante resaltarlo. Tenían su pesado "legado" y todos los puntos negativos previos a la revolución cloud, pero había una mayor integración entre componentes. Lógicamente el paso del tiempo y los nuevos avances también contribuyeron a que las empresas adquirieran más software del que realmente necesitaban, aumentando aún más la complejidad de sus ecosistemas.
Fuente: Unext
Plataformas de Nueva Generación
Estamos presenciando un nuevo "auge" de Plataformas o Sistemas Unificados de Datos & IA. En diciembre del año pasado AWS anunciaba su plataforma unificada "Amazon SageMaker Lakehouse", el año anterior Azure su plataforma "Fabric". Creo que será cuestión de tiempo para que Google haga lo mismo, pero la pregunta es ¿Por qué? ¿Y por qué ahora?
Seguramente las motivaciones sean varias y gran parte del argumento caiga en factores estratégicos y comerciales que no comentaré para no generar ruido en este blog. Pero si hay algo muy evidente, es imposible no ver el diagrama conceptual de Amazon SageMaker y no ver un paralelismo exacto con el concepto y filosofía de Databricks. Es la misma pirámide pero invertida.
Fuente: Imágenes de AWS & Databricks
Independientemente de nuestras preferencias tecnológicas, creo que no es debatible el hecho de que Databricks instaló (o más bien adaptó) un concepto que ya existía de "plataforma" a la nube y lo evolucionó, homogeneizando y preparándolo para las futuras demandas del mercado. Y este enfoque integral que combina lo mejor del mundo "pre-cloud" y del "cloud" terminó siendo exitoso y replicado por las propias clouds como hemos podido ver.
Es más, estamos viendo situaciones de clientes que están siendo asesorados para migrar sus ecosistemas cloud native a este concepto de plataforma integral y unificado. Este hecho es relevante, no solamente porque valida que "este era el camino" y marca una tendencia clara de que los futuros proyectos de datos serán en plataformas de datos y la competencia estará entre Databricks, Fabric, SageMaker, Palantir y otras más (excluimos Snowflake por no tener un alcance integral), evitando crear puramente ecosistemas a medida con tropecientos servicios del cloud.
Al mismo tiempo, es un poco frustrante—porque una vez más, muchas empresas tendrán que pasar por otro ciclo de migración, lo que conlleva otra ronda de interrupciones y desafíos.
Fuente: SunnyData
Lo positivo para quienes están apostando por Databricks es que no solo es el pionero en este concepto (ser el primero no siempre significa ser el mejor), sino que además tecnológicamente lleva una ventaja considerable.
En esta etapa, es casi imposible recomendar Amazon SageMaker a un cliente cuando está aún en Preview y en proceso de construcción. Algo similar ocurre con Fabric, aunque en menor medida.
Por ello, el panorama de recomendación se vuelve claro: Databricks no solo es la opción más avanzada, sino también la más madura y confiable en este escenario en evolución.
Databricks: Pioneros en la Creación de una Plataforma de Datos Cloud Native
Desde sus inicios, el objetivo de Databricks ha sido reducir la complejidad del ecosistema de datos, eliminando bloqueos innecesarios y optimizando la infraestructura para garantizar una mayor interoperabilidad, reducción de costos y una gestión eficiente de la información en toda la organización.
El dato, por su propia naturaleza, ya es inherentemente complejo; agregarle la dificultad de gestionar múltiples servicios, orquestaciones e integraciones entre software que no hablan el mismo idioma, junto a herramientas que se complementan en parte y suplen en exceso, solo intensifica el desafío.
Esta realidad, presente en la mayoría de las organizaciones, no solo genera fricción, mayores costos y frustraciones, sino que también desvía a la empresa de su verdadero objetivo: transformarse en una compañía de Datos + IA.
Fuente: Databricks
El Ecosistema Databricks
Las instituciones requieren plataformas que no solo ofrezcan escalabilidad y seguridad, sino que también permitan optimizar el procesamiento de grandes volúmenes de información, automatizar procesos y mejorar la toma de decisiones mediante inteligencia artificial.
Databricks proporciona un ecosistema diseñado específicamente para satisfacer estas necesidades, integrando capacidades avanzadas de almacenamiento, análisis, machine learning y gobernanza de datos en una única plataforma unificada.
Gracias a su arquitectura Lakehouse, Databricks permite a las instituciones reducir la fragmentación de sus datos en un entorno único, seguro y altamente performante.
Fuente: Databricks
El Lakehouse: Rompiendo Silos
Databricks ha recorrido un largo camino desde la introducción del concepto de lakehouse en el año 2019, un modelo que la mayoría de arquitecturas modernas han adoptado en diferentes formas. La esencia de este enfoque arquitectónico radica en centralizar el almacenamiento de datos en formatos abiertos dentro de un lago para eliminar los silos.
Al adoptar estándares abiertos como Delta Lake y Apache Iceberg, Databricks brinda la capacidad de leer y escribir en ambos, ofreciendo así plena interoperabilidad y evitando bloqueos en formatos propietarios. Este enfoque no solo simplifica la arquitectura, sino que también reduce costos al eliminar la necesidad de múltiples copias o réplicas de datos.
Además, al trabajar con formatos abiertos, se facilita la integración con otras herramientas y servicios, potenciando la flexibilidad y la capacidad de escalar a medida que surgen nuevas necesidades de análisis y de IA. Al unificar lagos de datos y almacenes de datos, Databricks proporciona una solución sólida y moderna que impulsa la innovación mientras garantiza una sólida gobernanza de datos en todo el ciclo de vida de la información.
Fuente: Databricks
Seguridad y Privacidad: ¿Por qué es importante la centralización?
La seguridad y la privacidad se han convertido en desafíos críticos en cualquier estrategia de datos. Dado que cada eslabón de la cadena —desde la captura hasta la visualización— puede ser un punto de vulnerabilidad, es innegable que, al final, la seguridad y la privacidad son un problema de datos. La proliferación de fuentes, formatos y herramientas solo aumenta esta complejidad.
Además, los requisitos regulatorios en constante evolución y la creciente sofisticación de las amenazas demandan un enfoque unificado de gobernanza que abarque no solo la protección de la información, sino también la trazabilidad, el cumplimiento normativo y la prevención de ciberataques. Para lograrlo, se necesita de plataformas unificadas que permitan centralizar la gestión de la seguridad y la privacidad, al tiempo que habiliten la colaboración entre equipos y la rápida adopción de nuevas tecnologías.
Una gobernanza sólida de datos garantiza no solo el resguardo de la información, sino también la confianza de los usuarios internos y externos, factor clave para impulsar la innovación y la toma de decisiones basada en datos de forma segura y sostenible.
Fuente: Databricks
Unity Catalog: Gobierno Nativo para Securizar tus Datos
Unity Catalog proporciona una solución de gobernanza unificada, abierta y compatible con todos los datos de la organización. Permite no solo proteger y gestionar datos estructurados, sino también datos no estructurados, archivos, notebooks y activos de IA.
Más allá de la gobernanza y la catalogación, unifica la supervisión, el linaje, la auditoría y otras capacidades clave, ofreciendo una visibilidad y un control de extremo a extremo: desde la ingesta de datos hasta la generación de dashboards y modelos, y todo lo que ocurre en medio.
Fuente: Databricks
Conclusiones
Las empresas que aún dependen de plataformas legacy tienen ahora la oportunidad ideal para migrar a soluciones consolidadas como Databricks, adoptando un enfoque estratégico que realmente hace sentido en el contexto actual. Como mencionamos antes, los datos ya son lo suficientemente complejos por sí mismos como para añadir más dificultades con arquitecturas fragmentadas y obsoletas.
Apostar por plataformas unificadas no solo simplifica la gestión y optimiza el rendimiento, sino que también permite escalar, innovar y mantenerse competitivo en un mundo cada vez más orientado a la inteligencia de datos y la automatización.