¿Por qué nadie migra de Databricks a Snowflake?

La tendencia del mercado es migrar de Snowflake a Databricks. ¿Por qué? Lo descubriremos en este blog, pero para preparar el terreno ¿No les resulta extraño buscar en Google "Migrate from Databricks to Snowflake" y no encontrar casi nada? Me ha resultado bastante difícil encontrar información sobre "Cómo migrar de Databricks a Snowflake" y aún más empresas que lo hayan hecho y compartan su experiencia.

Introducción: El dominio de Databricks (la nueva era)

La mayoría de los resultados tratan de cómo migrar de Snowflake a Databricks (aunque se busque lo contrario). Es una realidad que el grado de penetración de Databricks entre los usuarios de Snowflake está en aumento. Esto se puede evidenciar en la siguiente imagen que refleja con notoriedad la tasa de crecimiento de cuentas de Databricks a partir del año 2021 hasta el 2023 (seguro que hoy la tasa debe ser considerablemente mayor).

Es cierto que sería más relevante analizar el uso real de las cuentas y no sólo su activación. También existe la posibilidad de que en algunos casos, un producto esté reemplazando al otro. Pero en líneas generales permite evidenciar un hecho que es una realidad: Databricks está superando a Snowflake.

¿Alguien ha migrado de Databricks a Snowflake?

Solamente he visto un caso de una empresa que ha migrado de Databricks a Snowflake y que afirmó lograr reducir los costos en alrededor de un 90%. Intrigado por esta afirmación, decidí investigar a fondo, porque la verdad me llamó mucho la atención y quería entender mejor.

Tras consultar diversas fuentes como LinkedIn, Reddit, Whitepapers, y consultado a personas, pude llegar a la siguiente conclusión:

Databricks no tenía nada que ver con la arquitectura de la cual partieron; de hecho, en estos costos se incluían otros componentes que engordaban artificialmente el baseline. El "ahorro" no refleja la realidad o está significativamente exagerado. Esto demuestra cómo los estudios comparativos en la industria tecnológica suelen estar sesgados y deben analizarse con cautela, lo que no quita que para esta empresa el cambio a Snowflake haya sido positivo.

¿Por qué las empresas se están alejando de Snowflake?

El éxito de Snowflake se explica en que hace unos años todos eran conscientes de que necesitaban un Data Warehouse, pero no de que necesitaban Data Science. Esto, en mi opinión, ha sido el apalancador principal del éxito temprano de Snowflake, porque como herramienta de Data Warehouse Snowflake es muy bueno, cubre una necesidad, y lo hace muy bien.

El "problema" de Snowflake empieza cuando se comienza a alejar de su alcance inicial y cada vez quiere imitar más la plataforma de Databricks, la cual tiene un enfoque integral como plataforma de datos e inteligencia artificial. Es normal que lo hagan, pues el mercado dio un giro y ahora ya no se trata solo del Data Warehouse. También Databricks ha hecho esfuerzos por popularizar Databricks SQL y ha lanzado avances como Photon para mejorar rendimiento.

En la siguiente imagen se ve el alcance tradicional de Snowflake. Es evidente que como plataforma no lograba cubrir las necesidades de Data & IA que requiere una empresa en la actualidad y que estaba enfocado para aplicaciones de inteligencia empresarial tipo SQL. Esto impulsó a que los usuarios de Snowflake deban cubrir el resto de necesidades con otras plataformas y ahí entra Databricks en la ecuación.

Fuente: Canal de YouTube de Databricks

¿Está Snowflake perdiendo su identidad?

El mercado ha adoptado Databricks porque es la única plataforma que cubre todo el espectro de Datos e IA. Lo que está pasando actualmente es que muchos usuarios de Snowflake que intentan cubrir todo lo que inicialmente no se podía en Databricks se han dado cuenta que lo que hace tan bien Snowflake (Data Warehousing) también se puede hacer en Databricks y ha impulsado a que muchas empresas empiecen un proceso de decomisionamiento de Snowflake y de migración total a Databricks.

Source: Databricks Youtube Channel

Es cierto que Snowflake se está esforzando en poder replicar las capacidades de Databricks y ha logrado ir "poblando" su solución, pero a la vez está perdiendo su identidad al querer convertirse en un Databricks. Databricks también ha hecho esfuerzos por rivalizar con Snowflake en el ámbito de Warehouse (Ejemplo: Photon) dado que es el único eslabón en donde Snowflake mantenía una ventaja, y solo en rendimiento (no funcionalidad).

El factor precio: Snowflake vs Databricks

Podemos resumir este apartado en que Snowflake es caro. Para profundizar aún más el tema y no quedarnos en una simplificación, indaguemos: A medida que se aumenta la escala de uso, los costos crecen más rápidamente que el rendimiento obtenido. Es decir, que el problema es que la relación precio/rendimiento en Snowflake no es lineal.

En cambio, en Databricks no hay un punto en el que los costos aumenten desproporcionadamente en relación con el rendimiento obtenido. Este ha sido el talón de Aquiles de Snowflake. Cuando se comienza a utilizar todo está bien, pero a medida que se escala la plataforma se vuelve cara. El hecho de que en Snowflake se deben replicar los datos en un formato específico también hace que la factura se incremente.

La siguiente imagen ilustra bien la problemática: El rendimiento de Databricks se mantiene proporcional al precio que se paga, incluso cuando se aumenta la escala de operaciones.

Yo siempre lo digo, si el dinero no es un problema, utilizar Snowflake SQL como Warehouse dentro de Databricks no es una mala opción (es decir como "Capa Gold"), del resto se ocupa Databricks. Sobretodo, para usuarios de negocio que están familiarizados con la plataforma y cuando se quiera generar la mínima fricción posible (que de más no está decir que hacer una migración de Snowflake a Databricks no es difícil, y en SunnyData podemos ayudarte con eso).

¿Qué pasará con Snowflake en el futuro y qué rol jugará?

Más que intentar predecir el futuro, explicaré lo que estoy viendo en el presente y cómo creo que esta tendencia evolucionará. Actualmente, veo dos escenarios muy definidos:

  1. Clientes que utilizarán Snowflake como Data Warehouse y para el universo SQL/BI: Estos clientes mantienen o incorporan Snowflake para la capa Gold (datos agregados) como hemos comentado en el blog. Son muy buenos en esto y tiene sentido que se haga si el precio no es un factor limitante.

  2. Empresas que empezarán un proceso de decomisionamiento de Snowflake: Estas empresas se están dando cuenta de que en Databricks también pueden tener un Data Warehouse muy eficiente, todo en una misma plataforma y con todos los beneficios heredados de una plataforma integral. Aquí también tiene un papel importante la introducción de herramientas como Unity Catalog y Photon en Databricks.

Hasta hace unos meses, lo que más estaba viendo es la primera opción, pero en los últimos meses me ha sorprendido la cantidad de clientes que están migrando de Snowflake a Databricks.

Conclusiones finales

No es de extrañar que Databricks lo domine todo y avance sobre el territorio de Snowflake. No es una opinión personal sino un hecho contrastado por consultoras como Gartner o Forrester.

En el próximo release de blog hablaremos de cómo migrar de Snowflake a Databricks.

¡Gracias por llegar hasta aquí!

Previous
Previous

Migración de PostgreSQL a Databricks: Acortando el camino al
Lakehouse

Next
Next

Migración de IBM DB2 y DataStage a Databricks (Parte 1)