Día 2 de Databricks vs Snowflake vs Fabric: Evaluando El Conjunto de Herramientas
Consideraciones
Si bien creo que Databricks es generalmente la mejor de las tres plataformas, esta serie está escrita con la intención de ser lo más objetiva posible y proporcionar comentarios valiosos tanto a individuos y empresas que evalúan sus opciones de stack de datos, como a los proveedores para que tomen el feedback de lo que digo y lo que otros escriben en los comentarios, y les ayude a desarrollar mejores productos.
He pasado una buena cantidad de tiempo a lo largo de los años con estas plataformas (y sus componentes) en diferentes capacidades. El conocimiento adicional sobre las diferentes áreas se ha obtenido principalmente de leer sitios web de marketing y documentación de los proveedores, ver videos de expertos en las plataformas, así como dedicar tiempo práctico.
Este es el segundo artículo de la serie. El primero puede leerse aquí. Cada categoría enumera las plataformas en orden de mejor a peor en la categoría. Para la publicación de hoy, mi texto es más extenso ya que quería capturar algunas de las características únicas de cada plataforma en cada categoría.
Conjunto de Herramientas Incluidas
1) Databricks: De serie, Databricks ofrece la mejor orquestación de plataforma de datos, capacidades ETL/ELT, gobernanza (Unity Catalog), asistente de codificación, AI/ML, y prácticamente cualquier experiencia relacionada con datos. También ofrece dashboarding básico y capacidades prometedoras centradas en el negocio como AI/BI Genie. Casi todo lo que necesitas para entrar en producción con confianza viene incluido, excepto algunas cosas como conectores sólidos para ingesta (están trabajando en esto) o una experiencia BI madura. Una desventaja del conjunto de herramientas de Databricks es que, a veces, algunas no funcionan bien entre sí, por ejemplo, los DLTs no se integraban bien con Unity Catalog en el pasado. En general, sin embargo, es difícil superar la calidad y el precio de lo que Databricks empaqueta en una plataforma. Generalmente, herramientas de calificación "B" o superior.
2) Snowflake: La mejor contribución de Snowflake es su fantástico motor. Depende fuertemente de herramientas como Airflow, dbt y Fivetran para necesidades básicas de ingeniería de datos. Ha realizado inversiones en capacidades de IA internas y será interesante ver cómo crecen estas capacidades con el tiempo. Las adquisiciones probablemente serán el mejor camino para que alcancen a Databricks en términos de estas capacidades incluidas. Dicho esto, Databricks en su versión básica a menudo es mejor que Snowflake en su versión básica.
3) Fabric: Data Factory es un orquestador maduro con conectores de ingesta incorporados (que Databricks y Snowflake no tienen suficientes), así como Power BI, posiblemente la herramienta BI más potente del mercado. Si estuviéramos evaluando solo para necesidades analíticas, Synapse, quiero decir, Fabric superaría a Snowflake. Dicho esto, las herramientas generalmente no son tan buenas como las incorporadas en Databricks (excepto PBI) y carece de capacidades de negocio más específicas en las que Snowflake se desempeña bien y Databricks lo hace suficientemente bien. Se siente muy parecido a lo que Synapse se sentía, con una interfaz de usuario similar a PBI.
Ecosistema de Herramientas de Partners
1) Snowflake: Ha abrazado el ecosistema de partners más que cualquier proveedor de plataforma de datos. Si bien esto les cuesta en términos de preparación lista para usar, hay poca duda de que la mayoría de las herramientas maduras de terceros históricamente han tendido a priorizar su relación con Snowflake, incluyendo la incorporación de nuevas características, antes que otros proveedores.
2) Databricks: Databricks ha hecho grandes avances en alentar a proveedores terceros a hacer que sus herramientas sean compatibles con Databricks. Muchas herramientas maduras admiten Databricks, otras están considerando hacerlo con cautela, otras están tratando de evitar alienar a Snowflake, y muchos desarrolladores de nuevas herramientas favorecen la construcción de herramientas totalmente compatibles con Databricks ya que ven el auge de la plataforma como una oportunidad de mercado.
3) Fabric: Hay información limitada disponible en esta categoría/partners limitados. No es un área de enfoque significativa para Fabric.
Flexibilidad
1) Databricks: Soporte robusto de lenguajes de programación, diversas opciones de compute, sólidas herramientas/capacidades incluidas + la capacidad de usar herramientas de terceros si se desea hace de Databricks la plataforma más flexible que admite casos de uso tanto de ingeniería de datos como de IA.
2) Snowflake: La flexibilidad de Snowflake está impulsada por su ecosistema de partners muy maduro, que le ha permitido hacer muchas cosas que históricamente no ha soportado de serie.
3) Fabric: Fabric admite una variedad de lenguajes y tiene algunas opciones de conectores incorporados con Data Factory, pero la plataforma está muy centrada en dashboards. Dicho esto, la realidad es que el mundo gira en torno a los dashboards.
Facilidad de Uso
1) Snowflake: En general, la interfaz de usuario de Snowflake, el enfoque intensivo en SQL y la agrupación histórica con dbt/Airflow/Fivetran le han ganado la reputación de ser una plataforma fácil de usar. Si bien técnicamente depende de estas herramientas para su reputación de facilidad y las herramientas también están disponibles para otras plataformas, es difícil separarlas de Snowflake. Además, como se mencionó anteriormente, los precios de Snowflake facilitan la comprensión del impacto de costos de tus decisiones de compute. La documentación es posiblemente la mejor de su clase.
2) Fabric: Si eres una pequeña empresa, con personas no muy técnicas, y solo te preocupas por los dashboards, Fabric facilita la construcción de pipelines y el desarrollo rápido de dashboards. No estarás construyendo los mejores sistemas ni los más resilientes, pero será mejor que construir dashboards en Excel. Las capacidades de pipeline incorporadas son agradables con el conjunto de herramientas basado en UI, inspirado en Power Query de Power BI. Significativamente más fácil que lo que Databricks y Snowflake ofrecen actualmente, pero menos adaptable y robusto. Una advertencia: Power BI NO se considera una herramienta BI fácil de dominar. Es extremadamente fácil construir modelos enormes que terminarán costándote cantidades significativas de dinero con el tiempo, y los buenos desarrolladores de PBI son costosos.
3) Databricks: La flexibilidad, así como el enfoque histórico en ingeniería e IA de Databricks, le ha ganado la reputación de ser más difícil de aprender, junto con lo que he compartido antes como una documentación menos que ideal. Databricks SQL y el SQL Editor han sido revolucionarios para cambiar esta percepción, y con el tiempo, espero que veas un cambio hacia Databricks siendo número 1 o 2 en esta categoría si la documentación mejora, text-2-SQL continúa creciendo, y hay una afluencia de contenido práctico de Databricks disponible. Serverless también es clave para mejoras futuras aquí, eliminando la necesidad de administrar clusters, anteriormente uno de los mayores puntos problemáticos de Databricks en términos de complejidad.
Evaluación Clave: Valor para el Negocio
1) Databricks: Databricks ofrece posiblemente las capacidades más robustas de ingeniería de datos e IA, junto con una sólida experiencia analítica que ha hecho un gran trabajo en casi alcanzar completamente a Snowflake. Con Serverless ahora aquí para simplificar la gestión de compute, y el potencial éxito de AI/BI Dashboards, AI/BI Genie y Lakeflows, Databricks tiene un camino sólido para cimentarse como la solución de plataforma de datos número 1. Su mayor desafío ahora es demostrarse como una plataforma que es fácil de implementar a los ojos de los consumidores que la evalúan frente a Fabric, sin eliminar la flexibilidad que disfrutan sus usuarios avanzados. También tienen un camino hacia adelante para democratizar la ingeniería de datos, y algo de camino para hacer lo mismo con la IA.
2) Snowflake: El mejor motor analítico (SQL) de su clase, precios más fáciles de entender y un poderoso ecosistema de partners son las mejores cartas a favor de Snowflake. Es una plataforma formidable con muchos profesionales experimentados ejecutando el stack Snowflake/dbt/Airflow/Fivetran. Por otro lado, su fuerte dependencia de proveedores/herramientas de terceros disminuye en gran medida su valor, especialmente a medida que más y más de estos mismos proveedores/herramientas están disponibles también para Databricks. Está tratando de ponerse al día en IA frente a Databricks, y será interesante ver cómo ejecuta esta búsqueda. Por ahora, es una buena plataforma que debería considerarse, pero ya no es la primera plataforma que debería considerarse.
3) Fabric: El valor de Fabric es difícil de evaluar. Por un lado, tiene Power BI, que es una fantástica herramienta BI, pero por otro lado, Power BI es conocido por ser fácil de comenzar pero difícil de dominar. Ahora añade a esto toda una plataforma construida alrededor de Power BI, la simplicidad percibida de aprovechar Fabric tendrá un impacto negativo en la sostenibilidad de las soluciones construidas en Fabric a lo largo del tiempo debido a un efecto acumulativo de malas prácticas. La solución será invertir más dinero en unidades de capacidad y consultores. He leído a muchas personas hablar sobre cómo Fabric mejorará, pero personalmente escuché pensamientos esperanzadores similares sobre Synapse en el pasado. Al final del día, Power BI es central para Fabric porque el resto de Fabric no es suficiente para sostenerse como una plataforma poderosa, al menos por ahora. Dicho esto, me encanta la competencia que tener un tercer jugador importante en el juego trae a la mesa, y espero que Fabric cumpla con algunas de sus expectativas para elevar el nivel en la competencia.