5 Razones Por Las Que Recomendamos Databricks

Introducción

Existen muchas herramientas y plataformas de datos, muchas con sus ventajas y desventajas únicas. Cuando combinas muchas de sus buenas cualidades y evitas las malas, obtienes Databricks.

A diferencia de algunos de mis otros artículos que dedican tiempo a destacar tanto las fortalezas como las debilidades de Databricks y algunos de sus competidores, este artículo se enfoca exclusivamente en hablar sobre las cosas que Databricks generalmente hace mejor en general que la mayoría, si no todos, sus competidores.

Unas Palabras Previas

Antes de comenzar, abordaré anticipadamente las posibles críticas: Algunos dirán que digo lo que digo solo porque soy parte del Customer Product Advisory Board de Databricks, programa MVP, etc. Eso sería ignorar un punto clave: comencé y permanecí como un pequeño cliente de Databricks durante casi dos años antes de trabajar en una empresa que utiliza abiertamente Databricks. Un período aún más largo antes de que personalmente recibiera cualquier reconocimiento de Databricks.

En general, critico abiertamente a Databricks cuando lo merece, pero la verdad es: Databricks es la primera opción que consideraría si necesitara almacenar, recuperar y obtener valor de los datos. No la única opción, pero con la que comenzaría cualquier evaluación como la que hay que superar. Hace unos 3 años, cuando tomé la decisión de usar Databricks, era una plataforma diferente la que ocupaba este lugar, pero ya no. Incluso con su crecimiento, creo que Databricks está subestimado, y aquí hay algunas de las razones por las que lo creo.

Razones

1. Todos tus datos en un solo lugar

  • Costo-Eficiente: Databricks es costo-eficiente tanto en términos de costos de almacenamiento como de compute (tanto para leer como para escribir).

  • Lakehouse Federation: Para datos que residen en algunas otras plataformas, puedes consultarlos dentro de Databricks sin necesidad de ETL o copiar datos, usando una función incorporada llamada Lakehouse Federation.

  • Amplia Compatibilidad: Si tus datos están en Delta, Iceberg, CSVs, Excel, etc., Databricks funciona con tus datos. Solo trae tus datos o conecta Databricks a donde residen tus datos.

Por qué debería importarte: La proliferación de datos es muy real y cuesta a las empresas mucho más dinero del que se dan cuenta en términos de tecnología y horas de trabajo. Múltiples copias de datos que residen en múltiples sistemas O mucho tiempo dedicado a que los empleados averigüen cómo obtener datos del punto "A" al punto "B". Databricks hace que esto sea menos una carga.

2. Todo en uno + Ecosistema Rico

  • Herramientas Incluidas: De serie, obtienes varias herramientas generalmente de calificación "B" o mejores para orquestar tus pipelines, escribir código fácilmente con un asistente de IA, ejecutar consultas SQL para análisis exploratorio de datos, construir dashboards para las operaciones de tu negocio, etc.

  • Ecosistema Abierto: Si tu equipo prefiere usar otras herramientas como Airflow, Fivetran, Power BI, Sigma, dbt, etc. debido a la familiaridad o conjunto de características, Databricks se integra muy bien con ellas, tratando a los proveedores como ciudadanos de primera clase junto con su propio conjunto de herramientas incorporadas, sin suprimir las capacidades de ninguno.

Por qué debería importarte: Otras plataformas tienden a estar muy abiertas a herramientas de terceros pero carecen de la selección/calidad de herramientas incluidas O tienen algunas herramientas integradas fuertes mezcladas con otras regulares en un ecosistema generalmente restrictivo. Databricks te da la libertad de elegir el equilibrio entre herramientas integradas y de terceros que se ajusten a las necesidades de tu negocio.

3. Analytics Potente y Asequible

  • SQL Rápido: Quieres pasar tu tiempo obteniendo los datos correctos, no esperando a que termine la consulta, y la experiencia SQL de Databricks cumple muy bien en esta área.

  • Manteniéndolo Simple: Consultar datos es fácil y asequible aprovechando la suite de ofertas enfocadas en SQL de Databricks, principalmente los SQL Serverless Warehouses + SQL Editor + tu herramienta BI de elección (que puede ser los AI/BI Dashboards incluidos).

  • Big Data, Small Data: Mientras que Databricks generalmente tiene un rendimiento extremadamente bueno con conjuntos de datos muy grandes (ver enlace en los comentarios a una de mis pruebas de rendimiento), también ofrece un rendimiento asequible con conjuntos de datos pequeños.

Por qué es importante para ti: No quieres gastar más dinero del que deberías en tu stack tecnológico. Con Databricks, obtienes lo que es posiblemente la mayor granularidad disponible en términos de opciones de compute en comparación con los principales competidores. Con el modelado de datos adecuado, tu dinero gastado en Databricks crecerá en una proporción saludable. Además de eso, obtienes una experiencia SQL de primer nivel que es tan intuitiva como rica en características.

4. Listo para tu Industria

  • Elementos Correctos: Ya sea en salud, finanzas, cadena de suministro, etc., independientemente de la industria en la que te encuentres, es probable que Databricks tenga la mayoría, si no todos, los elementos que tu equipo necesita para poder centrarse en el valor comercial, no en stacks complicados.

Por qué debería importarte: Databricks es una plataforma muy amplia en términos de industrias cubiertas, pero con gran profundidad de capacidades en cada una de esas industrias. Esto lleva a un suministro saludable de talento para negocios/organizaciones Y amplias oportunidades para profesionales.

5. Liderado por Ingeniería, Enfocado en el Cliente

  • El Feedback del Usuario es Oro: Ningún producto es perfecto, y Databricks no es la excepción, pero: Databricks es muy bueno escuchando tus comentarios para hacer que tu stack tecnológico sea mejor. He criticado abiertamente a Databricks en algunas áreas en el pasado. ¿La respuesta? Muchas, muchas sesiones de feedback de usuarios para entender mejor los puntos débiles, seguidas de acciones para mejorar el producto.

  • Ingenieros al Mando: El equipo de liderazgo está compuesto por personas con fuertes habilidades técnicas, no gestores de carteras de productos. Si bien ganar dinero es importante, construir un producto que los clientes QUIERAN usar versus uno con el que los clientes se sientan atrapados es muy importante también.

Por qué debería importarte: El equipo de Databricks quiere que genuinamente te sientas bien usando su plataforma. Citando a Ali Ghodsi, "Para mí, si lo estamos haciendo, lo estamos haciendo para ser los mejores", cita dada después de ser cuestionado sobre la calidad de una característica. Además, el impulso de Databricks para que seas dueño de tus datos significa que el único tipo de "Vendor Lock" que promueven es que realmente encuentres la plataforma como la más capaz para tus necesidades.

Conclusión

Espero que hayas encontrado este artículo perspicaz en términos de entender algunas de las razones por las que creo que Databricks es actualmente la mejor plataforma de datos para la mayoría de los escenarios que requieren una plataforma de datos. Recuerda: La situación y los requisitos de tu negocio son únicos, pero comienza tus consideraciones de plataforma de datos con Databricks.

Josue Bogran era Solutions Architect Manager en Kythera Labs, así como Asesor de SunnyData, Lumel y Sigma Computing.

Previous
Previous

Rendimiento, Benchmarks y Consejos de Optimización para Usuarios de Databricks

Next
Next

Asignación de costos, etiquetas en la nube y otros temas relevantes en Databricks