Rendimiento, Benchmarks y Consejos de Optimización para Usuarios de Databricks

Josue tuvo la oportunidad de conversar con Jeremy Lewallen del equipo de Rendimiento de Databricks sobre benchmarks, consejos de optimización de rendimiento y más. Sigue el enlace a nuestro artículo con video, y también consulta algunos de los aspectos destacados a continuación.

Importancia de los Benchmarks:

  • Los benchmarks tienen cierta importancia y Databricks generalmente tiene buen desempeño en ellos, pero no son lo más importante.

  • Databricks compite contra sí mismo, buscando ser continuamente más y más eficiente.

  • Muchas mejoras en diferentes workloads, incluyendo BI, ETL y exploratorio. Aproximadamente un 14% más rápido en solo los últimos 4 meses.

  • ¿Por qué le importa a Databricks hacer que su producto sea más rápido? Porque tienes opciones, y Databricks quiere seguir siendo la mejor opción para tus necesidades de datos.

Consejos de Optimización de Costos de Almacenamiento

  • El almacenamiento no siempre es barato, por lo que las mejores prácticas son importantes.

  • Tres mejores prácticas principales:

    • Habilitar Liquid Clustering

    • Usar Managed Tables con Predictive Optimization

    • Usar el Databricks Runtime (DBR) más reciente.

Impacto del Databricks Runtime en el Rendimiento

  • Los nuevos DBRs tienen características más nuevas, ¡así que usa lo último!

Consejos para Dimensionar Correctamente el SQL Serverless Compute:

  • Si necesitas concurrencia, aumenta el recuento de clusters, no el tamaño del warehouse.

  • En términos de tamaño de warehouse, es un acto de equilibrio con prueba y error.

Nota editorial: Una cosa buena sobre la oferta "Serverless" es que no tienes que preocuparte por esto.

Errores Comunes de Compute:

  • Jugar con los clusters mínimos probablemente no valga la pena. Establecer clusters máximos es clave.

Bonus: La opinión de Josue sobre el espacio de Warehousing

Recomendamos poner subtítulos en español

  • El rendimiento de Databricks está mejorando.

  • El rendimiento rápido es bueno, pero un equilibrio de rapidez + experiencia de desarrollador fantástica es lo mejor, siempre que el rendimiento siga siendo muy bueno.

Previous
Previous

Cómo Migrar Databricks de GCP a Azure o AWS

Next
Next

5 Razones Por Las Que Recomendamos Databricks