Serie Databricks AI/BI: Una Visión Técnica de AI/BI Genie
Introducción
Anteriormente, escribimos sobre cómo los AI/BI Dashboards de Databricks captaron nuestra atención como un desarrollo importante en el Data + AI Summit 2024 de Databricks. También, hemos escrito sobre las capacidades de gobernanza de datos ofrecidas por Unity Catalog de Databricks aquí (UC: Una Exploración Práctica) y también aquí (UC: Mejorando la Seguridad y Productividad).
Hoy, hablaremos sobre AI/BI Genie, el hermano potenciado por LLM y Unity Catalog de AI/BI Dashboards que también causó sensación en la cumbre. Genie es la forma en que Databricks conecta los datos de tu Unity Catalog con tus preguntas de negocio, aprovechando el lenguaje natural en una experiencia tipo ChatGPT, proporcionando información más allá de lo que los dashboards tienen para ofrecer. ¿La mejor parte? Es asequible y forma parte de las características integradas de Databricks.
Aquí hay una inmersión técnica concisa, pero amplia y profunda en esta nueva oferta. Cubriremos múltiples áreas utilizando un enfoque basado en preguntas.
¿Qué Problema Tienen los Dashboards?
Los dashboards (pueden ser) fantásticos, y no van a desaparecer pronto, sin embargo, hay al menos tres escenarios diferentes donde no son suficientes:
Hay momentos en que los dashboards no son suficientes y los usuarios de negocio recurren a los analistas para solicitudes ad-hoc que consumen mucho tiempo.
Otras veces, estos usuarios de negocio exportan datos de dashboards a Excel, donde crean conocimiento empresarial aislado de una manera no gobernada y a menudo no reproducible.
Por último, en otras ocasiones, los datos nunca han estado disponibles dentro de un dashboard, aunque los datos correctos existen en algún lugar. Quizás nadie ha buscado responder la pregunta en cuestión con un dashboard o, peor aún, se ha identificado la necesidad empresarial, pero el equipo no tiene suficiente tiempo para llevarla a cabo.
Todos los escenarios anteriores tienen 2 hilos comunes: (1) Hay una necesidad empresarial no abordada y (2) hay restricciones de tiempo. Entra Databricks, ofreciendo aliviar algunas de estas cargas con AI/BI Genie.
Conclusión: Si bien los dashboards proporcionan una visión general visual, a menudo se quedan cortos al explorar nuevos datos y realizar análisis ad-hoc, empujando a los usuarios hacia la manipulación manual de datos que consume tiempo y atajos ingobernables.
¿Qué Es y Qué No Es?
Genie no es ChatGPT + tus datos. De hecho, no está destinado a:
Ser una solución de caja negra. Como mínimo, para que funcione según lo previsto, se requiere entrenamiento a través de conversaciones y buenos metadatos de Unity Catalog.
Ser un modelo de lenguaje grande general. No está destinado a ayudarte a escribir una propuesta de negocio o a ayudarte a codificar un pipeline.
Esto es para lo que realmente está destinado:
Responder preguntas específicas de negocio incorporando consultas de usuario, instrucciones (entrenamiento específico del usuario) y metadatos de Unity Catalog.
Empoderar a los usuarios de negocio para auto-servirse análisis a través del uso de lenguaje natural contextualmente consciente en un entorno gobernado.
Ir más allá del dashboard sin necesidad de ser una persona técnica.
Conclusión: AI/BI Genie está diseñado para mejorar la toma de decisiones específica del negocio a través de conversaciones personalizadas que conectan a usuarios no técnicos con las respuestas que necesitan y que no están siendo abordadas por los dashboards hoy en día.
¿Qué Modelo Está Utilizando?
En lugar de depender de un solo modelo, como por ejemplo, GPT o DBRX, en realidad depende de múltiples modelos. Como una oferta basada en IA compuesta, aprovechar múltiples modelos permite a Databricks elegir el modelo o modelos adecuados para cada tarea que debe completarse. Diferentes tareas pueden ser generación de SQL, creación de visualizaciones, resumen, decidir cuándo hacer preguntas de aclaración, etc. Está evaluando dinámicamente cuál es mejor para la(s) tarea(s) en cuestión. Una conversación podría aprovechar múltiples tareas y quizás, un prompt incluso podría aprovechar múltiples modelos.
Conclusión: Aprovechando una arquitectura de IA compuesta, AI/BI Genie selecciona dinámicamente el modelo más apropiado para cada consulta, asegurando tanto flexibilidad como precisión en las respuestas.
¿Cuánto Cuesta?
Cuando comencé a usarlo, mi suposición era que pagas tanto por el SQL Serverless Warehouse que conectas a tu espacio Genie, como por tokens de entrada y salida. Para mi sorpresa, al menos por ahora, para la interfaz basada en web, solo pagas por compute. En el futuro, podríamos ver el lanzamiento de una API para Genie, aunque esperaría que la forma en que se maneja la facturación para el uso de la API sea diferente.
Conclusión: AI/BI Genie resulta rentable al cobrar solo por el uso de compute.
¿Cuáles son los diferentes tipos de Instrucciones, sus propósitos y diferencias?
Actualmente hay 3 tipos diferentes de "Instrucciones". Ayudan a entrenar y dar forma a cómo Genie responde a tus preguntas y son clave para construir con éxito un espacio Genie y responder preguntas según tus necesidades empresariales. Aquí hay una explicación de para qué se utiliza cada una de ellas.
General Instructions: Úsalas para preferencias generales sobre cómo te gustaría que se comporte un espacio Genie. Por ejemplo, podrías pasar instrucciones para formatear siempre números con 2 decimales, para no ser muy verboso en la respuesta, o pistas sobre abreviaturas que podrías usar y su significado. Las instrucciones generales también son buenas para contexto/semántica aplicable a múltiples tablas/columnas. Una llamada importante es que al momento de escribir esto, Genie a veces ignora algunas instrucciones generales.
Example SQL Queries: Las consultas SQL son scripts SQL que proporcionan puntos de partida para que Genie proporcione ciertas respuestas. Hay dos formas de configurarlas.
Un método es aprovechar la interfaz de chat de Genie para construir algunos informes, adaptándolos a través de uno o varios prompts. Una vez que obtienes una respuesta deseada, puedes almacenar el SQL subyacente y nombrarlo con la pregunta que responde.
El otro método es simplemente copiar y pegar un script SQL precompilado en la configuración de Genie que, cuando se combina con una etiqueta correspondiente (pregunta), Genie podrá responder a esa y preguntas estrechamente relacionadas.
Trusted Assets: Son funciones de tabla definidas por el usuario que se utilizan para responder preguntas comúnmente formuladas en un formato altamente repetible y consistente. No se utilizan para abordar otras preguntas, a diferencia de las instrucciones generales o consultas SQL. Con los Trusted Assets, el único espacio para interpretación que le estás dando a Genie es determinar si debe usar un Trusted Asset para responder una pregunta, así como los parámetros que le pasas, como un estado o rango de fechas que quieres evaluar.
Conclusión: AI/BI Genie proporciona múltiples herramientas para ayudarte a proporcionar el entrenamiento que necesita para entregar valor empresarial a los usuarios finales.
¿Cómo Se Gestiona El Acceso A Los Datos?
Hay dos opciones diferentes de control de acceso, dependiendo de tu industria, necesidades empresariales y políticas de gobernanza de datos.
Unity Catalog Permissions: Se aplicará la gobernanza que tu organización ha establecido a nivel de Unity Catalog. La seguridad a nivel de fila también se aplica. Si un usuario no podría consultar los datos fuera de un espacio Genie, tampoco podrá consultarlos a través de Genie, aunque forme parte de las tablas establecidas para el espacio Genie. Recibirán una advertencia en su lugar si les falta acceso.
Embedded Credentials: Si el desarrollador del espacio Genie tiene acceso a los datos y está disponible dentro del espacio Genie, entonces se otorga acceso a los usuarios de negocio que están autorizados a usar el espacio. Es posible que el usuario final no pueda consultar una tabla fuera del espacio Genie, pero dentro de él, tiene acceso completo a cualquier cosa en el espacio. Ten en cuenta que esto está en vista previa privada, y necesitarás hablar con tu equipo de cuenta para obtener acceso a esta opción.
Si estás en una empresa con gobernanza de datos muy madura, encontrarás que el primer método se ajusta mejor a la alineación empresarial. Otras empresas con un entorno de gobernanza menos maduro o simplificado podrían beneficiarse del enfoque de credenciales integradas. Lo mismo también puede decirse de los usuarios que provienen del mundo BI, ya que refleja las prácticas más comunes allí también. Por ejemplo, se podría crear un espacio Genie para operaciones, otro para mandos intermedios, mientras que se podría crear un espacio Genie para la dirección ejecutiva.
Conclusiones: Hay dos métodos de control de acceso: permisos de Unity Catalog para una gobernanza de datos estricta y credenciales integradas (acceso a nivel de espacio Genie) para un acceso a datos más flexible.
¿Cómo Se Monitorea El Rendimiento?
Al ir a la pestaña "Monitoring", puedes ver un historial de consultas generadas a partir de preguntas, junto con si fueron consideradas como buenas o malas respuestas (votadas positiva o negativamente) por quienes utilizan Genie.
Algunas formas prácticas de aprovechar esta información:
Para resultados votados positivamente, podrías considerar aprovechar las diferentes opciones de instrucción para asegurar que la calidad de los resultados siga siendo consistentemente buena o simplemente dejarlo así, sabiendo que Genie está funcionando según lo previsto.
Para resultados votados negativamente, evalúa si los malos resultados provienen de mala disponibilidad de datos, malos metadatos en Unity Catalog, o simplemente Genie equivocándose, y toma una acción con esa información.
Considera evaluar los prompts que hacen los usuarios y considera si Genie es el mejor método de entrega, o si detectas un tema común que podría abordarse mejor a través de otros métodos, como dashboards.
Conclusión: Monitorear el rendimiento de AI/BI Genie permite a los usuarios refinar y optimizar su funcionalidad, asegurando que los insights proporcionados se alineen con los objetivos empresariales y mejoren la eficiencia en la toma de decisiones.
¿Debería Mi Organización Estar Usándolo?
Nos encanta la visión para AI/BI Genie. Dicho esto, en este momento, lograr que Genie dé respuestas consistentes y precisas requiere mucho entrenamiento por parte de usuarios técnicos que también son expertos en la materia antes de que los usuarios no técnicos puedan aprovechar un espacio Genie. Para algunas organizaciones, esto en sí mismo podría disminuir el ROI a corto plazo esperado de Genie y hacer que Genie no sea viable por ahora. En el futuro, la aspiración es que el entrenamiento requerirá menos conocimiento técnico para ayudar finalmente a Genie a volverse verdaderamente accesible para casi cualquier persona, independientemente de su experiencia técnica. Además, actualmente está en Vista Previa Pública y no creo que sea verdaderamente GA hasta al menos un año a partir de ahora.
Algunas de las áreas débiles a las que estamos atentos:
Las instrucciones todavía tienen muchas peculiaridades que deben resolverse en términos tanto de errores como de hacer que el comportamiento de las instrucciones sea más predecible al dar forma a los resultados.
Las visualizaciones son un acierto o un fallo, con más aciertos que fallos, especialmente en lo que se refiere a etiquetas y personalización.
Espero que haya muchos cambios entre lo que tenemos disponible hoy y dentro de un año, y construir espacios Genie completamente equipados que podrían tener que rehacerse en el futuro es un riesgo significativo.
Actualmente no hay control de versiones ni clonación, lo cual es críticamente necesario para que esto sea un producto a nivel de producción.
Dicho lo anterior, permítanme ser claro sobre algo: si estás decidido a usar LLMs con tus datos, será difícil encontrar algo mejor que Genie en el mercado en este momento. Además, es poco probable que la construcción interna produzca un ROI que valga la pena, cuando el equipo de Databricks ya ha hecho gran parte del trabajo duro. Así que si eso suena como donde estás ahora, entonces por todos los medios comienza a usar Genie para ayudar a tu negocio mientras compartes tus comentarios con el equipo de Genie para continuar mejorando el producto y tu experiencia.
Conclusión: Entrenar a Genie requiere recursos técnicos para que tenga éxito con audiencias no técnicas. Aunque todavía está en vista previa pública y con muchas imperfecciones, Genie es la mejor opción que tenemos en el mercado para una experiencia de análisis de autoservicio tipo LLM.
Pensamientos Finales...
AI/BI Genie simplifica el acceso a análisis de datos más allá del dashboard, facilitando que los usuarios de negocio obtengan las respuestas que necesitan sin necesidad de ser técnicos. Algunas cosas adicionales para recordar:
Sigue un marco de IA compuesta para procesar con precisión varios tipos de consultas.
Aprovecha Unity Catalog de Databricks para un acceso a datos seguro y sencillo.
Traduce consultas en lenguaje natural en insights de datos.
Solo cobra por uso de compute, manteniendo los costos predecibles.
Aprende de las interacciones del usuario para mejorar su precisión y relevancia.
Requiere un entrenamiento exhaustivo para mejorar la precisión y usabilidad, ya que no está destinado a ser una caja negra.
Conclusión: Al igual que un pasante entusiasta, Genie aprende de cada interacción, mejorando su capacidad para traducir lenguaje natural en insights de datos precisos. Con cada consulta, se vuelve más experto, entregando un valor creciente a medida que madura dentro de su rol en tu organización.
Te animo a que veas mi conversación con Chao a continuación, así como nuestro artículo sobre AI/BI Dashboards aquí.
Conversación con el Equipo de Producto de Databricks
Para una mirada más profunda a estas características, consulta este video de 10 minutos (recomendamos poner subtítulos en español).