Pruebas Unitarias – Blip | Blip Help

Índice

Introducción

La funcionalidad de Pruebas Unitarias permite validar la precisión de las respuestas de su flujo conversacional, ya sea determinista o basado en un agente de IA.

La prueba funciona configurando pares de interacción: usted define el mensaje de entrada, que puede ser un texto o una URL pública, y la respuesta esperada, que puede ser un texto y/o la validación de archivos. Durante la ejecución, la prueba envía cada interacción y se detiene al detectar el primer fallo.

Este proceso garantiza que el sistema responda correctamente y permite ajustes rápidos en caso de problemas, siendo una herramienta esencial para verificar si los comportamientos esperados son correctos antes de ser implementados en producción. La funcionalidad facilita el mantenimiento y la evolución continua de su Contacto Inteligente.

Además de la creación y ejecución de las pruebas, ahora también es posible hacer el seguimiento del historial reciente de ejecuciones de cada prueba y visualizar el detalle de una ejecución específica.

Con esto, los builders consiguen analizar mejor el ciclo de validación del flujo: ejecutar una prueba, identificar fallas, ajustar el flujo y ejecutar nuevamente, haciendo el seguimiento de los intentos recientes de forma más rastreable.

Cómo acceder a las Pruebas unitarias

Puede abrir las Pruebas Unitarias de la siguiente forma:

En la pantalla Studio:

En la esquina superior derecha de la pantalla, haga clic en el icono.
En el menú que se abra, seleccione Pruebas unitarias.

Se abrirá la siguiente pantalla:

Gestionando Pruebas Unitarias

La pantalla de gestión de pruebas unitarias es el punto de partida para visualizar, crear y ejecutar las pruebas de su bot o agente de IA.

Crear prueba

Haga clic en el botón Crear prueba en la esquina superior derecha o, en caso de que no haya pruebas creadas, haga clic en el botón centrado en la lista Crear nueva prueba. Es posible completar todos los parámetros para la prueba manualmente o importar un archivo de configuraciones haciendo clic en el botón:

Importar configuraciones: cargar un archivo en el formato de Blip con pruebas ya listas.

Otros recursos

Buscar: Campo de búsqueda para encontrar pruebas específicas por el nombre.
Lista de pruebas: muestra las pruebas unitarias creadas para el bot. En el listado, puede hacer el seguimiento de:
- Prueba: nombre de la prueba configurada.
- Versiones: cantidad de ejecuciones realizadas para esa prueba. Cada ejecución genera una nueva versión en el historial.
- Última actualización: fecha y hora de la última edición realizada en la prueba. Esta información no representa necesariamente la última ejecución.
- Estado: resultado resumido de la ejecución, indicando si hubo éxito, falla u otro estado relacionado con la prueba.
  - Esperando ejecución: La prueba fue creada, pero aún no ha sido ejecutada.
  - Éxito: Todas las interacciones de la prueba pasaron con éxito (ej: "Éxito 18/18").
  - Falla en la métrica: La prueba fue ejecutada, pero algunas interacciones fallaron (ej: el mensaje "Falla en la métrica 25/57" indica que 25 interacciones fallaron de un total de 57 interacciones configuradas).
  - Error al iniciar: La prueba no pudo ser ejecutada debido a un error al inicio (ej: "Error al iniciar 2/3").
  - Interrumpido: La prueba puede ser interrumpida durante la ejecución.
- Para visualizar las ejecuciones recientes de una prueba, haga clic en la flecha de expansión al lado del elemento deseado.
Eliminar pruebas: elimina una o más pruebas.
Ejecutar pruebas: ejecuta una o más pruebas seleccionadas.

También es posible filtrar las pruebas por estado para localizar más rápidamente pruebas con éxito, falla o esperando ejecución.

Configurando una Prueba Unitaria

Al crear o editar una prueba, tendrá acceso a tres pestañas de configuración: Definiciones, Variables e Interacciones.

Interacciones

Esta pestaña es donde usted define la secuencia de preguntas y respuestas para validar el comportamiento de su bot o agente de IA.

Orden: El orden en que se ejecutarán las interacciones. Puede reordenar las interacciones arrastrando los iconos de cuadrícula.
Descripción: La entrada de texto que se enviará al bot.
Resultado: El estado de la interacción después de la ejecución de la prueba, pudiendo ser:
- Esperando ejecución: La interacción aún no ha sido probada.
- Éxito: La respuesta del bot coincidió con lo esperado.
- Error al iniciar: La interacción no pudo iniciarse.
- Fallo en la métrica: La respuesta del bot no coincidió con lo esperado.
- Interrumpido: La prueba fue interrumpida por el usuario durante la ejecución.

El orden de las interacciones define la secuencia en la que se ejecutará la prueba. Si una interacción falla, la ejecución se interrumpe y las próximas interacciones no serán ejecutadas.

Configurando una Interacción:

Al hacer clic en una interacción, puede expandir la sección para configurarla en detalle.

Tipo de entrada: Define el tipo de entrada que está enviando.
Mensaje de Entrada: La entrada del usuario puede ser un texto simple o una URL pública que apunte a un archivo.
Respuesta Esperada:
- Bloques de Texto: La respuesta esperada puede ser uno o más fragmentos de texto.

Cuando se trata de formatos estructurados, como menús en JSON, se aconseja incluir el JSON directamente, garantizando que el sistema comprenda y compare según lo esperado.

Tipo de Archivo: Además, la respuesta puede requerir la presencia de archivos específicos, como documentos, imágenes, audios o vídeos. La configuración debe especificar no solo el tipo, sino también la cantidad esperada. Por ejemplo, si la interacción debe devolver dos documentos, la configuración debe reflejar eso. La prueba fallará si la respuesta no corresponde exactamente al número y tipo de archivos esperados.
Texto: El texto que el bot recibirá (ej: "¿Cuál es el horario de atención?").

Métrica de Comparación Textual:

Similitud:

La métrica de similitud evalúa cuánto se aproxima una respuesta generada a la respuesta esperada en términos de contenido y estructura. Permite variaciones mientras sigue considerando la respuesta válida.

Recomendación de Uso:

Ideal para sistemas flexibles, como agentes inteligentes, que pueden generar respuestas con alguna variación.
Defina el punto límite de similitud para establecer el grado de variación aceptable. Por ejemplo, un límite de 6.5 indica que la respuesta debe tener al menos un 65% de similitud con lo esperado.

Correspondencia Exacta:

Esta métrica requiere que la respuesta generada sea completamente idéntica a la respuesta esperada, sin ninguna desviación o variación, incluyendo puntuación y caracteres especiales.

Recomendación de Uso:

Ideal para sistemas deterministas donde la precisión es crucial.
Garantiza que la respuesta sea exactamente como se espera, asegurando consistencia y precisión.
Considera diferencias de formato, como saltos de línea dentro de un bloque o separación en bloques distintos, indicando mensajes enviados por separado.

Variables

En esta pestaña, puede gestionar las variables de contexto que se utilizarán en el flujo de prueba. Añada, edite o elimine las variables que su bot o agente de IA pueda necesitar para iniciar el flujo correctamente.

Tipo: contexto o contacto
Nombre: Nombre de la variable (ej: numbercpf).
Valor: Valor que tendrá la variable (ej: 129.452.875-06).
Nueva variable: Añade una nueva variable.

Definiciones

En esta pestaña, usted define el tiempo de espera para que se ejecute la prueba.

Tiempo de espera de la respuesta: Use el control deslizante para definir el tiempo límite para cada interacción de su prueba. Si la respuesta del bot tarda más que el tiempo estipulado, la interacción será considerada un fallo.

Ejecutando y Analizando las Pruebas

Después de configurar la prueba:

Haga clic en Guardar.
En la lista de pruebas, seleccione la prueba deseada.
Haga clic en Ejecutar pruebas.
Siga el estado mostrado en el listado.
Para ver el historial de ejecuciones, haga clic en la flecha de expansión de la prueba.
Para analizar una ejecución específica, haga clic en el icono de visualización al lado de la versión deseada.
En el panel lateral, consulte las interacciones ejecutadas, sus estados, el mensaje de entrada, la respuesta esperada, la respuesta recibida y el JSON devuelto.

Cuando una interacción falla, la ejecución se interrumpe. Por eso, las interacciones siguientes pueden aparecer como No ejecutado.

Historial de ejecuciones

Cada vez que un Test de Unidad es ejecutado, una nueva versión es registrada en el historial de ese test.

En este contexto, versión significa una ejecución del test. Por ejemplo: si un test muestra 3 versiones, esto significa que fue ejecutado 3 veces.

Para visualizar el historial:

En la pantalla de Tests de Unidad, localice el test deseado.
Haga clic en la flecha de expansión al lado del test.
Vea las ejecuciones recientes mostradas abajo del test.

Cada ejecución presenta informaciones como versión, fecha y estado. En este momento, la interfaz muestra las 5 ejecuciones más recientes de cada test.

Visualizando los detalles de una ejecución

Para analizar una ejecución específica, haga clic en el icono de visualización al lado de la versión deseada. Un panel lateral se abrirá con los detalles de esa ejecución. En él, usted puede consultar:

las interacciones de la ejecución;
el estado de cada interacción;
el mensaje de entrada utilizado;
la respuesta esperada; la respuesta recibida;
el JSON devuelto.

Para ver más información sobre una interacción, expanda el elemento deseado dentro del panel. Esta visualización ayuda a identificar en qué punto el flujo divergió del comportamiento esperado.

Usando Tests de Unidad con Logs y Eventos

Los Tests de Unidad ayudan a validar si una entrada generó la respuesta esperada.

Por otro lado, la pantalla de Logs y Eventos ayuda a investigar con más profundidad lo que ocurrió durante la ejecución del flujo, incluyendo mensajes traficados, eventos, contexto y detalles técnicos.

Las dos herramientas pueden ser usadas en conjunto durante el proceso de validación. Al ejecutar un Test de Unidad, las interacciones generadas por el test también pueden ser seguidas en Logs y Eventos, permitiendo investigar el camino recorrido por la conversación en el flujo.

Una forma recomendada de uso es:

Abrir la pantalla de Logs y Eventos.
En otra pestaña o ventana, abrir Tests de Unidad.
Ejecutar el test de unidad deseado.
Volver a Logs y Eventos para seguir los registros generados durante la ejecución.

Use esa combinación cuando el Test de Unidad muestre que la respuesta recibida fue diferente de la esperada y usted necesite entender qué ocurrió en el flujo hasta ese resultado. Para saber más, acceda al artículo Logs y Eventos.

Limitaciones conocidas

Actualmente, las Pruebas Unitarias poseen algunas limitaciones importantes:

La interfaz muestra solamente las 5 ejecuciones más recientes de cada prueba.
El consumo de tokens todavía no se muestra en el historial ni en el detalle de la ejecución, pero puede ser seguido por la pantalla de Logs y Eventos.
Las Pruebas Unitarias continúan funcionando en el contexto de bots individuales. Las pruebas unitarias en enrutadores todavía no son soportadas.
Las Pruebas Unitarias ayudan a validar comportamientos esperados, pero no sustituyen las pruebas manuales y otras prácticas de validación.

¿Necesita más ayuda? Explore nuestros contenidos en Blip Academy o Blip Community, vea tutoriales en nuestro canal de YouTube o aclare sus dudas en nuestro canal de atención 😃