Índice:
El archivo de prueba es una lista de interacciones críticas que el modelo de PNL pretende clasificar. Este modelo fue creado usando la base de conocimiento (intenciones y entidades).
El propósito de crear este archivo es permitir validar la asertividad del modelo, más específicamente, para asegurar que el modelo identifica correctamente las intenciones para las interacciones más críticas del chatbot. Las preguntas críticas se entienden como interacciones relacionadas con habilidades (y contenido) que el chatbot no puede, bajo ninguna circunstancia, dejar de responder.
La recomendación es recopilar interacciones reales de usuarios que se encuentran dentro de los problemas críticos mencionados anteriormente.
Consejo: utiliza los filtros de la pantalla de mejora para encontrar estas interacciones.
Este archivo es importante, ya que es posible validar los cambios realizados en la base de datos, asegurando que dichos cambios no tengan ningún impacto negativo en el modelo, es decir, todo lo que se reconoció se sigue reconociendo correctamente.
El archivo debe estar en formato .csv, donde la primera columna contiene las preguntas y la segunda la identificación de la intención que se espera que el modelo reconozca para esa pregunta, use la herramienta Blip Build AI Model Analysis File para construir este archivo con facilidad.
Uso
El uso del archivo se realiza en la pantalla Análisis del Modelo de IA, donde puedes crear el informe con métricas de evaluación del modelo de IA. Debes elegir la opción Archivo y seguir las pautas.
Recordando que para generar el informe es necesario que Blip envíe las preguntas al modelo, las cuales pueden generar costos dependiendo del proveedor utilizado.
Resultados
Las métricas que presenta el informe son:
- Exactitud;
- Precisión;
- Recall;
- F1 Score;
- Confiabilidad media;
- Clasificado correctamente;
- Clasificado incorrectamente;
- Top falsos positivos;
- Top falsos negativos.
En el caso del informe creado con el archivo de prueba, las métricas generadas deben tener los siguientes valores:
Exactitud | 1,00 |
Precisión | 1,00 |
Recall | 1,00 |
F1 Score | 1,00 |
Promedio de confiabilidad | Variable |
Clasificado correctamente | 100% |
Clasificado incorrectamente | 0% |
Top Falsos Positivos | Ninguno |
Top Falsos Negativos | Ninguno |
La confiabilidad promedio es variable, ya que este valor es el promedio de la confiabilidad que otorga el proveedor al analizar cada una de las preguntas del archivo de prueba.
Si el valor de cualquiera de las otras métricas es diferente de lo que está en la tabla, significa que el modelo no responde todas las preguntas correctamente. Por tanto, la sugerencia es comprobar cuáles se encuentran en las pestañas Top Falso Positivo y Top Falso Negativo, donde es posible identificar qué intención se esperaba y cuál fue reconocida.
Además, también se genera la Matriz de Confusión donde es posible identificar puntos de confusión entre intenciones.
La columna superior representa las intenciones esperadas, mientras que la columna de la izquierda muestra las intenciones reconocidas.
Ejemplo: La expectativa era que 10 preguntas fueran reconocidas como Curiosidades, pero solo 5 lo fueron. Por tanto, existe confusión entre la intención de Curiosidades con el Que es, Signos Básicos y Cómo aprender, ya que una pregunta fue reconocida como Qué es, otra como Signos Básicos y otras 3 como Cómo aprender.
El escenario ideal para el análisis de la matriz de confusión es que solo la diagonal principal es diferente de 0 (cero), y es este escenario el que debemos tener al usar el archivo de prueba para generar el informe.
Actualización de archivo
El archivo de prueba debe contener las preguntas críticas relacionadas con las habilidades (y el contenido) que el chatbot no puede, bajo ninguna circunstancia, dejar de responder. Por lo tanto, cada vez que se entrena y se publica el modelo, se deben agregar interacciones que prueben qué es lo que ha cambiado en la base de datos (siempre que sea algo crítico).
Es importante señalar que no es necesario agregar exactamente el ejemplo que se agregó a una intención, sino una interacción que pruebe la capacidad del modelo de PNL para comprender cuando se envía al chatbot algo similar.
Además, la recomendación es que la actualización (y operación) del archivo sea realizada por la misma persona que realizó los cambios en la base de conocimiento (intenciones y entidades) o, como máximo, por alguien que tenga conocimiento de los cambios que se realizaron.
Control de versiones
Para el control de versiones del archivo, se recomienda que cada versión creada sea nombrada con el día y hora de publicación del modelo a probar, para que exista una relación entre la versión del archivo y el modelo respectivo.
Si se siguen las recomendaciones realizadas en este documento, el responsable de la evolución de la base de conocimiento (y, en consecuencia, del modelo de PNL) tendrá la capacidad de validar los cambios realizados en la base, asegurando que, en general, ha habido una evolución y no un retroceso.
Además, se crea una forma de asegurar que el modelo responde correctamente a lo que espera el cliente y, si algo no se responde, esto debe entenderse como una mejora del modelo y no un error.
Para obtener más información, acceda a la discusión sobre el tema en nuestra comunidad o los videos en nuestro canal. 😃