Índice:
El archivo de prueba es una lista de interacciones críticas que desea que clasifique el modelo NLP. Este modelo fue creado utilizando la base de conocimientos (intenciones y entidades).
El propósito de crear este archivo es permitir la validación de la asertividad del modelo, más específicamente, para garantizar que el modelo identifique correctamente las intenciones de las interacciones más críticas del chatbot. Las preguntas críticas se entienden como interacciones relacionadas con habilidades (y contenidos) que el chatbot no puede, bajo ninguna circunstancia, dejar de responder.
La recomendación es recolectar interacciones de usuarios reales que estén dentro de los temas críticos mencionados anteriormente.
Sugerencia: use los filtros de la pantalla Actualizar para encontrar estas interacciones.
- Este archivo es importante, ya que es posible validar los cambios realizados en la base, asegurando que dichos cambios no generen ningún impacto negativo en el modelo, es decir, todo lo que se reconoció se sigue reconociendo correctamente.
El archivo debe estar en formato .csv, donde la primera columna contiene las preguntas y la segunda la identificación de intención que se espera que el modelo reconozca para esa pregunta, use la herramienta BLiP Build AI Model Analysis File para construir fácilmente este archivo.
Utilizar
El archivo se utiliza en la pantalla de análisis del modelo de IA, donde puede crear el informe con las métricas de evaluación del modelo de IA. Elija la opción Archivo y siga las instrucciones.
Recordando que para generar el reporte, el BLIP debe enviar las preguntas al modelo, lo que puede generar costos dependiendo del proveedor utilizado.
Resultados
Las métricas que presenta el informe son:
- precisión
- Precisión
- Recuerdo
- Puntuación F1
- confiabilidad promedio
- clasificado correctamente
- mal clasificado
- Principales falsos positivos
- Principales falsos negativos
En el caso del informe creado con el archivo de prueba, las métricas generadas deben tener los siguientes valores de la siguiente tabla:
precisión |
1,00 |
precisión |
1,00 |
Recall |
1,00 |
F1 Score |
1,00 |
Confiabilidad media |
Variable |
correctamente clasificado |
100% |
mal clasificado |
0% |
Principales falsos positivos |
Ninguno |
Principales falsos negativos |
Ninguno |
La fiabilidad media es variable, ya que este valor es la media de la fiabilidad dada por el proveedor al analizar cada una de las preguntas del archivo de prueba.
Si el valor de alguna de las otras métricas es diferente al que está en la tabla, significa que el modelo no está respondiendo correctamente todas las preguntas. Por lo tanto, la sugerencia es verificar cuáles son en las pestañas Top False Positives y Top False Negatives, donde es posible identificar qué intención se esperaba y cuál se reconoció.
Además, también se genera la Matriz de Confusión, donde es posible identificar puntos de confusión entre intenciones.
La columna superior representa las intenciones esperadas, mientras que la columna de la izquierda muestra las intenciones reconocidas.
Ej.: Se esperaba que 10 preguntas fueran reconocidas como Curiosidades, pero solo 5 lo fueron. Por lo tanto, existe una confusión entre la intención de Trivia con la intención de Qué, Signos básicos y Cómo aprender, ya que una pregunta se reconoció como Qué, otra como Signos básicos y otras 3 como Cómo aprender.
El escenario ideal para el análisis de la matriz de confusión es que solo la diagonal principal sea diferente de 0 (cero), y este es el escenario que se debe tener en cuenta cuando se utiliza el archivo de prueba para generar el informe.
actualización de archivos
El archivo de prueba debe contener preguntas críticas relacionadas con las habilidades (y el contenido) que el chatbot no puede, bajo ninguna circunstancia, dejar de responder. Por lo tanto, cada vez que se entrena y publica el modelo, se deben agregar interacciones para probar qué se cambió en la base (siempre que sea algo crítico).
Es importante tener en cuenta que no debe agregar exactamente el ejemplo que se agregó a una intención, sino una interacción que pruebe la capacidad del modelo NLP para comprender cuándo se envía algo similar al chatbot.
Además, la recomendación es que la actualización (y operación) del archivo sea realizada por la misma persona que realizó las modificaciones en la base de conocimiento (intentos y entidades) o, como máximo, por alguien que conozca los cambios realizados. .
Versionado
Para el control de la versión del archivo, se recomienda que cada versión creada sea nombrada con el día y la hora de publicación del modelo a probar, de modo que exista una relación entre la versión del archivo y el modelo respectivo.
Si se siguen las recomendaciones realizadas en este documento, el responsable de la evolución de la base de conocimiento (y, en consecuencia, del modelo de PNL) podrá validar las modificaciones realizadas en la base, asegurando que, en general, ha habido evolución y no retroceso.
Además, se crea una forma de que el modelo responda correctamente a lo que espera el cliente y, si se identifica algo que no se responde, debe entenderse como una mejora del modelo y no como un bug.
Para obtener más información, acceda a la discusión sobre el tema en nuestra comunidado los videos en nuestro canal. 😃