Medir a qualidade de um Assistente Virtual: 3 formas de medir a Taxa de Assertividade
Murilo Medeiros | | maio 27, 2022

Quando um Assistente Virtual se torna público, as empresas enfrentam várias questões que, em última análise, têm a ver com a qualidade. Como é que posso medir a qualidade da minha solução de conversação?

Uma forma de medir a qualidade da nossa formação em Assistente Virtual é aplicar um teste de medição da assertividade.

Embora o significado deste último termo exprima uma competência social, é atualmente utilizado na comunidade para descrever a capacidade de os assistentes virtuais darem uma resposta correcta ou adequada a uma pergunta específica de um utilizador que se exprimiu de uma forma que não foi diretamente treinada no chatbot ou no assistente virtual.

Existem várias formas de medir corretamente a assertividade, mas podem ser agrupadas em três formas principais de medição que aumentam em complexidade e custo.

1. Índice indireto de assertividade:

Quando falamos de uma falha, estamos a falar de uma resposta em que o assistente não recebeu formação e respondeu com uma mensagem do tipo “não percebi”.

Desta forma, é possível criar o indicador mais fácil de assertividade, que seria pegar no número total de recuos e dividi-lo pelo número de interacções que entraram no bot durante um período.

Isto daria uma taxa de recuo, e o seu complemento seria a assertividade, pelo que estamos a falar de uma taxa de assertividade indireta. Serve para saber aproximadamente o volume de perguntas que estão a chegar e para as quais o bot não foi treinado, respondendo a perguntas que não compreende.

2. Taxa de assertividade rigorosa:

No outro extremo, a forma mais complexa de medir a assertividade requer o acordo comum de duas ou mais partes que seleccionam uma amostra representativa de entradas ou exemplos reais de utilizadores com os quais o sistema será medido e, em seguida, anotam manualmente cada uma das entradas com as suas saídas, ou seja, a resposta que o sistema realmente deu, e identificam se a frase pertence ao domínio de conhecimento do bot e se a classificação ou resposta que deu foi adequada ou não.

Depois de o grupo de anotadores ter efectuado a avaliação relevante do mesmo conjunto de dados, avalia-se o grau de concordância entre eles, porque é possível que alguns deles tenham considerado que tudo era relevante e adequado de forma aleatória.

Um simples teste estatístico permite resolver este problema, criando uma coleção anotada de grande valor para melhorar a formação. O trabalho é complicado e moroso e requer mesmo alguma formação para os anotadores. Esta forma de medir a Taxa de Assertividade Rigorosa só é recomendada nos casos em que o indicador está ligado a alguma obrigação que exija uma demonstração formal.

3. Índice de Assertividade Semi-Automatizado:

Uma abordagem intermédia é o procedimento de cálculo da taxa de assertividade semi-automatizada, que poupa tempo e é muitas vezes uma fórmula ideal em contextos ágeis em que a qualidade do nosso assistente virtual tem de ser medida e actualizada através da demonstração do seu valor.

Dependendo do tipo de solução de conversação, o cálculo será efectuado identificando primeiro toda a formação, relacionando-a com as respostas que serão medidas. Com esta entrada, é gerada uma tabela com as frases reais e a resposta que “deveria” ter sido recebida.

Esta tarefa é normalmente abreviada utilizando simplesmente a intenção que deveria ter classificado essa frase. Uma vez que, na prática, é normalmente necessário um esforço manual nesta parte, surge a parte “semi” do nome do indicador. Em alguns casos, é possível automatizar todo o fluxo do início ao fim, mas muitas vezes há condições que dificultam essa tarefa.

Depois, um segundo bot externo “envia” as frases para o assistente virtual. O assistente responderá com a sua resposta e essa resposta será guardada, dando origem a uma coleção de dados que contém cada uma das entradas reais do utilizador, a classificação que deveria ter sido entregue e a classificação que foi entregue.

Por fim, é criada uma matriz com a frequência de classificações correctas e incorrectas, criando assim o indicador de taxa de assertividade por excelência, que nos permite identificar com um bom nível de detalhe e de forma relativamente rápida quais são os domínios de conhecimento que o bot não domina e em que a formação falha mais num indicador familiar expresso em percentagem.

A primeira ideia que vimos ser gerada nestas experiências de medição é a necessidade de juntar algumas respostas, para evitar confundir o motor de diálogo que executa o assistente.

Há um número infinito de formas de combinar estas medidas e os três níveis são bastante didácticos para descrever a sua complexidade. Normalmente, são acrescentadas mais etapas à medição, à medida que vão surgindo os requisitos próprios de cada assistente virtual.

Ter uma medição adequada da assertividade do nosso bot garantirá a sua qualidade com o apoio de um indicador que tem impacto na experiência do utilizador e na avaliação final do assistente virtual. Com a medição vem um processo subsequente de re-treinamento que deve ser efectuado cuidadosamente para evitar a diminuição da capacidade de generalização do modelo em novos casos para os quais não foi treinado.

Outra leitura interessante: Um assistente virtual disse: Desculpe, não percebi bem, ainda estou a aprender, pode escrever de outra forma?

 

Must News