Como funciona a análise de sentimento da STILINGUE? 14 de novembro de 2023 18:13 Atualizado Índice: Introdução Qual a acurácia da nossa classificação de sentimento? Introdução Entenda como a Inteligência Artificial analisa as publicações coletadas na sua pesquisa Dentro do contexto de análise de sentimento, o motor de Inteligência Artificial STILINGUE faz uso de três classificações: Positivo, Negativo ou Neutro. Essa classificação é feita de forma semântica, e considera o significado atual das palavras. Isso porque a linguagem está em constante evolução e passa por mudanças diariamente. Esse processo inclui também a classificação dos emojis de acordo com sua forma de uso recorrente nas redes sociais. A STILINGUE possui atualmente um banco de 1100 emojis cadastrados atualizados mensalmente, e leva em conta aqueles mais utilizados nas redes sociais pelos usuários. Qual a acurácia da nossa classificação de sentimento? A acurácia indica um desempenho geral do modelo de IA responsável pela classificação e permite determinar o quanto esse modelo classificou corretamente do total de publicações. Atualmente, a acurácia para classificação de sentimento em publicações PT-BR é de 75% a 82%. A STILINGUE entende que a acurácia não é determinada pelo volume de acertos, mas sim, pela variedade. Isso significa que o mais importante é buscar uma boa diversidade de exemplos para medir a qualidade da Inteligência Artificial responsável pela classificação de sentimento, pois a acurácia é uma métrica dinâmica; seu resultado difere dependendo da amostra analisada. Ao analisar diferentes amostras, é possível estipular um intervalo de acurácia mais comum na classificação de sentimento do motor de IA. O valor desse intervalo pode ser maior ou menor, pois além de depender da amostra utilizada, é necessário considerar que o português do Brasil (BR) é uma língua viva e as palavras são ressignificadas diariamente. Um determinado termo, antes considerado positivo, passa a ter uma conotação negativa. Além disso, campanhas, datas comemorativas e crises podem dar novo sentido a uma expressão, tudo em consequência do contexto onde ela é utilizada. Sempre que uma palavra ou expressão ganha um novo significado, ou quando um novo termo é criado, o motor de Inteligência Artificial da STILINGUE precisa ser ensinado e, por esse motivo, passa por melhorias contínuas. Outro ponto importante a ser considerado é a classificação de sentimento, que pode variar em consequência de diversos fatores, como termos utilizados na sua Configuração de Pesquisa e contexto atual. Veja a seguir outros elementos considerados pela IA ao classificar o sentimento de publicações coletadas: 1. Emojis e suas classificações Como explicado anteriormente, a biblioteca da STILINGUE contém milhares de emojis, resultado de um mapeamento feito a partir das publicações de usuários nas redes sociais. Com base nessa amostra, a IA categoriza cada um dos emojis de acordo com sua polaridade, sendo: Negativo, Positivo ou Neutro. A polaridade do emoji é definida pela frequência de uso nas redes sociais. Caso um emoji não seja utilizado com frequência, é considerado Neutro. Se isso muda com o tempo e o emoji passa a ser mais utilizado de forma crítica, a polaridade passa a ser Negativa. Se a publicação não apresentar texto, apenas emojis, a classificação de sentimento se dará pela polarização dos emojis para definir a polaridade da publicação. 2. Risadas e suas classificações No caso de publicações que contenham apenas linguagem indicando risos, como: kkkkk, hehehehe, hahahaha, hehehe, entre outros, o conteúdo passa por um processo denominado normalização para que todas as variações de risada sejam compreendidas da mesma forma. Esse processo é semelhante à normalização de termos abreviados; para mais informações, consulte a FAQ. Embora a normalização facilite a identificação de um texto com risos, é importante destacar que essa categoria de interação não é considerada pelo motor de Inteligência Artificial STILINGUE ao fazer a análise de sentimento. Ou seja, uma mensagem com risos não será classificada automaticamente como positiva, neutra ou negativa. Isso porque uma risada não pode ser considerada sempre como um sentimento positivo, sendo muitas vezes utilizadas como ironia ou contextos neutros e negativos. Portanto, a IA não poderá determinar a polaridade de uma publicação com risos se não houver outro elemento do texto que informe o contexto desta publicação. 3. Abreviações e suas Classificações Quando um termo escrito como uma abreviação de uma palavra ou uma sigla nas redes sociais é coletado pela plataforma, a normalização é adotada para retornar essa abreviação para sua forma original. Depois dessa etapa, a classificação de sentimento é realizada conforme o contexto apresentado na publicação. Essa normalização é a mesma utilizada na classificação de risadas, sendo uma das etapas internas de processamento do texto que não é visível dentro da STILINGUE. Veja o exemplo a seguir: Texto coletado: “amg, eu amei isso, sqn” Texto processado: “amiga, eu amei isso, só que não.” Texto que aparece na plataforma: “amg, eu amei isso, sqn” Essa normalização é feita pelo time de Machine Teaching (responsáveis pelo aprimoramento do Motor de Inteligência Artificial STILINGUE), com base em um dicionário de termos extenso e constantemente atualizado. A plataforma não é alterada por essa ação: a troca do termo abreviado para a versão completa é feita automaticamente, assim como a classificação de sentimento. No caso da abreviação “sqn”, sendo uma ironia, é inicialmente classificada como Negativo na plataforma, conforme o contexto da publicação. 4. Ambiguidade e suas Classificações Quando uma publicação coletada contém algum termo que pode ser ambíguo, a Inteligência Artificial compreende aquele termo com uma polaridade que o sentido da palavra faça mais sentido, na maioria das vezes. Observe no exemplo abaixo: Marca de roupas que tenha uma sessão Infantil, e alguma interação seja coletada e possua a palavra Infantil, vai ser processada como uma palavra com polaridade negativa, porém nesse contexto ele não está falando sobre Infantil relacionado a infantilidade. Nesses casos, com palavras ambíguas cujo significado tenha polaridade diferente do que o sistema costuma classificar, é indicado que os usuários adicionem esses termos na polaridade desejada para serem classificadas pela Biblioteca de Termos. Para mais informações, acesse a discussão sobre o assunto em nossa comunidade ou os vídeos no nosso canal. 😃 Artigos relacionados FAQs - Configuração de pesquisa Como usar o tempo de inatividade de usuário Tratamento de dados de Mar Aberto - Youtube Biblioteca de termos Sentimento nas Avaliações - Google Play