O estudo visou a criação de um arcabouço de classificação de fake news que compara diferentes técnicas de representação de textos e seus impactos em modelos de aprendizagem.
A internet possibilita que qualquer pessoa crie e divulgue notícias, especialmente nas redes sociais, o que pode levar à disseminação de notícias falsas (em inglês, fake news), contribuindo para a desinformação da população. Esse cenário fez com que portais de notícias criassem agências com a finalidade de rotular notícias falsas, separando o que é fato do que é falso. Esse processo de classificação, geralmente, é feito de forma manual pelos portais de notícias, tornando-se custoso e inviável devido ao grande volume de informações gerado diariamente. “O que tenho visto é que o principal problema está na capacidade de coleta e análise desses dados. Para checar uma notícia falsa, é necessário realizar pesquisas para buscar informações fidedignas sobre o assunto, tarefa que pode ser altamente desgastante se feita de forma manual”, pontua Denis de Padua Silva, autor do Trabalho de Conclusão de Curso (TCC) sobre o tema desenvolvido sob a orientação do professor Fabio Augusto Faria (ICT/Unifesp – Campus São José dos Campos).
Com o uso da inteligência artificial, diversas pesquisas buscam encontrar padrões em documentos textuais que contribuam para a identificação de notícias falsas. A maior parte dos trabalhos consegue obter resultados de eficácia acima de 90% com técnicas relativamente simples. Os trabalhos de referência sobre o tema utilizam modelos de aprendizado profundo (em inglês, deep learning) combinados a técnicas simples de representação de texto ou treinam as técnicas de representação de texto na própria base de dados.
Segundo Denis, o diferencial da pesquisa desenvolvida no ICT/Unifesp está na utilização de modelos de representação de textos que foram gerados através de modelos treinados por meio de diversas bases de dados com temas diversos, além de empregar modelos de aprendizado de máquina “clássicos”, que possuem menor complexidade em relação aos modelos de aprendizado profundo. Estes últimos são, geralmente, mais custosos e baseados em redes neurais artificiais compostas por milhões de parâmetros, que precisam ser ajustados para a tarefa, o que demanda maior tempo de aprendizagem e um alto custo computacional. “O aprendizado de máquina é um ramo da área da inteligência artificial que desenvolve modelos para encontrar padrões em conjuntos de dados de uma tarefa alvo. Os padrões identificados podem ser utilizados em novos dados de mesmo domínio e seu conhecimento pode servir como base para novas tomadas de decisão”, esclarece Fabio.
Para o desenvolvimento da pesquisa, foi escolhida a base de dados Fake.br, composta por 7200 notícias em português, já que o número de trabalhos publicados nesse idioma sobre o tema ainda é pequeno. Além disso, a base já é utilizada em outros trabalhos acadêmicos, o que permitiu a comparação dos resultados obtidos com outros estudos. Foram escolhidas três técnicas de representação textual para comparar o desempenho de classificadores “clássicos” da literatura com trabalhos que utilizaram aprendizado profundo. Na etapa de pré-processamento, na qual os dados são limpos e normalizados, a base de dados escolhida foi testada de duas formas: a) com o texto completo e b) com o texto truncado a fim de verificar se poderia existir viés nos resultados. Na base de dados utilizada, para cada notícia verdadeira, existe uma notícia falsa equivalente, porém de tamanho inferior. Para padronizar o tamanho das notícias, cada notícia de maior tamanho foi reduzida com um corte na quantidade das palavras.
No trabalho, foi possível verificar que as técnicas de representação de texto afetam diretamente o aprendizado dos modelos. Nos experimentos, notou-se diferença nos resultados de acurácia obtidos com as diferentes técnicas utilizadas. O resultado obtido com a base completa obteve acurácia superior a um trabalho que utilizou aprendizado profundo, atingindo 96%. Com a base truncada, a acurácia máxima foi de 86%. Para o professor Fabio, “uma vez criada uma solução satisfatória, a inteligência artificial poderá contribuir com a tarefa de classificar notícias falsas automaticamente, reduzindo a difusão de informações incorretas”, finaliza.