São às dezenas os posts de redes sociais que passam durante o dia pelos olhos dos que nelas navegam. Em muitos casos, a retina capta-lhes as hiperligações para notícias sem que seja capaz de estabelecer se se trata efetivamente de notícias.

No início de maio, a Comissão Europeia registou diariamente mais de 2.700 artigos com fake news - notícias falsas, que, por serem falsas, não são notícias - relacionadas com a covid-19 nas redes sociais, entre publicações falsas e enganosas, numa altura em que a desinformação foi mesmo considerada a “doença do século” por responsáveis daquele organismo europeu.

É com base na necessidade crescente de identificar publicações que se fazem passar por notícias, de “ajudar o utilizador comum, e sobretudo os jornalistas, a analisar e identificar informação com elevada probabilidade de ser falsa, e também a filtrar o conteúdo mais relevante nas redes sociais” que o Instituto de Engenharia de Sistemas e Computadores, Tecnologia e Ciência (INESC TEC) está a desenvolver o projeto “Detecting Fake News Automatically”.

No sistema, mais de cem indicadores psicolinguísticos - como os que associam as emoções predominantes no texto - e estatísticos - como os que analisam a frequência de verbos, adjetivos ou entidades - entram num modelo de aprendizagem automática que, garante o INESC TEC em comunicado, tem sido afinado com base em “casos previamente conhecidos e referenciados como fake news”.

É depois perante essa “aprendizagem”, que recorre “a técnicas de data mining, processamento em linguagem natural, reconhecimento de entidades mencionadas e análise de sentimento”, que o modelo vai classificar a nova publicação segundo uma escala de probabilidade de integrar ou não o universo das fake news.

Álvaro Figueira, investigador INESC TEC e professor no Departamento de Ciência de Computadores da Faculdade de Ciências da Universidade do Porto (FCUP), diz que se pretende “que o sistema utilize a mensagem escrita do post e toda a informação associada a esta, ou seja, os likes, as partilhas, os comentários, bem como a informação sobre o utilizador que publicou o post”, na convicção de que esta informação adicional, associada à mensagem veiculada, “contribua para gerar uma confiança superior na classificação dada pelo sistema”.

Desenvolver um sistema capaz de capturar a diversidade temática e temporal é uma “tarefa desafiante”, admite o investigador. Por exemplo, uma publicação de saúde que se faça passar por notícia tem um contexto diferente de uma veiculada no domínio político, como as muitas publicadas e partilhadas no contexto das eleições norte-americanas de 2016, numa altura em que o problema das fake news ganhou uma maior dimensão, preparando as empresas tecnológicas e a comunidade científica para começaram a trabalhar numa solução.