O “apodrecimento cerebral”, antes restrito aos usuários de redes sociais, agora afeta a inteligência artificial, conforme demonstra uma pesquisa recente. O termo, que descreve a deterioração cognitiva causada pelo consumo excessivo de conteúdo online trivial, foi eleito “palavra do ano” de 2024 pela Oxford University Press.
Cientistas de universidades no Texas e Purdue investigaram se os modelos de linguagem, alimentados com o mesmo conteúdo digital que os humanos, sofrem efeitos similares. A equipe de pesquisa publicou um estudo na plataforma arXiv, demonstrando que textos virais e chamativos podem prejudicar a capacidade das IAs.
Embora modelos de IA não pensem, a exposição a conteúdo de baixa qualidade resultou em falhas de “raciocínio”, inconsistências factuais e dificuldades em manter a coerência lógica. Junyuan Hong e Atlas Wang, coautores do estudo, afirmam que os modelos refletem a qualidade dos dados de forma mais profunda do que se imaginava, apresentando um desempenho inferior após o contato
Para a pesquisa, foram criados conjuntos de dados a partir de postagens do X (antigo Twitter). O conjunto de baixa qualidade continha conteúdos populares projetados para atrair atenção, como clickbaits, memes reciclados e postagens que visavam gerar indignação. Os modelos de linguagem, incluindo o Llama3 da Meta e versões do Qwen LLM da Alibaba, foram treinados com esses dados, resultando em um declínio cognitivo persistente, mesmo após tentativas de “reabilitação” com dados mais limpos.
Ilia Shumailov, ex-cientista do Google DeepMind, concorda com os resultados e os alinha com estudos sobre envenenamento de modelos, onde dados de treinamento são manipulados com intenções maliciosas. Gideon Futerman, do Center for AI Safety, ressalta que empresas de IA estão investindo em melhorar a qualidade dos dados de treinamento.
Hong e Wang defendem a “higiene cognitiva” e afirmam que o futuro da segurança em IA depende da integridade dos dados, especialmente com o aumento de conteúdo gerado por IA. Eles enfatizam a necessidade de estudar essa fronteira para evitar que futuros modelos herdem distorções de raciocínio e representação presentes em dados de baixa qualidade.
Fonte: forbes.com.br
