O Arquivo.pt apresenta-se como solução para que ferramentas baseadas em Inteligência Artificial (IA) tenham uma melhor performance em língua portuguesa. Este serviço digital da Fundação para a Ciência e a Tecnologia, desenvolvido através da FCCN, assume-se como o maior conjunto de dados textuais em língua portuguesa em Portugal, disponível em acesso aberto, para os investigadores treinarem modelos de processamento da linguagem natural (PLN).
A necessidade da IA interpretar as complexidades da língua portuguesa
A Inteligência Artificial abrange várias áreas do conhecimento, como a linguística e a informática, e está presente nas novas tecnologias utilizadas diariamente por todos, a nível mundial. Quando procuramos informação na Internet, por exemplo, e é gerada uma resposta, num determinado idioma, tal processo recorre a IA.
O processamento da linguagem natural é o que permite às máquinas aperfeiçoarem o algoritmo que gera estas respostas adaptadas aos utilizadores, sendo esta a vertente da inteligência artificial que ajuda computadores a entender, interpretar e manipular a linguagem humana. No entanto, estes modelos têm sido desenvolvidos, maioritariamente, para a língua inglesa e não tanto para outras, como o português.
A verdade é que quanto mais os PLN forem treinados numa língua, mais capazes serão de interpretar as suas complexidades. No entanto, tal só é possível se recorrerem a dados de qualidade e é precisamente nesse sentido que o Arquivo.pt, serviço digital da Fundação para a Ciência e a Tecnologia, surge como solução.
Arquivo.pt: o maior conjunto de dados textuais em língua portuguesa
O Arquivo.pt apresenta-se aqui como o maior conjunto de dados textuais em língua portuguesa e em Portugal, disponível em acesso aberto, para os investigadores treinarem modelos de processamento da linguagem natural.
Com mais de 1 Petabyte de conteúdos preservados desde os anos 90, incluindo tudo o que pode ser encontrado nas páginas Web, o Arquivo.pt não disponibiliza apenas texto, mas também imagens, ficheiros áudio, vídeo e metadados diversos, entre outras tipologias de conteúdo em português.
Os conteúdos são acessíveis através da interface de pesquisa e das APIs do Arquivo.pt.
GlórIA, um modelo para a língua portuguesa
Um dos projetos que utilizou o Arquivo.pt para obter grandes quantidades de texto chama-se GlórIA, um modelo linguístico de grande escala (LLM) focado na língua portuguesa europeia.
“Apesar da abundância de LLMs para muitas línguas de alto recurso, a disponibilidade de tais modelos permanece limitada para o português europeu”, como explicam Ricardo Lopes, João Magalhães e David Semedo, autores do projeto e investigadores da Faculdade de Ciências e Tecnologia da Universidade NOVA de Lisboa, no seu artigo GlórIA – A Generative and Open Large Language Model for Portuguese.
O modelo utilizou 35 milhões de tokens ou expressões que as máquinas podem processar, provenientes de várias fontes, sendo que o Arquivo.pt contribuiu com uma coleção de 1,4 milhões de notícias e periódicos arquivados em português.