Passar para o Conteúdo Principal
 

Arquivo.pt: o papel da Preservação Digital na Ciência Aberta

Arquivo.pt: o papel da Preservação Digital na Ciência Aberta

O gestor do Arquivo.pt, Daniel Gomes, revela alguns dos passos dados para o cumprimento da missão  de “preservar a informação publicada na Web para fins científicos e académicos”.

 

O Arquivo.pt torna possível pesquisar e aceder a páginas da web arquivadas desde 1996. O trabalho realizado por esta infraestrutura é gerido pela Unidade FCCN da Fundação para a Ciência e a Tecnologia (FCT), tendo como foco a preservação de informação publicada na Web para fins científicos e académicos.

Esta ligação ao mundo da investigação é também ilustrada pela presença do Arquivo.pt no Registry of Research Data Repositories, sendo utilizada por investigadores internacionais como fonte de dados abertos. Por essa razão, o Arquivo.pt tem vindo a desenvolver diversas atividades para a identificação de dados online relacionados com projetos de  Investigação & Desenvolvimento (I&D), para que sejam preservados de forma sistemática.

Uma das vias fulcrais para concretizar este objetivo é a preservação digital dos sites dos projetos de I&D. Estas páginas web são cada vez mais utilizadas para disponibilizar importante informação científica que complementa a literatura publicada (ex. conjuntos de dados ou documentação, software, etc.).

Porém, a informação online relativa a projetos de I&D não tem sido exaustivamente documentada. A informação referente aos endereços dos sites dos projetos financiados no programa 7º Programa-Quadro (FP7), por exemplo, disponibilizada através do Portal de Dados Abertos da União Europeia (EU Open Data Portal) está omissa para 92% dos projetos. Nesse sentido, o Arquivo.pt já identificou automaticamente e preservou mais de 52 milhões de ficheiros (7 TB) oriundos de 53 993 sites de projetos de I&D financiados pela União Europeia desde o FP4 (1994).

Esta é também uma prioridade no que diz respeito aos projetos de investigação portugueses – no total, foram preservados 600 721 ficheiros (72 GB), recolhidos de 7 956 sites relacionados com projetos financiados pela Fundação para a Ciência e a Tecnologia.

Outras formas de preservação

Desde 2020, a informação online relativa a projetos financiados pela FCT passou a ser documentada nos relatórios de progresso e finais. O objetivo é que esta informação passe a ser sistematicamente preservada. O Arquivo.pt tem realizado recolhas especiais direcionadas para preservar informação científica nacional disponível online citada a partir de publicações científicas em acesso aberto (RCAAP) e currículos científicos (Ciência Vitae).

Por outro lado, o serviço Memorial do Arquivo.pt tem preservado websites de eventos, projetos ou portais científicos que já não são atualizados, como por exemplo o Degois.pt. Os websites de unidades de Investigação e Desenvolvimento são periodicamente recolhidos para preservação. Estas atividades visam principalmente manter a validade das referências científicas para recursos online em publicações peer-reviewed e CVs académicos.

A capacitação para a preservação é outros caminhos estratégicos, no âmbito desta missão. Nesse sentido, o Arquivo.pt tem vindo a ministrar um programa de formação que prepara os formandos para publicar de dados abertos online (para que possam ser preservados), preservar os dados das fontes das suas investigações online (e auto-preservar os resultados científicos derivados que sejam publicados online), pesquisar aceder e reutilizar dados históricos oriundos da web e processar de forma automática grandes volumes de dados históricos preservados na web (através de Interfaces de Programação de Aplicações – API).

Preservação e inovação

De igual forma, o Arquivo.pt tem contribuído para a produção de conjuntos de dados e software em acesso aberto. Todo o software que suporta o serviço Arquivo.pt e as experiências de investigação realizadas está disponível através de uma conta no GitHub. Assim, o Arquivo.pt disponibiliza dados abertos valiosos para investigação tais como os registos históricos de recolhas, de pesquisas temporais por texto e imagem (únicos no mundo) e os dados preservados desde 1996 através de recolha proactiva da web e integração de coleções históricas.

Por fim, é importante destacar o papel do Prémio Arquivo.pt – um galardão que, desde 2017, distingue trabalhos que utilizem os dados abertos preservados pelo Arquivo.pt. Ao longo das suas três edições, este prémio já apoiou cerca de uma dezena de projetos inovadores com âmbitos e objetos diversificados: aplicações, plataformas, extensões para browser ou trabalhos académicos ou investigações científicas são alguns exemplos das diferentes aplicações dos dados preservados pelo Arquivo.pt.  Como condição do regulamento, estes trabalhos são disponibilizados em acesso aberto.