André Mourão, da equipa do Arquivo.pt, explica-nos tudo sobre a funcionalidade deste serviço da Unidade FCCN que permite aos utilizadores realizar uma pesquisa de imagens do passado.

O Arquivo.pt lançou, no dia 24 de março, o projeto Dionisius. Podes contar-nos em que consiste esta iniciativa?

No Arquivo.pt, temos um modelo de lançamento periódico de novas versões do nosso portal.

Nestas versões, agrupamos todos os melhoramentos realizados, sendo que estes estão normalmente centrados num objectivo central da versão.

A Dionisius teve um impacto especial pois lançámos a nova versão da pesquisa de imagens, o resultado de anos de trabalho. Passámos de um protótipo com 22 milhões de imagens pesquisáveis, para um sistema que disponibiliza mais de 1.800 milhões, mantendo a rapidez de resposta e simplicidade de utilização do nosso portal web.

Desde então, como dizes, 1.800 milhões de imagens do passado da Web passaram a estar pesquisáveis no Arquivo.pt. Como classificas este resultado?

Este processo correu bastante bem e ultrapassou largamente as nossas expectativas mais optimistas. Processámos mais de 8 mil milhões de páginas, num total de 520TB de dados arquivados, correspondentes ao período temporal de 1992 a 2019.

Em maio de 2020, a previsão era de encontrarmos 18 vezes mais imagens; o resultado final foi um aumento de 81 vezes, no número de imagens pesquisáveis.

Esta solução é descrita como “um sistema inovador” pelo Arquivo.pt. De que forma é que esta versão inova, face ao que tem sido feito por outros arquivos web?

Para além da escala, a maior inovação desta pesquisa do Arquivo.pt é o foco em extrair informação relevante das páginas para cada imagem. Para todas as imagens em todas as páginas, extraímos uma legenda textual, correspondente a porção do texto da página que está mais próxima da imagem.

Pesquisar imagens do passado com o Arquivo.pt

Isto é especialmente relevante em páginas que possuam muitas imagens, pois permite que os utilizadores encontrem a imagem específica que ilustra a sua pesquisa.

Outras funcionalidades a destacar estão relacionadas com a classificação automática de conteúdo potencialmente ofensivo para os utilizadores, pesquisa avançada com múltiplos filtros de conteúdo e o acesso automático a partir de APIs, que permite utilizar os dados recolhidos pelo Arquivo.pt em projectos inovadores (https://arquivo.pt/apis).

Que tipo de mais-valia e potencialidades representa esta nova funcionalidade para o utilizador do Arquivo.pt?

Estudos externos mostram que por volta de um quarto das pesquisa generalistas na web são de imagens. No caso do Arquivo.pt, as pesquisas de imagens representam por volta de um quinto do total das pesquisas efetuadas. Pesquisa em dados arquivados permite ter uma visão dos motores de pesquisa de imagem generalistas como o Google Images. Estes estão focados em pesquisar imagens do presente, especialmente conteúdo popular e recente.

O Arquivo.pt permite uma pesquisa retrospectiva e com um foco especial no tempo. Versões antigas de imagens e páginas estão disponíveis para consulta, sendo possível ver como páginas e imagens evoluíram. A nossa pesquisa permite maior isenção nos resultados devolvidos, pois não estamos focados em métricas de popularidade. Permitimos também maior granularidade na filtragem nos resultados de pesquisa (por exemplo, filtrar resultados por data, sítio web, tipo de ficheiro, entre outros).

O Arquivo.pt já deu origem a muitos projectos com potencial de impacto positivo na sociedade. No caso específico desta pesquisa, foi publicado recentemente um artigo cientifico por Ricardo Campos e co-autores, onde a API de pesquisa de imagens é utilizada para encontrar imagens para ilustrar os resultados da divisão temporal de uma notícia.

Dando um exemplo pessoal, encontrei muitos registos de recensões de livros realizadas pela minha tia-avó na Fundação Calouste Gulbenkian. Estes registos foram digitalizados a partir dos originais dos anos 60 e 70, colocados no site da Gulbenkian e estão agora disponíveis para consulta e pesquisa no Arquivo.pt.

Há alguma coisa que queiras acrescentar?

O Arquivo.pt vai organizar uma sessão online, onde vou falar sobre como tornámos estes 1.800 milhões de imagens pesquisáveis. O evento vai ocorrer no dia 23 de abril às 15 horas (com registo prévio gratuito).

Gostaria de reforçar que o nosso portal web e APIs são de código e acesso aberto e gratuito e estão disponíveis para uso pessoal ou em projectos de investigação, sem ser necessário registo prévio.

Por fim, gostaria também de mencionar o Prémio Arquivo.pt (https://arquivo.pt/premio2021) que já vai na sua 4ª edição, e pretende premiar com até 10.000€ trabalhos inovadores realizados com base na informação histórica preservada pelo Arquivo.pt. Os trabalhos podem incidir sobre temas de qualquer área (ex. Educação, História, Sociologia, Comunicação, Saúde, Informática) e as candidaturas estão abertas até ao dia 4 de maio de 2021.

Outros artigos relacionados

1 milhão de conteúdos agregados: “um momento histórico para o RCAAP e para a ciência aberta em Portugal”

O RCAAP termina 2024 da melhor forma, ao alcançar um marco histórico. Esta meta é conseguida no ano em que este serviço comemora 16 anos de atividade.

Ler artigo

Afirmação da Língua Portuguesa na internet

A língua portuguesa está em constante transformação. Enquanto navegamos pelos caminhos sinuosos da era digital,...

Ler artigo

“As mudanças viabilizadas pelo PTCRIS têm trazido benefícios significativos aos intervenientes do sistema científico nacional”

O programa PTCRIS foi lançado em 2015 com o objetivo de facilitar a gestão e o acesso a informação sobre a atividade científica nacional.

Ler artigo

Internet a alta velocidade para acelerar o conhecimento

As redes assumem um papel fundamental para a ciência e academia. São elas que ligam as instituições de ensino e investigação, disponibilizando também serviços digitais que ajudam investigadores e estudantes.

Ler artigo

Novo site do POLEN reforça o apoio à gestão e partilha de dados de investigação em Portugal

A nova interface traduz os valores centrais do serviço: abertura, transparência e maior visibilidade dos resultados científicos.

Ler notícia

Portugal líder na adoção do ORCID

Portugal consegue alcançar uma posição de liderança neste processo de transformação, através do PTCRIS.

Ler notícia

Novo site do PTCRIS reforça o compromisso de tornar a informação de ciência mais acessível e integrada

Com um design mais intuitivo e moderno, o website traduz visualmente os valores do programa: transparência, eficiência e inovação.

Ler notícia

Arquivo.pt apresenta nova funcionalidade para reproduzir conteúdos interativos

A nova versão do serviço garante a reprodução de animações e de conteúdos interativos em Flash.

Ler notícia

2.ª Sessão do Ciclo “Arquivos do Saber: Ciência, História e Memória”

A Fundação para a Ciência e a Tecnologia (FCT), através do seu Arquivo de Ciência e Tecnologia (ACT), organiza durante o ano de 2025 o ciclo “Arquivos do Saber: Ciência, História e Memória”

Mais informação

2.º Encontro PUB IN: revistas e comunicação científica para a ciência aberta

O evento realiza-se entre os dias 26 e 27 de março de 2025 na Universidade Católica Portuguesa, no Porto.

Mais informação

20 anos de b-on: comunidade da Biblioteca do Conhecimento Online reúne-se em Viseu

A b-on, Biblioteca do Conhecimento Online, serviço digital da FCT, comemora 20 anos com um Encontro para a sua comunidade a 20 de novembro, no Instituto Politécnico de Viseu. Inscrições já abertas.

Mais informação

A expansão da Ciência Aberta em debate a 25 de outubro

Com o objetivo de promover as práticas de Ciência Aberta, a FCCN, serviços digitais da FCT, promove este evento online a 25 de outubro, às 10h00.

Mais informação