André Mourão, da equipa do Arquivo.pt, explica-nos tudo sobre a funcionalidade deste serviço da Unidade FCCN que permite aos utilizadores realizar uma pesquisa de imagens do passado.
O Arquivo.pt lançou, no dia 24 de março, o projeto Dionisius. Podes contar-nos em que consiste esta iniciativa?
No Arquivo.pt, temos um modelo de lançamento periódico de novas versões do nosso portal.
Nestas versões, agrupamos todos os melhoramentos realizados, sendo que estes estão normalmente centrados num objectivo central da versão.
A Dionisius teve um impacto especial pois lançámos a nova versão da pesquisa de imagens, o resultado de anos de trabalho. Passámos de um protótipo com 22 milhões de imagens pesquisáveis, para um sistema que disponibiliza mais de 1.800 milhões, mantendo a rapidez de resposta e simplicidade de utilização do nosso portal web.
Desde então, como dizes, 1.800 milhões de imagens do passado da Web passaram a estar pesquisáveis no Arquivo.pt. Como classificas este resultado?
Este processo correu bastante bem e ultrapassou largamente as nossas expectativas mais optimistas. Processámos mais de 8 mil milhões de páginas, num total de 520TB de dados arquivados, correspondentes ao período temporal de 1992 a 2019.
Em maio de 2020, a previsão era de encontrarmos 18 vezes mais imagens; o resultado final foi um aumento de 81 vezes, no número de imagens pesquisáveis.
Esta solução é descrita como “um sistema inovador” pelo Arquivo.pt. De que forma é que esta versão inova, face ao que tem sido feito por outros arquivos web?
Para além da escala, a maior inovação desta pesquisa do Arquivo.pt é o foco em extrair informação relevante das páginas para cada imagem. Para todas as imagens em todas as páginas, extraímos uma legenda textual, correspondente a porção do texto da página que está mais próxima da imagem.
Isto é especialmente relevante em páginas que possuam muitas imagens, pois permite que os utilizadores encontrem a imagem específica que ilustra a sua pesquisa.
Outras funcionalidades a destacar estão relacionadas com a classificação automática de conteúdo potencialmente ofensivo para os utilizadores, pesquisa avançada com múltiplos filtros de conteúdo e o acesso automático a partir de APIs, que permite utilizar os dados recolhidos pelo Arquivo.pt em projectos inovadores (https://arquivo.pt/apis).
Que tipo de mais-valia e potencialidades representa esta nova funcionalidade para o utilizador do Arquivo.pt?
Estudos externos mostram que por volta de um quarto das pesquisa generalistas na web são de imagens. No caso do Arquivo.pt, as pesquisas de imagens representam por volta de um quinto do total das pesquisas efetuadas. Pesquisa em dados arquivados permite ter uma visão dos motores de pesquisa de imagem generalistas como o Google Images. Estes estão focados em pesquisar imagens do presente, especialmente conteúdo popular e recente.
O Arquivo.pt permite uma pesquisa retrospectiva e com um foco especial no tempo. Versões antigas de imagens e páginas estão disponíveis para consulta, sendo possível ver como páginas e imagens evoluíram. A nossa pesquisa permite maior isenção nos resultados devolvidos, pois não estamos focados em métricas de popularidade. Permitimos também maior granularidade na filtragem nos resultados de pesquisa (por exemplo, filtrar resultados por data, sítio web, tipo de ficheiro, entre outros).
O Arquivo.pt já deu origem a muitos projectos com potencial de impacto positivo na sociedade. No caso específico desta pesquisa, foi publicado recentemente um artigo cientifico por Ricardo Campos e co-autores, onde a API de pesquisa de imagens é utilizada para encontrar imagens para ilustrar os resultados da divisão temporal de uma notícia.
Dando um exemplo pessoal, encontrei muitos registos de recensões de livros realizadas pela minha tia-avó na Fundação Calouste Gulbenkian. Estes registos foram digitalizados a partir dos originais dos anos 60 e 70, colocados no site da Gulbenkian e estão agora disponíveis para consulta e pesquisa no Arquivo.pt.
Há alguma coisa que queiras acrescentar?
O Arquivo.pt vai organizar uma sessão online, onde vou falar sobre como tornámos estes 1.800 milhões de imagens pesquisáveis. O evento vai ocorrer no dia 23 de abril às 15 horas (com registo prévio gratuito).
Gostaria de reforçar que o nosso portal web e APIs são de código e acesso aberto e gratuito e estão disponíveis para uso pessoal ou em projectos de investigação, sem ser necessário registo prévio.
Por fim, gostaria também de mencionar o Prémio Arquivo.pt (https://arquivo.pt/premio2021) que já vai na sua 4ª edição, e pretende premiar com até 10.000€ trabalhos inovadores realizados com base na informação histórica preservada pelo Arquivo.pt. Os trabalhos podem incidir sobre temas de qualquer área (ex. Educação, História, Sociologia, Comunicação, Saúde, Informática) e as candidaturas estão abertas até ao dia 4 de maio de 2021.