O documento detalha a aplicação de ciência de dados e machine learning para melhorar a recuperação de informação no repositório institucional ARCA da Fiocruz, focando na classificação de artigos, teses e dissertações. A metodologia inclui a extração automática de descritores e análise de documentos para aumentar a eficiência na busca por publicações relevantes. Os resultados mostraram melhorias na revocação de conteúdos e a necessidade de um acesso aberto e legibilidade das informações.