BOVIFOCR – Biometria Ocular, Vivacidade de Imagens Faciais e Reconhecimento de Texto (OCR) em Documentos Oficiais

BOVIFOCR – Biometria Ocular, Vivacidade de Imagens Faciais e Reconhecimento de Texto (OCR) em Documentos Oficiais

Objetivo do Projeto

Este trabalho de pesquisa tem como objetivo principal a melhoria de algoritmos de visão computacional para larga escala em termos de quantidades de imagens especializados em cenários controlados para aquisição das imagens e focados em problemas em aberto dos seguintes assuntos: biometria ocular da face humana; vivacidade de imagens faciais; reconhecimento da informação textual em documentos, em especial com apoio de vocabulário da língua portuguesa.

Produtos / Resultados Esperados

O projeto tem três linhas de trabalho todas focadas em cenários controlados para aquisição das imagens, duas com similaridades (envolvendo a região ocular e facial de humanos) e a terceira em outra direção (análise de documentos). Todas estas linhas estão focadas em ambientes controlados para aquisição de imagens e contam com um grande diferencial em termos de escalabilidade, poderemos estudar os algoritmos utilizando grandes bases de dados reais contando com até 100 milhões de indivíduos.

A primeira linha de pesquisa se preocupa em projetar novas e melhores técnicas para usar a região ocular como biometria. Motivados pelo uso de máscara, devido à pandemia, que omite diversas partes da face, mas deixam a região ocular visível, planejamos estudar e destacar as sub-regiões na vizinhança dos olhos que ajudem a melhor distinguir os humanos. Também planejamos estudar a fusão de outras características, como idade e sexo (soft biometrics), baseadas na própria região ocular, usando uma abordagem multitarefa para elevar a acurácia das metodologias a serem propostas. Ainda, um objetivo particular nesta linha é investigar o comportamento de diversos algoritmos em cenários de larga escala e de aprendizado incrementado / on-line.

A segunda linha se debruça sobre a análise da vivacidade das imagens, isto é, se a imagem apresentada a um sistema de verificação de identidade é de fato real ou fake (fraude). Os objetivos particulares aqui são: estudar a vasta literatura de vivacidade em imagens de face; projetar algoritmos que sejam robustos lidando com pequena quantidade de amostras por indivíduo (até 5 imagens) em galerias de milhões de indivíduos; combinar estes algoritmos visando melhorar a acurácia do sistema desenvolvido pagando preço de mais poder computacional.

A última linha está interessada no reconhecimento da informação textual de documentos oficiais, tais como R.G., C.N.H., bem como documentos diversos mas bem frequentes na análise de documentos como contas de água, luz, etc. São diversos objetivos nesta linha: a partir de uma massa de dados nunca disponível para a comunidade científica (milhões de documentos), aprender modelos capazes de detectar, segmentar e reconhecer a informação textual em um único passo (abordagem end-to-end); elaborar métodos mais complexos para detectar e então retificar os campos textuais identificados para melhoria da acurácia ao custo de mais poder computacional; aperfeiçoar o reconhecimento obtido usando vocabulário da língua portuguesa e a probabilidade prévia dos caracteres que compõem as palavras;

A finalidade principal da metodologia proposta é a de identificar por meio de experimentos e suas análises as limitações das abordagens em uso ou em estudo. A partir deste estudo e com a proposta de novas abordagens para suplantar tais dificuldades, o resultado esperado é o de melhor efetividade dos algoritmos. Mesmo que nesses problemas, muitas vezes a acurácia esteja acima de 95%, um ganho de 1% absoluto representa uma melhoria superior a 20%, e estamos interessados particularmente nestes ganhos que representam uma redução de fraudes aumentando a segurança dos sistemas ou reduzindo a necessidade de trabalho manual pela análise visual de seres humanos.

Ainda, todas as abordagens propostas não podem ser muito mais caras computacionalmente, visto que a execução de tais algoritmos deve ser sempre inferior a alguns décimos de segundo, por instância. Dessa forma, preferimos investir mais tempo computacional no aprendizado de modelos que obtenham efetividade (acurácia/precisão) ligeiramente superiores.

Por fim, também há preocupação com a atualização diária dos modelos que pode reduzir a disponibilidade de um sistema atualizado. Neste sentido, buscaremos também modelos que eventualmente sejam mais lentos e menos precisos, mas que possam ser atualizados instantaneamente ou com um custo computacional muito inferior.

Produtos Entregues

Relatórios trimestrais dos estudos realizados, bem como compartilhamento de código utilizado nos estudos com a único para realização de experimentos em dados reais na empresa, evitando problemas de privacidade.

Coordenação

Unidades Envolvidas

Partícipes

  • Universidade Federal do Paraná – UFPR
  • Fundação da Universidade Federal do Paraná – FUNPAR
  • Acesso Digital Tecnologia da Informação S.A

Prazos

Início: 31/08/2021
Término: 31/08/2024

Valor 

R$ 1.030.679,40

Fonte de Recursos

Privado

Status

Em andamento

Processo SEI

23075.028321/2021-33 

Instrumentos Vinculados

Contrato 68/2021

Rolar para o topo