Informação profissional para a indústria metalomecânica portuguesa
Reconhecimento ótico de caracteres e visão artificial

Deep Learning eleva a leitura de OCR a outro nível

19/04/2022
O reconhecimento ótico de caracteres (OCR) desempenha um papel importante na identificação de objetos nos processos industriais e logísticos.

Em ambientes industriais, um software de OCR deve ser capaz de ler códigos numéricos ou letras com precisão, mesmo nas condições mais adversas, para identificar claramente os objetos. É essencial que o software possa identificar de forma fiável os caracteres mais complexos, distorcidos, apagados, fora de foco ou distorcidos, mesmo em superfícies altamente refletivas. Atualmente, esses requisitos muito exigentes podem ser cumpridos com as mais recentes tecnologias em visão artificial.

Imagen

Leitura de OCR baseada em Deep Learning

O Deep Learning é uma tecnologia especialmente indicada para resolver aplicações de OCR. Através de treino exaustivo baseado em grandes volumes de dados de imagem, os algoritmos do software aprendem de forma independente a reconhecer de forma fiável uma ampla variedade de caracteres sob uma grande variedade de condições. Os classificadores OCR garantem que possa ser lida uma ampla variedade de fontes pré-treinadas com precisão.

No entanto, as tecnologias tradicionais de OCR baseadas em regras apresentam alguns inconvenientes. Por exemplo, existem vários parâmetros a que a segmentação de letras individuais deve ser adaptada, consoante a aplicação. As letras identificadas são lidas individualmente e devem ser atribuídas a palavras específicas. Essa não é uma tarefa fácil se não se conhecer o contexto do texto a ser lido, e é por isso que as soluções convencionais não oferecem os mesmos resultados que se conseguem com a IA.

Deep OCR: reconhecimento ótico de caracteres, independentemente do tipo de fonte e da orientação

Com o Deep OCR, uma função integrada no software padrão de visão artificial Halcon, já não é necessário segmentar caracteres individuais.

A tecnologia utiliza duas redes de Deep Learning previamente treinadas: uma é usada para encontrar palavras inteiras em vez de letras individuais na imagem. Em resultado disso, a posição exata da respetiva palavra é marcada com um retângulo delimitador (caixa delimitadora). Por outro lado, a segunda rede é treinada especificamente para ler a palavra. A principal diferença dos métodos convencionais é que ambas as etapas de reconhecimento de caracteres, ou seja, encontrar e ler as palavras, são baseadas em algoritmos de Deep Learning e leem-se palavras inteiras em vez de letras individuais.

A grande vantagem desta dupla abordagem é que apenas alguns parâmetros precisam de ser adaptados à aplicação em questão. Por exemplo, a tecnologia funciona com total independência do tipo de fonte, tanto com números impressos em pontos, itálicos ou perfurados. A orientação e alinhamento do texto na imagem e na polaridade, ou seja, se os caracteres pretos estiverem sobre fundo branco ou vice-versa, não influenciam os resultados. Isto deve-se ao facto de a rede já ter sido treinada relativamente a esses parâmetros, pelo que não há necessidade de fazer os ajustes correspondentes manualmente. As duas redes também podem ser usadas independentemente uma da outra. Isto faz sentido, por exemplo, se a posição exata da respetiva palavra na imagem já for conhecida.

Portanto, o Deep Learning pode ser usado exclusivamente para ler o texto, o que economiza uma grande capacidade de computação. Isto é muito importante se o Deep OCR for executado em hardware de baixo desempenho. Se a localização de texto puder ser ignorada devido a informações prévias, pode conseguir-se um tempo de execução de cerca de 10 ms numa CPU padrão. Numa GPU de gama média, o tempo de execução pode ser de apenas 5 ms, o que é muito rápido para uma aplicação de Deep Learning.

REVISTAS

norelemSiga-nosWalter Tools Ibérica, S.A.U.

Media Partners

NEWSLETTERS

  • Newsletter InterMetal

    17/04/2024

  • Newsletter InterMetal

    10/04/2024

Subscrever gratuitamente a Newsletter semanal - Ver exemplo

Password

Marcar todos

Autorizo o envio de newsletters e informações de interempresas.net

Autorizo o envio de comunicações de terceiros via interempresas.net

Li e aceito as condições do Aviso legal e da Política de Proteção de Dados

Responsable: Interempresas Media, S.L.U. Finalidades: Assinatura da(s) nossa(s) newsletter(s). Gerenciamento de contas de usuários. Envio de e-mails relacionados a ele ou relacionados a interesses semelhantes ou associados.Conservação: durante o relacionamento com você, ou enquanto for necessário para realizar os propósitos especificados. Atribuição: Os dados podem ser transferidos para outras empresas do grupo por motivos de gestão interna. Derechos: Acceso, rectificación, oposición, supresión, portabilidad, limitación del tratatamiento y decisiones automatizadas: entre em contato com nosso DPO. Si considera que el tratamiento no se ajusta a la normativa vigente, puede presentar reclamación ante la AEPD. Mais informação: Política de Proteção de Dados

www.intermetal.pt

InterMETAL - Informação profissional para a indústria metalomecânica portuguesa

Estatuto Editorial