Como o sistema de visão está avançando a automação atualmente

By Jody Muelaner

O sistema de visão, ou visão de máquina, é um conjunto de tecnologias que dão ao equipamento automatizado (industrial ou não) uma compreensão de alto nível do ambiente imediato a partir de imagens. Sem o software do sistema de visão, as imagens digitais não seriam nada mais do que simples coleções de píxeis sem conexão, com vários valores de cor e intensidades de tons para tais equipamentos. O sistema de visão permite que computadores (normalmente conectados a controles de máquinas) detectem bordas e formas dentro de tais imagens para, por sua vez, permitir que rotinas de processamento de nível mais alto identifiquem objetos de interesse pré-definidos. As imagens neste sentido não estão necessariamente limitadas a imagens fotográficas no espectro visível; elas também podem incluir imagens obtidas usando sinais infravermelhos, laser, raio-X e ultrassom.

Imagem do uso do sistema de visão para aplicações robóticas mais sofisticadasFigura 1: O uso do sistema de visão para aplicações robóticas mais sofisticadas está em ascensão. (Fonte da imagem: John6863373 | Dreamstime.com)

Uma aplicação bastante comum da visão de máquina em ambientes industriais é identificar uma peça específica em um recipiente contendo uma mistura de peças dispostas aleatoriamente. Aqui, o sistema de visão pode ajudar os robôs a pegar e colocar automaticamente a peça certa. Naturalmente, reconhecer tais peças com resposta de imagens seria relativamente simples se todas elas estivessem dispostas e orientadas da mesma maneira em uma bandeja. Entretanto, os robustos algoritmos de sistema de visão podem reconhecer objetos a diferentes distâncias da câmera (e, portanto, aparecendo como tamanhos diferentes no sensor de imagem), bem como em diferentes orientações.

Os sistemas de visão de máquinas mais sofisticadas permitiram projetos novos e emergentes muito mais sofisticados que a coleta de lixo — talvez não mais reconhecíveis do que em veículos autônomos, por exemplo.

Imagem do sistema de visão que dá a compreensão de alto nível de um ambienteFigura 2: O sistema de visão dá aos sistemas (industriais ou não) uma compreensão de alto nível de um ambiente a partir das imagens. (Fonte da imagem: Wikimedia)

Tecnologias relacionadas ao sistema de visão

O termo sistema de visão é às vezes reservado para fazer referência a métodos matemáticos mais estabelecidos e eficientes de extração de informações de imagens. Em contraste, o termo visão computacional tipicamente descreve sistemas mais modernos e computacionalmente exigentes — incluindo abordagens de caixa preta usando aprendizagem de máquina ou inteligência artificial (IA). Entretanto, o sistema de visão também pode servir como um termo que engloba todos os métodos de extração de informações de alto nível a partir de imagens; neste contexto, a visão computacional descreve suas teorias subjacentes de operação.

As tecnologias para extrair o significado de alto nível das imagens são abundantes. Dentro da comunidade de pesquisa, tais tecnologias são frequentemente consideradas como distintas do sistema de visão. No entanto, em um sentido prático, todas são formas diferentes de alcançar o sistema de visão... e em muitos casos, elas se sobrepõem.

O processamento digital de imagens é uma forma de processamento de sinais digitais que envolve aprimoramento, restauração, codificação e compressão de imagens. As vantagens sobre o processamento analógico de imagens incluem a minimização de ruídos e distorções, assim como a disponibilidade de muito mais algoritmos. Um dos primeiros usos para aprimorar imagens foi a correção das primeiras imagens da superfície lunar de curto alcance. Isto utilizou o mapeamento fotogramétrico, bem como filtros de ruído e correções para distorções geométricas decorrentes do alinhamento da câmera de imagem com a superfície lunar.

Imagem do controlador de circuito integrado (CI) DLPC350 da Texas InstrumentsFigura 3: O controlador do circuito integrado (CI) DLPC350 fornece sinais de disparo de entrada e saída para sincronizar os padrões exibidos com uma câmera. Funciona com dispositivos digitais de microespelhos (DMDs) projetados para transmitir o sistema de visão 3D a equipamentos industriais, médicos e de segurança. De fato, as aplicações incluem varredura 3D, bem como sistemas de metrologia. (Fonte da imagem: Texas Instruments)

O aprimoramento de imagens digitais muitas vezes envolve o aumento do contraste e pode também fazer correções geométricas para o ângulo de visão e distorção da lente. A compressão é normalmente obtida pela aproximação de um sinal complexo a uma combinação de funções cosseno — um tipo de transformada de Fourier conhecida como transformada discreta de cosseno ou DCT. O formato de arquivo JPEG é a aplicação mais popular do DCT. A restauração de imagens também pode usar transformadas de Fourier para remover ruídos e borrões.

A fotogrametria emprega algum tipo de identificação de características para extrair medidas das imagens. Estas medidas podem incluir informações 3D, quando várias imagens da mesma cena foram obtidas de posições diferentes. Os sistemas de fotogrametria mais simples medem a distância entre dois pontos de uma imagem empregando uma escala. A inclusão de uma referência de escala conhecida na imagem é normalmente necessária para este fim.

A detecção de características permite aos computadores identificar bordas e cantos ou pontos em uma imagem. Este é um primeiro passo necessário para a fotogrametria, bem como para a identificação de objetos e movimentos. A detecção de blob pode identificar regiões com bordas que são muito suaves para a detecção de bordas ou cantos.

O reconhecimento de padrões é usado para identificar objetos específicos. Em sua maior simplicidade, isto pode significar a procura de uma parte mecânica específica bem definida em um transportador.

A reconstrução 3D determina a forma 3D dos objetos a partir de imagens 2D. Ela pode ser alcançada por métodos fotogramétricos nos quais a altura das características comuns (identificadas nas imagens sob diferentes pontos de observação) são determinadas por triangulação. A reconstrução 3D também é possível usando uma única imagem 2D; aqui, o software interpreta (entre outras coisas) as relações geométricas entre bordas ou regiões de sombreamento.

Imagem de scanners 3D que capturam imagens 2D de um objetoFigura 4: Os scanners 3D capturam imagens 2D de um objeto para criar um modelo 3D dele. Em alguns casos, os modelos digitais são então empregados para cópias impressas em 3D. (Fonte da imagem: Shenzhen Creality 3D Technology Co.)

Um humano pode reconstruir mentalmente um cubo a partir de uma simples representação do contorno do desenho com facilidade — e uma esfera a partir de um círculo sombreado. O sombreamento dá uma indicação das inclinações das superfícies. Entretanto, o processo de tal dedução é mais complicado do que parece, pois o sombreamento é um parâmetro unidimensional enquanto a inclinação ocorre em duas dimensões. Isto pode levar a ambiguidades — um fato demonstrado pela arte que retrata objetos fisicamente impossíveis.

Imagem de determinação computadorizada da forma 3D de uma peça de trabalho a partir de uma imagem 2DFigura 5: A determinação computadorizada da forma 3D de uma peça de trabalho a partir de uma imagem 2D está repleta de desafios.

Como as tarefas do sistema de visão são ordenadas

Muitos sistemas de visão da máquina combinam progressivamente as técnicas acima, começando com operações de baixo nível e depois avançando uma a uma para operações de nível mais alto. No nível mais baixo, todos os píxeis de uma imagem são mantidos como dados de largura de banda alta. Então, cada operação na sequência identifica características de imagem e representa informações de interesse com quantidades relativamente pequenas de dados.

As operações de baixo nível de aprimoramento e restauração da imagem vêm em primeiro lugar, seguidas pela detecção de características. Onde múltiplos sensores são usados, as operações de baixo nível podem, portanto, ser realizadas por processos distribuídos dedicados a sensores individuais. Uma vez detectadas as características em imagens individuais, podem ocorrer medições fotogramétricas de nível mais alto — assim como qualquer identificação de objeto ou outras tarefas que dependam dos dados combinados de várias imagens e sensores.

Computações diretas e algoritmos de aprendizagem

Uma computação direta no contexto do sistema de visão é um conjunto de funções matemáticas que são definidas manualmente por um programador humano. Estas aceitam entradas tais como valores de píxeis de imagem para produzir saídas tais como as coordenadas das bordas de um objeto. Em contraste, os algoritmos de aprendizagem não são escritos diretamente por humanos, mas são treinados através de conjuntos de dados de exemplo que associam entradas com saídas desejadas. Eles, portanto, funcionam como caixas pretas. A maior parte desse aprendizado de máquina agora emprega um aprendizado profundo baseado em redes neurais artificiais para fazer seus cálculos.

Imagem dos sensores de imagem Banner Engineering da série iVuFigura 6: Os sensores de imagem da série iVu podem identificar as peças por tipo, tamanho, localização, orientação e coloração. Os componentes do sistema de visão podem aceitar configuração e monitoramento de uma tela integrada, IHM remota ou PC. Câmera, controlador, lente e luz são todos pré-integrados. (Fonte da imagem: Banner Engineering Corp.)

O aprendizado simples de máquinas para aplicações industriais é muitas vezes mais confiável e menos exigente em termos computacionais se baseado em computação direta. Naturalmente, há limites para o que pode ser alcançado com a computação direta. Por exemplo, nunca poderia esperar executar o reconhecimento avançado de padrões necessários para identificar indivíduos pelas faces, especialmente não a partir de uma transmissão de vídeo de um espaço público lotado. Em contraste, a aprendizagem da máquina trata habilmente tais aplicações. Não é de se admirar, então, que a aprendizagem de máquinas esteja sendo cada vez mais utilizada para operações do sistema de visão de nível mais baixo, incluindo aprimoramento, restauração e detecção de características de imagens.

Melhorando as abordagens de ensino (não algoritmos)

O amadurecimento da tecnologia de aprendizagem profunda tornou evidente que não são os próprios algoritmos de aprendizagem que precisam ser aperfeiçoados, mas a forma como são treinados. Uma dessas melhores rotinas de treinamento é chamada visão computacional centrada em dados. Aqui, o sistema de aprendizagem profunda aceita conjuntos de treinamento muito grandes feitos de milhares, milhões, ou mesmo bilhões de imagens — e então armazena as informações resultantes de seus algoritmos extraídos de cada imagem. Os algoritmos aprendem efetivamente através da prática de exemplos trabalhados e depois se referem a um "livro de respostas" para verificar se chegaram aos valores certos.

Uma velha história sobre os primórdios do reconhecimento de padrões digitais serve como um conto de advertência. O exército dos EUA pretendia utilizar o sistema de visão para o reconhecimento de alvos, e as demonstrações de defesa-contratantes identificaram de forma confiável os tanques fabricados nos EUA e os fabricados na Rússia. Diversos tanques foram todos corretamente diferenciados das fotografias aéreas do fornecedor, um após o outro. Mas quando testado novamente com a biblioteca de imagens pertencentes ao Pentágono, o sistema passou a dar respostas erradas. O problema era que as imagens do contratante de defesa retratavam todos os tanques dos EUA em desertos e tanques russos em campos verdes. Longe de reconhecer tanques diferentes, o sistema estava, em vez disso, reconhecendo fundos de cores diferentes. A moral? Os algoritmos de aprendizagem precisam ser apresentados com dados de treinamento cuidadosamente curados para serem úteis.

Conclusão: uma visão para a segurança da célula de trabalho robótico

O sistema de visão não é mais uma tecnologia de nicho. Estamos vendo um maior aumento na implantação em aplicações industriais. Aqui, o desenvolvimento mais dramático é como o sistema de visão agora complementa os sistemas de segurança da planta industrial que soam alarmes ou emitem anúncios sonoros quando o pessoal da planta entra numa área de trabalho sem um capacete, máscara ou outro equipamento de proteção correto. O sistema de visão também pode completar sistemas que anunciam quando máquinas móveis, tais como empilhadeiras, se aproximam demais das pessoas.

Estes e outros sistemas similares de visão de máquina podem, às vezes, substituir a proteção rígida em torno de robôs industriais para permitir operações mais eficientes. Eles também podem substituir ou melhorar os sistemas de segurança baseados em proteções brandas que simplesmente param as máquinas se um trabalhador da fábrica entrar em uma célula de trabalho. Quando o sistema de visão monitora o chão de fábrica ao redor da célula de trabalho, é possível que os robôs em tais células diminuam gradualmente à medida que as pessoas se aproximam.

À medida que os projetos de ambientes industriais evoluem para acomodar robôs colaborativos e outros equipamentos de célula de trabalho que são seguros para que o pessoal da fábrica se movimente (mesmo enquanto esse equipamento operar), esses e outros sistemas baseados no sistema de visão se tornarão uma parte muito mais comum dos processos da fábrica.

Disclaimer: The opinions, beliefs, and viewpoints expressed by the various authors and/or forum participants on this website do not necessarily reflect the opinions, beliefs, and viewpoints of DigiKey or official policies of DigiKey.

About this author

Image of Dr. Jody Muelaner

Jody Muelaner

Dr. Jody Muelaner is an engineer who has designed sawmills and medical devices; addressed uncertainty in aerospace manufacturing systems; and created innovative laser instruments. He has published in numerous peer-reviewed journals and government summaries … and has written technical reports for Rolls-Royce, SAE International, and Airbus. He currently leads a project to develop a e-bike detailed at betterbicycles.org. Muelaner also covers developments related to decarbonization technologies.