Visão computacional – Wikipédia, a enciclopédia livre

Visão computacional é a ciência e tecnologia das máquinas que enxergam. Ela desenvolve teoria e tecnologia para a construção de sistemas artificiais que obtém informação de imagens ou quaisquer dados multidimensionais. Exemplos de aplicações incluem o controle de processos (como robôs industriais ou veículos autônomos), detecção de eventos, organização de informação, modelagem de objetos ou ambientes e interação (atrelado a interação humano-computador).

A visão computacional também pode ser descrita como um complemento da visão biológica. Na visão biológica, a percepção visual dos humanos e outros animais é estudada, resultando em modelos em como tais sistemas operam em termos de processos fisiológicos. Por outro lado, a visão computacional estuda e descreve sistemas de visão artificial implementados por hardware ou software.

Sub campos de pesquisa incluem reconstrução de cena, detecção de eventos, reconhecimento de objetos, aprendizagem de máquina e restauração de imagens.

Estado da arte

[editar | editar código-fonte]

O campo de visão computacional pode ser caracterizado como imaturo e diverso. Apesar de existirem trabalhos já reconhecidos, somente após o final da década de 1970 que começaram estudos aprofundados, quando os computadores já podiam processar grandes conjuntos de dados como imagens. Entretanto, tais estudos foram geralmente originados de outros campos de pesquisa, e, consequentemente, não existe uma formulação padrão para o problema de visão computacional, assim como não existe uma formulação padrão de como os problemas de visão computacionais devem ser resolvidos. O que existem atualmente são diversos métodos para resolver várias tarefas bem definidas, no qual os métodos são bastante especializados e raramente podem ser generalizados para várias aplicações. Na maioria das aplicações de visão computacional, os computadores são pré-programados para resolver uma tarefa particular, mas métodos baseados em aprendizagem estão se tornando cada vez mais comuns.

Uma parte significativa da inteligência artificial lida com sistemas que realizam ações mecânicas como movimentar um robô em um ambiente. Esse tipo de processamento necessita de um sistema de visão computacional, que age como um sensor de visão, fornecendo informações de alto nível sobre o ambiente ao robô. Outras áreas da inteligência artificial relacionadas com a visão computacional são o reconhecimento de padrões e a aprendizagem de máquina. Como consequência, a visão computacional é por vezes vista como parte da inteligência artificial ou da ciência da computação de modo geral.

Física é outro campo relacionado. Grande parte da visão computacional lida com métodos que requerem o entendimento dos processos no qual a radiação eletromagnética, tipicamente na camada visível ou infravermelha, é refletida pelas superfícies dos objetos e capturada pelos sensores para formar a imagem. Esse processo é baseado na óptica e na física dos estados sólidos. Sensores de imagem mais sofisticados requerem também a física quântica para fornecer uma compreensão completa do processo de formação da imagem. Também, vários problemas como o movimento de fluidos podem ser resolvidos com a visão computacional, o que a torna também uma extensão da física.

Um terceiro campo relacionado é a neurobiologia, especificamente o estudo de sistemas biológicos de visão. Durante o século XX houve vários estudos extensos sobre as estruturas do olho, neurônios e do cérebro, devotados ao processo de estimulação visual tanto nos humanos quanto em vários outros animais. Isso levou a uma descrição bastante rica e complexa de como a visão biológica opera para resolver algumas tarefas de visão. Os resultados foram usados para o enriquecimento dos estudos sobre a imitação dos sistemas biológicos, em diferentes níveis de complexidade.

Outro campo relacionado com a visão computacional é o processamento de sinais. Vários métodos de processamento de sinais univariáveis, geralmente relacionados ao tempo, podem ser estendidos ao processamento de sinais com duas ou várias variáveis.

Além dos campos de pesquisa anteriores, vários outros tópicos também são estudados na visão computacional, tais como estatística, otimização e geometria computacional.

Exemplos de aplicações

[editar | editar código-fonte]

Uma das mais difundidas aplicações da visão computacional é a Medicina, ou o processamento médico da imagens. Tal área é caracterizada pela extração de informação de imagens para realizar diagnósticos sobre os pacientes. Fontes de imagens incluem imagens de microscopia, de radiografia, de angioplastia, de ultrassonografia, de tomografia e de ressonância magnética.

Outra aplicação bastante difundida é a indústria. Aqui, a informação obtida auxilia processos como a inspeção de controle de qualidade e cálculo de posição e orientação de detalhes para um braço robótico por exemplo.

As aplicações militares são talvez uma das maiores da visão computacional, ainda que apenas uma pequena parte desse trabalho esteja disponível ao público. Exemplos básicos incluem a detecção de unidades inimigas e ou mísseis tele-guiados. Sistemas mais avançados enviam mísseis para uma área ao invés de um alvo específico, sendo que a seleção do alvo é feita no processamento da imagem do local feita pelo próprio míssil.

Concepção artística da Mars Exploration Rover em Marte, exemplo de um veículo não tripulado em terra. Notar as câmeras duplas no topo do equipamento.

Uma das novas aplicações são os veículos autônomos, cujo nível de autonomia varia entre total ou parcial, este último usado para somente auxiliar a tarefa de dirigir em situações diversas. A autonomia total usa a visão computacional para a navegação, isto é, para obter a localização, para produzir mapas do ambiente e para detectar obstáculos. Várias montadoras já demonstraram veículos totalmente autônomos, mas tal tecnologia ainda não atingiu maturidade suficiente para estar no mercado. A exploração espacial também está usando veículos autônomos usando a visão computacional, como por exemplo a Mars Exploration Rover da NASA.

Tarefas típicas

[editar | editar código-fonte]

Cada uma das áreas de aplicação descritas abaixo utilizam um conjunto de tarefas de visão computacional.

Reconhecimento

O problema clássico da visão computacional e do processamento de imagens é determinar se uma imagem contém ou não um dado objeto, uma dada característica ou uma dada atividade. Tal tarefa pode ser resolvida de forma robusta e sem esforço humano, mas ainda não foi resolvida satisfatoriamente para o caso geral, objetos arbitrários em situações arbitrárias. Os métodos atuais conseguem, no máximo, resolver para objetos específicos, como poliedros, faces humanas, letras escritas à mão ou veículos; também em situações específicas, como iluminação bem definida, fundo fixo e pose dos objetos bem definida.

Diferentes variedade de problemas de reconhecimento são descritos na literatura:

  • Reconhecimento: uma ou várias classes pré-definidas ou aprendidas de objetos podem ser reconhecidas, geralmente em conjunto com sua posição em imagens bidimensionais ou com sua pose em imagens tridimensionais. As predições de um modelo de visão computacional, atualmente são realizadas utilizando um percentual de identificação, o que provoca a não identificação do objeto em questão quando utilizado uma imagem com baixa similaridade em comparação com o conjunto de imagens do treinamento. [1]
  • Identificação: uma instância individual de um objeto pode ser reconhecida, como a identificação de uma face ou de impressão digital, ou até mesmo a identificação de um veículo.
  • Detecção: a imagem é digitalizada para uma condição específica, como a detecção de células ou tecidos anormais.
Movimento

Várias tarefas estão relacionadas a estimativa do movimento, no qual uma sequência de imagens é processada para produzir uma estimativa da velocidade em cada ponto.

Reconstrução de cena

Dadas duas ou mais imagens de uma cena, ou um vídeo, a reconstrução de cena visa computar um modelo tridimensional da cena. No caso mais simples, o modelo consiste somente em um conjunto de pontos tridimensionais; métodos mais sofisticados reconstroem também texturas e cores.

Restauração de imagens

O objetivo da restauração de imagens é a remoção de ruídos.

Sistemas de visão computacional

[editar | editar código-fonte]

A organização de um sistema de visão computacional é dependente da aplicação. A implementação específica de tal sistema depende também se sua funcionalidade é pré especificada ou se existe alguma parte de aprendizagem durante a operação. Existem, entretanto, funções típicas encontradas vários sistemas de visão computacional:

  • Aquisição de imagem: uma imagem digital é produzida por um ou vários sensores. Dependendo do tipo do sensor, o resultado pode variar entre uma imagem bidimensional, uma cena tridimensional ou ainda uma sequência de imagens. Os valores dos pixels geralmente indicam a intensidade da luz em uma ou várias faixas de cor (o que forma imagens em tom de cinza ou coloridas), mas também podem indicar valores físicos como profundidade e absorção ou reflexão das ondas eletromagnéticas.
  • Pré-processamento: antes de um método de visão computacional ser aplicado em uma imagem para extrair informação, é geralmente necessário processar a imagem para assegurar-se que ela satisfaz as condições do método. Exemplos incluem remapeamento (para assegurar o sistema de coordenadas), redução de ruídos (para assegurar que as informações são verdadeiras) e aumento de contraste (para assegurar que as informações relevantes serão detectadas).
  • Extração de características: características matemáticas da imagem em vários níveis de complexidade são extraídos. Exemplos básicos incluem detecção de bordas, cantos ou pontos. Exemplo sofisticados incluem a morfologia matemática, detecção de texturas, formatos e movimentos.
  • Detecção e segmentação: em algum ponto do processo uma decisão é feita sobre a relevância de regiões da imagem para processamento posterior. Exemplos incluem a seleção de regiões de interesse específicos e segmentação de uma ou mais regiões que contém um objeto de interesse.
  • Processamento de alto nível: neste ponto a entrada é geralmente um conjunto pequeno de dados. O processo posterior inclui a verificação da satisfação dos dados, a estimativa de parâmetros sobre a imagem e a classificação dos objetos detectados em diferentes categorias.
  1. Chaves, Laís E. (30 de novembro de 2022). «Visão Computacional: O que é e como funciona?». Engenharia Híbrida. Consultado em 5 de agosto de 2024 

Ligações externas

[editar | editar código-fonte]

Enciclopédia de Visão Artificial (em Português e Espanhol)

Leitura adicional

[editar | editar código-fonte]
  • E. R. Davies (2005). Machine Vision : Theory, Algorithms, Practicalities. [S.l.]: Morgan Kaufmann. ISBN 0-12-206093-8 
  • Olivier Faugeras (1993). Three-Dimensional Computer Vision, A Geometric Viewpoint. [S.l.]: MIT Press. ISBN 0-262-06158-9 
  • R. Fisher, K Dawson-Howe, A. Fitzgibbon, C. Robertson, E. Trucco (2005). Dictionary of Computer Vision and Image Processing. [S.l.]: John Wiley. ISBN 0-470-01526-8 
  • David A. Forsyth e Jean Ponce (2003). Computer Vision, A Modern Approach. [S.l.]: Prentice Hall. ISBN 0-12-379777-2 
  • Gösta H. Granlund e Hans Knutsson (1995). Signal Processing for Computer Vision. [S.l.]: Kluwer Academic Publisher. ISBN 0-7923-9530-1 
  • Richard Hartley e Andrew Zisserman (2003). Multiple View Geometry in computer vision. [S.l.]: Cambridge University Press. ISBN 0-521-54051-8 
  • Berthold Klaus Paul Horn (1986). Robot Vision. [S.l.]: MIT Press. ISBN 0-262-08159-8 
  • Bernd Jähne e Horst Haußecker (2000). Computer Vision and Applications, A Guide for Students and Practitioners. [S.l.]: Academic Press. ISBN 0-13-085198-1 
  • Bernd Jähne (2002). Digital Image Processing. [S.l.]: Springer. ISBN 3-540-67754-2 
  • Reinhard Klette, Karsten Schluens e Andreas Koschan (1998). Computer Vision - Three-Dimensional Data from Images. [S.l.]: Springer, Singapore. ISBN 981-3083-71-9 
  • Tony Lindeberg (1994). Scale-Space Theory in Computer Vision. [S.l.]: Springer. ISBN 0-7923-9418-6 
  • Gérard Medioni e Sing Bing Kang (2004). Emerging Topics in Computer Vision. [S.l.]: Prentice Hall. ISBN 0-13-101366-1 
  • Tim Morris (2004). Computer Vision and Image Processing. [S.l.]: Palgrave Macmillan. ISBN 0-333-99451-5 
  • Azriel Rosenfeld e Avinash Kak (1982). Digital Picture Processing. [S.l.]: Academic Press. ISBN 0-12-597301-2 
  • Linda G. Shapiro e George C. Stockman (2001). Computer Vision. [S.l.]: Prentice Hall. ISBN 0-13-030796-3 
  • Milan Sonka, Vaclav Hlavac e Roger Boyle (1999). Image Processing, Analysis, and Machine Vision. [S.l.]: PWS Publishing. ISBN 0-534-95393-X 
  • Emanuele Trucco e Alessandro Verri (1998). Introductory Techniques for 3-D Computer Vision. [S.l.]: Prentice Hall. ISBN 0132611082