quinta-feira, 3 de junho de 2010

Software descreve em texto imagens de câmera de segurança Programa faz comentários para ajudar na busca e na análise de vídeos


Pesquisadores da Universidade da Califórnia, nos Estados Unidos, em conjunto com a empresa americana ObjectVideo, criaram um software chamado I2T (Imagens para texto, em português) que faz uma descrição em texto - e ao vivo - das imagens enviadas por uma câmera de vigilância.

O programa coloca uma série de algoritmos de visão computacional em um sistema que pega imagens ou trechos de vídeos e entrega resumos do que eles representam, revelou a revista científica Technology Review nesta quarta-feira (2).

Segundo o chefe da pesquisa e professor de estatística e ciência da computação, Song-Chu Zhu, “dá pra perceber no You Tube e em outros sites de vídeos que fazer buscas de imagens é uma grande problema”.

Confira também

* Japonês faz mágica com um iPad em Tóquio


* Feira na China mostra novas tecnologias


* Veja mais notícias quentes

Zhu e seu colegas Benjamin Yao e Haifeng Gong dizem que o I2T pretende mudar essa situação. Embora ainda não esteja pronto para uso comercial, o sistema mostra como o software poderia tornar mais fácil fazer buscas em imagens de vídeo ou de coleções de fotos.

Para demonstrar o poder do I2T, os pesquisadores testaram o software em imagens de vigilância.

Zhu explicou que sistemas como esse podem ajudar a lidar com o fato de que existem cada vez mais câmeras de segurança – nas ruas e em equipamentos militares, por exemplo – enquanto o número de pessoas que trabalham com eles continua o mesmo.

A primeira parte do I2T é um analisador que decompõe uma imagem, removendo o fundo e objetos como carros, árvores e pessoas. Alguns objetos podem ser divididos mais tarde: os membros de uma pessoa ou as rodas de um carro podem ser separados do objeto a que pertencem.

Depois, o sistema determina o significado desse conjunto de formas – esta é a fase mais importante do software porque depende do conhecimento humano.

Em 2005, Zhu criou uma organização sem fins lucrativos na China, chamada Lotus Hill, e chamou 20 estudantes de arte para criar uma biblioteca que auxiliasse o sistema de visão por computador. O resultado foi um banco de dados com mais de dois milhões de imagens de objetos identificadas e classificadas em mais de 500 categorias.

Para garantir que os estudantes anotassem as imagens de forma padronizada, o programa orientou o trabalho deles. O software usou algoritmos para ajudá-los a escolher objetos-chave, além de sugerir como podem ser classificados, baseado em dados anteriores.

Os objetos de cada imagem são classificados em uma hierarquia de categorias baseadas no banco de dados da Universidade de Princeton, que organiza as palavras em inglês em grupos, de acordo com seus significado

Nenhum comentário:

Postar um comentário