Os sistemas de visão mecânica estão fazendo cada vez mais uso das tecnologias Machine Learning, Deep Learning e Neural Network. O significado destes termos nem sempre é claro para todos. Contudo, não cometa o erro de considerar estas tecnologias como a solução para resolver qualquer problema de visão. É melhor conhecer os limites para poder utilizar estas tecnologias da melhor maneira.
por Fabio Rosi
Inteligência artificial em sistemas de visão
Primeiro eu faria uma explicação rápida dos termos e princípios de operação. Prefácio isto dizendo que o que se segue é uma grande simplificação desta ciência complexa, com termos que nem sempre são cientificamente apropriados.
Aprendizagem de Máquina, Aprendizagem Profunda e Redes Neurais fazem todos parte da grande família deInteligência Artificial.
O Aprendizagem de Máquina (em italiano Aprendizagem automática) são um conjunto de algoritmos para aprender informação e gerar decisões a partir de um conjunto de dados de aprendizagem sem utilizar modelos matemáticos ou estatísticos pré-determinados.
Na prática, em sistemas de visão mecânica que utilizam a aprendizagem de máquinas, normalmente fornece ao algoritmo uma série de imagens de defeitos para que estes sejam posteriormente reconhecidos como tal.
Esta ação é chamada de Aprendizagem supervisionada e é o tipo de aprendizagem mais utilizado em sistemas de visão mecânica deste tipo. Os dados de aprendizagem de entrada (as imagens dos defeitos e a informação relacionada com a sua caracterização) são seleccionados manualmente, ou seja, supervisionados. Toda esta informação é "digerida" pelo algoritmo de tal forma que identifica uma regra geral que lhe permite encontrar os defeitos catalogados nas imagens que verá de tempos em tempos.
Uma espécie de caixa mágica que aprende com as imagens das falhas e fornece um julgamento sobre a imagem que você está vendo naquele momento.
Na nossa caixa mágica estão alguns redes neuraisou seja, algoritmos capazes de aprender, um pouco como a mente humana. Em 2019, até 29 tipos básicos de redes neurais5 destes são definidos como Profundo. A principal diferença entre um rede neural simples e um rede neural profunda está no número de camadas intermediárias ocultas. A rede neural simples tem apenas uma camada intermediária, ao contrário da rede neural profunda que tem mais de uma, cada camada corresponde a um nível diferente de abstração do "raciocínio".
O Aprendizagem profundaA elaboração das informações realizadas por uma rede neural profunda, ou seja, a elaboração das informações realizadas por uma rede neural monocamada, dá freqüentemente resultados mais confiáveis do que aqueles realizados por uma rede neural monocamada.
Vantagens e desvantagens da aprendizagem mecânica em sistemas de visão mecânica
Machine Learning e Deep Learning são duas palavras que têm sido muito usadas ultimamente no ambiente da Indústria 4.0. Independentemente dos aspectos "da moda" dos dois termos, devemos compreender se estas tecnologias podem ser utilizadas de forma rentável.
A resposta a esta pergunta depende do tipo de aplicação do sistema de visão.
Vejamos as principais vantagens.
- A simplicidade de implementação a nível operacional é a principal vantagem. Na verdade, é suficiente inserir as imagens dos defeitos cada vez que eles ocorrem.
- Após uma aprendizagem conspícua, a rede "profunda" permite ter resultados bastante precisos mesmo em condições de ruído de informação, o que no caso de sistemas de visão por computador significa reflexos, peças sujas, variação de luz do ambiente, etc.
- Sempre após um aprendizado formado por inúmeros casos, o "aprendizado profundo" é capaz de reconhecer um defeito generalizado também sem ter adquirido previamente a amostra.
Agora vamos olhar para as desvantagens.
- O que antes chamávamos de caixa mágica, é gíria para Caixa Preta. O problema da Caixa Negra reside no facto de não nos permitir conhecer a regra que envolve a escolha entre o bem e o mal. Este é frequentemente um grande problema que torna o "aprendizado profundo" pouco confiável em muitos casos, por isso é preferível usá-lo em aplicações onde a segurança do resultado não é necessária.
- Para que a lógica do Deep Learning funcione bem, você precisa de uma quantidade significativa de informação. Em algumas aplicações, mais de 1000 imagens não são suficientes para criar uma regra suficientemente fiável.
- Não tendo uma lógica objectiva de elaboração baseada num modelo matemático ou estatístico, a única forma de garantir uma boa probabilidade de reconhecimento do defeito é fornecer à rede neural todos os casos possíveis de defeito em todas as posições, profundidades, formas e colorações possíveis, e em alguns casos a combinação destas informações é gigantesca. Se de facto uma determinada forma não está catalogada, é fácil que o sistema não a reconheça. Pode acontecer, por exemplo, que enormes defeitos não sejam detectados simplesmente porque uma série de pequenos ou médios defeitos foram catalogados.
- Estas lógicas não permitem garantir a fiabilidade no tempo, mesmo em defeitos que antes eram reconhecidos como tal. Isto porque a lógica neural não acumula a informação, mas a "absorve", na verdade diz-se que "acumulam a experiência" e não os dados. Assim, à medida que damos novas informações, informações antigas tendem a ser "diluídas" no processo. Esta "diluição" não é uma característica puramente negativa porque aperfeiçoa a aprendizagem. Infelizmente, no entanto, não se pode ter a certeza da repetibilidade da avaliação do sistema de visão a não ser bloqueando o processo de aprendizagem.
- Um dos principais problemas advém do processo de aprendizagem supervisionada. Na verdade, considerando a quantidade de informação a ser fornecida à rede "profunda", o erro humano de fornecer um dado errado, ou seja, um defeito que não é um defeito ou vice-versa, pode acontecer. A rede neural tem a capacidade de esconder esta aquisição errada, tornando difícil, se não impossível, a pesquisa desta anomalia. O resultado é um aumento na falta de confiabilidade do sistema.
- A aprendizagem supervisionada suficiente para que a rede neural funcione adequadamente tem, muitas vezes, custos que não justificam a operação, especialmente em relação ao grau de confiabilidade alcançado.
Solução VEA para Aprendizagem Automática em Sistemas de Visão
Testes realizados em alguns dos nossos clientes mostraram que as tecnologias de Aprendizagem Profunda são muito boas porque são capazes de catalogar eficazmente um bom número de falhas, mas são dispendiosas de gerir e não conseguem ultrapassar o nível de fiabilidade que os actuais algoritmos proprietários da "lógica híbrida" têm. Na verdade, os actuais algoritmos VEA em "lógica híbrida" são hoje mais funcionais, mais rápidos de implementar e acima de tudo mais fiáveis e controláveis do que uma rede neural "profunda".
Algoritmos em "lógica híbrida", desenvolvidos desde 2007 pela VEA, já adotam uma aprendizagem supervisionada pré-definida, parcialmente baseada em rede neural, mas adotando lógicas estatísticas e matemáticas para fortalecer sua estabilidade.
Os últimos tipos de redes neurais profundas, juntamente com a crescente capacidade de elaboração dos processadores, apresentam no entanto várias vantagens. A solução, portanto, é minimizar as desvantagens.
Daí a tecnologia proprietária Aprendizagem por Máquina Regulamentada. É um conjunto de algoritmos híbridos formados por dois conjuntos de lógica distintos.
O primeiro grupo de "aprendizagem" é formado por Lógicas de Aprendizagem Profunda que aprendem a história dos defeitos, abstraindo os conceitos.
O segundo grupo "supervisão" é formado por lógicas híbridas capazes de avaliar se o resultado do grupo "aprendizagem" é suficientemente confiável, no caso oposto os resultados das lógicas de "supervisão" são tomados como referência.
O uso complementar das duas lógicas tem dado até agora excelentes resultados sem perder a confiabilidade.
Além disso, o nível de abstracção da lógica de Aprendizagem Profunda é tão elevado que permite a construção de "pacotes" de aprendizagem pré-constituídos, evitando longas e dispendiosas sessões de aprendizagem às custas do cliente.