Les systèmes de vision artificielle font de plus en plus appel aux technologies d'apprentissage automatique, d'apprentissage profond et de réseau neuronal. La signification de ces termes n'est pas toujours claire pour tout le monde. Cependant, ne faites pas l'erreur de considérer ces technologies comme la solution à tout problème de vision. Il est préférable de connaître les limites pour pouvoir utiliser ces technologies de la meilleure façon possible.
par Fabio Rosi
L'intelligence artificielle dans les systèmes de vision
Je commencerais par expliquer brièvement les termes et les principes de fonctionnement. Je commencerai par dire que ce qui suit est une grande simplification de cette science complexe, avec des termes qui ne sont pas toujours scientifiquement appropriés.
Apprentissage machine, apprentissage profond et réseaux de neurones font tous partie de la grande famille desIntelligence artificielle.
Le Apprentissage automatique (en italien Apprentissage automatique) sont un ensemble d'algorithmes permettant d'apprendre des informations et de générer des décisions à partir d'un ensemble de données d'apprentissage sans utiliser de modèles mathématiques ou statistiques prédéterminés.
En pratique, dans les systèmes de vision artificielle utilisant l'apprentissage machine, on fournit généralement à l'algorithme une série d'images de défauts afin qu'ils soient reconnus comme tels par la suite.
Cette action est appelée Apprentissage supervisé et c'est le type d'apprentissage le plus utilisé dans les systèmes de vision artificielle de ce type. Les données d'apprentissage d'entrée (les images des défauts et les informations relatives à leur caractérisation) sont sélectionnées manuellement, c'est-à-dire supervisées. Toutes ces informations sont "digérées" par l'algorithme de telle sorte qu'il identifie une règle générale qui lui permet de trouver les défauts catalogués dans les images qu'il verra de temps en temps.
Une sorte de boîte magique qui apprend des images de défauts et fournit un jugement sur l'image que vous voyez à ce moment.
Dans notre boîte magique se trouvent quelques réseaux de neuronesc'est-à-dire des algorithmes capables d'apprendre, un peu comme l'esprit humain. En 2019, pas moins de 29 types de réseaux de neurones5 d'entre eux sont définis comme Profondément. La principale différence entre un réseau neuronal simple et un réseau neuronal profond est dans le nombre de couches intermédiaires cachées. Le réseau neuronal simple ne comporte qu'une seule couche intermédiaire, contrairement au réseau neuronal profond qui en comporte plusieurs, chaque couche correspondant à un niveau différent d'abstraction du "raisonnement".
Le Apprentissage approfondiL'élaboration de l'information par un réseau neuronal profond donne des résultats souvent plus fiables que ceux d'un réseau neuronal monocouche.
Avantages et inconvénients de l'apprentissage automatique dans les systèmes de vision artificielle
L'apprentissage machine et l'apprentissage approfondi sont deux mots qui ont été beaucoup utilisés ces derniers temps dans l'environnement de l'industrie 4.0. Indépendamment des aspects "à la mode" des deux termes, nous devrions comprendre si ces technologies peuvent être utilisées de manière rentable.
La réponse à cette question dépend du type d'application du système de vision.
Examinons les principaux avantages.
- La simplicité de la mise en œuvre au niveau opérationnel est le principal avantage. En fait, il suffit d'insérer les images des défauts à chaque fois qu'ils se produisent.
- Après un apprentissage remarquable, le réseau "profond" permet d'avoir des résultats assez précis même dans des conditions de bruit d'information, ce qui dans le cas des systèmes de vision par ordinateur signifie des réflexions, des pièces sales, des variations de lumière de l'environnement, etc.
- Toujours après un apprentissage formé par de nombreux cas, l'"apprentissage profond" est capable de reconnaître un défaut généralisé même sans avoir préalablement acquis l'échantillon.
Examinons maintenant les inconvénients.
- Ce que nous appelions auparavant la "boîte magique", c'est de l'argot pour Boîte noire. Le problème de la boîte noire réside dans le fait qu'elle ne nous permet pas de connaître la règle qui implique le choix entre le bien et le mal. C'est souvent un gros problème qui fait que l'"apprentissage profond" n'est pas très fiable dans de nombreux cas, il est donc préférable de l'utiliser dans des applications où la sécurité du résultat n'est pas requise.
- Pour que la logique de l'apprentissage approfondi fonctionne bien, il faut une quantité importante d'informations. Sur certaines applications, plus de 1000 images sont souvent insuffisantes pour créer une règle suffisamment fiable.
- N'ayant pas de logique objective d'élaboration basée sur un modèle mathématique ou statistique, la seule façon d'assurer une bonne probabilité de reconnaissance du défaut est de fournir au réseau neuronal tous les cas de défaut possibles dans toutes les positions, profondeurs, formes et colorations possibles, et dans certains cas la combinaison de ces informations est gigantesque. Si, en fait, une forme particulière n'est pas cataloguée, il est facile que le système ne la reconnaisse pas. Il peut arriver, par exemple, que d'énormes défauts ne soient pas détectés simplement parce qu'une série de petits ou moyens défauts ont été catalogués.
- Ces logiques ne permettent pas de garantir la fiabilité dans le temps même sur des défauts qui auparavant étaient reconnus comme tels. C'est parce que les logiques neurales n'accumulent pas l'information, mais l'"absorbent", en fait on dit qu'elles "accumulent l'expérience" et non les données. Ainsi, lorsque nous donnons de nouvelles informations, les anciennes ont tendance à être "diluées" dans le processus. Cette "dilution" n'est pas une caractéristique purement négative car elle affine l'apprentissage. Malheureusement, on ne peut cependant pas être sûr de la répétabilité de l'évaluation du système de vision, sauf en bloquant le processus d'apprentissage.
- L'un des principaux problèmes vient du processus d'apprentissage supervisé. En fait, compte tenu de la quantité d'informations à fournir au réseau "profond", l'erreur humaine consistant à fournir une donnée erronée, c'est-à-dire un défaut qui n'est pas un défaut ou vice versa, peut se produire. Le réseau neuronal a la capacité de cacher cette mauvaise acquisition, ce qui rend difficile, voire impossible, la recherche de cette anomalie. Il en résulte une augmentation du manque de fiabilité du système.
- Un apprentissage supervisé suffisant pour faire fonctionner correctement le réseau de neurones a souvent des coûts qui ne justifient pas l'opération, surtout par rapport au degré de fiabilité atteint.
Solution VEA pour l'apprentissage machine dans les systèmes de vision
Des tests effectués chez certains de nos clients ont montré que les technologies d'apprentissage approfondi sont très bonnes car elles sont capables de cataloguer efficacement un bon nombre de défauts, mais elles sont coûteuses à gérer et ne sont pas capables de surmonter le niveau de fiabilité que présentent les algorithmes propriétaires actuels en "logique hybride". En fait, les algorithmes actuels VEA en "logique hybride" sont aujourd'hui plus fonctionnels, plus rapides à mettre en œuvre et surtout plus fiables et contrôlables qu'un réseau neuronal "profond".
Les algorithmes en "logique hybride", développés depuis 2007 par VEA, adoptent déjà un apprentissage supervisé préétabli partiellement basé sur le réseau de neurones, mais en adoptant des logiques statistiques et mathématiques pour renforcer sa stabilité.
Les derniers types de réseaux neuronaux profonds, ainsi que la capacité d'élaboration croissante des processeurs, présentent cependant plusieurs avantages. La solution consiste donc à minimiser les inconvénients.
D'où la technologie propriétaire L'apprentissage machine réglementé. Il s'agit d'un ensemble d'algorithmes hybrides formés par deux ensembles de logique distincts.
Le premier groupe "d'apprentissage" est formé par les logiques d'apprentissage approfondi qui apprennent l'histoire des défauts, en résumant les concepts.
Le second groupe "supervision" est formé par des logiques hybrides capables d'évaluer si le résultat du groupe "apprentissage" est suffisamment fiable, dans le cas contraire les résultats des logiques de "supervision" sont pris comme référence.
L'utilisation complémentaire des deux logiques a donné jusqu'à présent d'excellents résultats sans perdre en fiabilité.
De plus, le niveau d'abstraction des logiques d'apprentissage approfondi est si élevé qu'il permet la construction de "paquets" d'apprentissage pré-constitués, évitant ainsi des sessions d'apprentissage longues et coûteuses aux dépens du client.