Geregeltes maschinelles Lernen

Maschinelles Lernen und Deep Learning in Bildverarbeitungssystemen

Bildverarbeitungssysteme nutzen zunehmend Machine Learning, Deep Learning und Neuronale Netzwerktechnologien. Die Bedeutung dieser Begriffe ist nicht immer für jeden klar. Machen Sie jedoch nicht den Fehler, diese Technologien als die Lösung für jedes Sehproblem zu betrachten. Um diese Technologien optimal nutzen zu können, ist es besser, die Grenzen zu kennen.

von Fabio Rosi

Künstliche Intelligenz in Bildverarbeitungssystemen

Zunächst eine kurze Erklärung der Begriffe und Funktionsprinzipien. Ich möchte vorausschicken, dass das, was folgt, eine starke Vereinfachung dieser komplexen Wissenschaft ist, mit Begriffen, die nicht immer wissenschaftlich angemessen sind.

Maschinelles Lernen, Deep Learning und neuronale Netze sind alle Teil der großen Familie vonKünstliche Intelligenz.

Die Maschinelles Lernen (auf Italienisch Automatisches Lernen) sind eine Reihe von Algorithmen zum Lernen von Informationen und zur Generierung von Entscheidungen aus einem Satz von Lerndaten, ohne vorgegebene mathematische oder statistische Modelle zu verwenden.

In der Praxis stellt man bei Bildverarbeitungssystemen mit maschinellem Lernen dem Algorithmus meist eine Reihe von Bildern von Defekten zur Verfügung, damit diese später als solche erkannt werden.

Diese Aktion wird als Überwachtes Lernen und ist die am häufigsten verwendete Art des Lernens in Bildverarbeitungssystemen dieser Art. Die Eingangs-Lerndaten (die Bilder der Defekte und die Informationen zu ihrer Charakterisierung) werden manuell ausgewählt, d.h. überwacht. All diese Informationen werden vom Algorithmus so "verdaut", dass er eine allgemeine Regel identifiziert, die es ihm erlaubt, die in den Bildern katalogisierten Defekte zu finden, die er von Zeit zu Zeit sehen wird.

Eine Art Zauberkasten, der aus den Bildern von Fehlern lernt und ein Urteil über das Bild abgibt, das Sie in diesem Moment sehen.

In unserem Zauberkasten sind einige neuronale Netzed.h. Algorithmen, die lernfähig sind, ein bisschen wie der menschliche Verstand. Im Jahr 2019 werden bis zu 29 Grundtypen von neuronale Netze5 davon sind definiert als Tief. Der Hauptunterschied zwischen einem einfaches neuronales Netz und einer tiefes neuronales Netzwerk liegt in der Anzahl der versteckten Zwischenschichten. Das einfache neuronale Netz hat nur eine Zwischenschicht, im Gegensatz zum tiefen neuronalen Netz, das mehr als eine hat, entspricht jede Schicht einer anderen Abstraktionsebene des "Denkens".

Deep Learning

Die Tiefes Lernen, d. h. die von einem tiefen neuronalen Netz durchgeführte Ausarbeitung der Informationen, liefert oft zuverlässigere Ergebnisse als die von einem einschichtigen neuronalen Netz durchgeführten.

Vor- und Nachteile von Machine Learning in Bildverarbeitungssystemen

Machine Learning und Deep Learning sind zwei Begriffe, die in letzter Zeit im Umfeld von Industrie 4.0 viel verwendet werden. Unabhängig von den "modischen" Aspekten der beiden Begriffe, sollten wir verstehen, ob diese Technologien gewinnbringend eingesetzt werden können.

Die Antwort auf diese Frage ist abhängig von der Art der Anwendung des Vision-Systems.

Schauen wir uns die wichtigsten Vorteile an.

  • Die Einfachheit der Implementierung auf der operativen Ebene ist der Hauptvorteil. Vielmehr genügt es, die Bilder der Defekte jedes Mal einzufügen, wenn sie auftreten.
  • Nach einem auffälligen Lernen ermöglicht das "tiefe" Netzwerk recht genaue Ergebnisse auch unter Bedingungen von Informationsrauschen, was im Fall von Computer-Vision-Systemen Reflexionen, verschmutzte Teile, Lichtvariationen der Umgebung usw. bedeutet.
  • Immer nach einem durch zahlreiche Fälle geprägten Lernen ist das "Deep Learning" in der Lage, einen verallgemeinerten Fehler auch ohne vorheriges Erfassen der Probe zu erkennen.

Schauen wir uns nun die Nachteile an.

  • Was wir früher als Zauberkasten bezeichnet haben, ist der Slang für Black Box. Das Problem der Black Box liegt darin, dass sie uns nicht erlaubt, die Regel zu kennen, die die Wahl zwischen gut und schlecht beinhaltet. Dies ist oft ein großes Problem, das das "Deep Learning" in vielen Fällen nicht sehr zuverlässig macht, so dass es vorzugsweise in Anwendungen eingesetzt wird, bei denen die Sicherheit des Ergebnisses nicht erforderlich ist.
  • Damit die Deep Learning-Logik gut funktioniert, benötigen Sie eine große Menge an Informationen. Bei manchen Anwendungen reichen mehr als 1000 Bilder oft nicht aus, um eine ausreichend zuverlässige Regel zu erstellen.
  • Da es keine objektive Logik der Ausarbeitung gibt, die auf einem mathematischen oder statistischen Modell basiert, besteht die einzige Möglichkeit, eine gute Wahrscheinlichkeit der Erkennung des Defekts zu gewährleisten, darin, dem neuronalen Netz alle möglichen Fälle von Defekten in allen möglichen Positionen, Tiefen, Formen und Färbungen zu liefern, und in einigen Fällen ist die Kombination dieser Informationen gigantisch. Wenn eine bestimmte Form tatsächlich nicht katalogisiert ist, ist es leicht möglich, dass das System sie nicht erkennt. Es kann z.B. vorkommen, dass große Defekte nicht erkannt werden, nur weil eine Reihe kleiner oder mittlerer Defekte katalogisiert wurden.
  • Diese Logiken erlauben es nicht, die Zuverlässigkeit in der Zeit auch auf Fehler zu garantieren, die vorher als solche erkannt wurden. Das liegt daran, dass die neuronalen Logiken die Informationen nicht akkumulieren, sondern "absorbieren", man sagt sogar, sie "akkumulieren die Erfahrung", nicht die Daten. Wenn wir also neue Informationen geben, neigen alte Informationen dazu, in diesem Prozess "verwässert" zu werden. Diese "Verwässerung" ist keine rein negative Eigenschaft, denn sie verfeinert das Lernen. Leider kann man aber die Wiederholbarkeit der Auswertung des Bildverarbeitungssystems nur durch Blockieren des Lernprozesses sicherstellen.
  • Eines der Hauptprobleme entsteht durch den Prozess des überwachten Lernens. In Anbetracht der Menge an Informationen, die an das "tiefe" Netzwerk geliefert werden müssen, kann es passieren, dass der Mensch falsche Daten liefert, d. h. einen Fehler, der kein Fehler ist, oder umgekehrt. Das neuronale Netzwerk hat die Fähigkeit, diese falsche Erfassung zu verbergen, was die Erforschung dieser Anomalie erschwert, wenn nicht gar unmöglich macht. Die Folge ist eine Erhöhung der Unzuverlässigkeit des Systems.
  • Ausreichend überwachtes Lernen, damit das neuronale Netz richtig funktioniert, hat oft Kosten, die den Einsatz nicht rechtfertigen, insbesondere im Verhältnis zum erreichten Grad der Zuverlässigkeit.

VEA-Lösung für maschinelles Lernen in Bildverarbeitungssystemen

Tests, die bei einigen unserer Kunden durchgeführt wurden, haben gezeigt, dass die Deep-Learning-Technologien sehr gut sind, da sie in der Lage sind, eine gute Anzahl von Fehlern effektiv zu katalogisieren, aber sie sind teuer in der Verwaltung und sie sind nicht in der Lage, das Niveau der Zuverlässigkeit zu überwinden, das die aktuellen proprietären Algorithmen in "hybrider Logik" haben. In der Tat sind die aktuellen Algorithmen VEA in "hybrider Logik" heute funktionaler, schneller zu implementieren und vor allem zuverlässiger und kontrollierbarer als ein "tiefes" neuronales Netz.

Algorithmen in "hybrider Logik", die seit 2007 vom VEA entwickelt wurden, verwenden bereits ein voreingestelltes überwachtes Lernen, das teilweise auf einem neuronalen Netzwerk basiert, aber statistische und mathematische Logik verwendet, um seine Stabilität zu stärken.

Die letzten Typen von tiefen neuronalen Netzen, zusammen mit der wachsenden Ausarbeitungskapazität der Prozessoren, bieten jedoch mehrere Vorteile. Die Lösung besteht also darin, die Nachteile zu minimieren.

Daher die proprietäre Technologie Geregeltes maschinelles Lernen. Es handelt sich um eine Reihe von hybriden Algorithmen, die aus zwei unterschiedlichen Logiksätzen bestehen.

Die erste "lernende" Gruppe wird von Deep-Learning-Logiken gebildet, die die Vorgeschichte von Defekten lernen und die Konzepte abstrahieren.

Die zweite Gruppe "Überwachung" wird von hybriden Logiken gebildet, die in der Lage sind zu bewerten, ob das Ergebnis der "Lern"-Gruppe ausreichend zuverlässig ist, im umgekehrten Fall werden die Ergebnisse der "Überwachungs"-Logiken als Referenz genommen.

Der komplementäre Einsatz der beiden Logiken hat bisher zu hervorragenden Ergebnissen geführt, ohne an Zuverlässigkeit zu verlieren.

Darüber hinaus ist das Abstraktionsniveau der Deep-Learning-Logiken so hoch, dass die Konstruktion von vorkonfigurierten Lern-"Paketen" möglich ist, wodurch lange und teure Lernsitzungen auf Kosten des Kunden vermieden werden.