imported>Comic-Star-55: Den Abschnitt "Landwirtschaft" aufgrund fehlender Relevanz entfernt sowie verdacht auf gezielte Werbung

2026-02-15T07:17:21Z

Den Abschnitt "Landwirtschaft" aufgrund fehlender Relevanz entfernt sowie verdacht auf gezielte Werbung

Neue Seite

[[Datei:Detected-with-YOLO--Schreibtisch-mit-Objekten.jpg|mini|Automatische Objekterkennung mit Hilfe der Software OpenCV. Hierzu wurde ein zuvor auf dem COCO-Dataset trainiertes YOLOv3 Modell geladen welches 80 verschiedene Objekte identifizieren kann.]]
'''Objekterkennung''' ist ein Teilgebiet der [[Bildverarbeitung]] bzw. des [[Computer Vision|computerbasierten Sehens]], bei der man versucht, in Bildern einzelne Objekte zu identifizieren. Ein Bild wird hierbei in Regionen unterteilt, die sinnvolle Einheiten bilden, welche dann weiter auf Merkmale hin untersucht werden, um die Bildregion einer Klasse von Objekten zuordnen zu können. Eine vorläufige Objekterkennung läuft meistens nach diesem Schema ab: Unterteile ein Bild in kleinere Bildausschnitte (Fenster) fester Größe und wende dann einen [[Klassifizierung]]salgorithmus auf dieses Fenster an.<ref>{{Literatur |Autor=David A. Forsyth, Jean Ponce |Titel=Computer Vision: A Modern Approach |Auflage=2 |Verlag=Pearson |Ort=Boston |Datum=2012 |ISBN=978-0-13-608592-8}}</ref>

Während es uns Menschen relativ leicht fällt einzelne Objekte, z. B. ein Pudel oder ein Schäferhund, einer abstrakten Kategorie zuzuordnen, in diesem Fall der Kategorie Hund, ist es extrem schwer dies einem Computer beizubringen. Diese Aufgabe wird umso schwieriger, je mehr Klassen von Objekten identifiziert werden sollen. Deswegen wendet man i. d. R. einen spezifischen Algorithmus auf das Bild an, welcher z. B. nur [[Gesichtserkennung|Gesichter erkennen]] kann.<ref>{{Internetquelle |autor=Richard Szeliski |url=http://szeliski.org/Book/ |titel=Computer Vision: Algorithms and Applications, 2nd ed. |abruf=2022-09-25}}</ref>

== Methodik ==
In der abstrakten [[Bildverarbeitung]] dienen Objekterkennungsmethoden dazu, bestimmte Objekte bzw. Muster von anderen Objekten zu unterscheiden. Dazu muss das eigentliche Objekt zunächst mathematisch beschrieben werden. Oft genutzte Verfahren der Bildverarbeitung sind die [[Kantenerkennung]], [[Transformation (Mathematik)|Transformationen]] sowie Größen- und Farberkennung. Je genauer die Beschreibung des Objektes möglich ist und je mehr auswertbare Informationen vorhanden sind, umso zuverlässiger arbeitet die Objekterkennung.

Komplexere Methoden zur Objekterkennung kommen aus dem Bereich der [[Künstliche Intelligenz|künstlichen Intelligenz]], wie [[maschinelles Lernen]] oder [[Deep Learning|Deep-Learning]]-basierte Ansätze. Für Ansätze des maschinellen Lernens ist es notwendig, zunächst Merkmale mit einer der folgenden Methoden zu definieren und dann eine Technik wie die [[Support Vector Machine]] (SVM) zur Klassifizierung zu verwenden.

Ansätze aus dem maschinellen Lernen:
* [[Viola-Jones-Methode]], die auf [[Haar-Wavelet]]s basiert
* [[Scale-invariant feature transform]] (SIFT) und Speeded Up Robust Features ([[SURF]])
* [[Histogram of oriented gradients]] (HOG)

Auf der anderen Seite sind Deep-Learning-Techniken in der Lage, eine Objekterkennung durchzuführen, ohne händisch vorab bestimmte Merkmale definieren zu müssen. Diese Techniken basieren typischerweise auf einem [[Convolutional Neural Network]] (CNN). Ein solches künstliches neuronales Netz muss zuvor trainiert werden. Hierzu sind große Mengen an Bildern notwendig. Diese zum Training benutzten Bilder müssen zuvor in irgendeiner Form klassifiziert worden sein. Es muss also eine Information existieren, was auf dem Bild dargestellt ist. Hierfür existieren spezielle Datenbanken wie z. B. [[ImageNet]] oder der COCO-Datensatz<ref>{{Internetquelle |url=https://cocodataset.org/ |titel=COCO – Common Objects in Context |sprache=en |abruf=2019-01-29}}</ref>.

Deep-Learning-Ansätze:<ref>{{Internetquelle |autor=Adrian Rosebrock |url=https://www.pyimagesearch.com/2018/11/12/yolo-object-detection-with-opencv/ |titel=YOLO object detection with OpenCV |werk=PyImageSearch |datum=2018-11-12 |sprache=en-US |abruf=2019-01-14}}</ref>

* Region Proposals (R-CNN, Fast R-CNN, Faster R-CNN<ref>{{Literatur |Autor=Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun |Titel=Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks |Datum=2015-06-04 |arXiv=abs/1506.01497}}</ref>) und darauf aufbauend Detectron<ref>{{Internetquelle |url=https://research.fb.com/downloads/detectron |titel=Detectron |hrsg=facebook research |sprache=en |abruf=2019-01-21}}</ref>.
* Single Shot MultiBox Detector (SSD)<ref>{{Literatur |Autor=Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed |Titel=SSD: Single Shot MultiBox Detector |Band=9905 |Datum=2016 |arXiv=abs/1512.02325 |DOI=10.1007/978-3-319-46448-0_2 |Seiten=21–37}}</ref>, mit einer einstufigen Detektionsstrategie.
* You Only Look Once (YOLO)<ref>{{Literatur |Autor=Joseph Redmon, Ali Farhadi |Titel=YOLOv3: An Incremental Improvement |Datum=2018-04-08 |arXiv=abs/1804.02767}}</ref><ref>{{Internetquelle |autor=Joseph Chet Redmon |url=https://pjreddie.com/darknet/yolo/ |titel=YOLO: Real-Time Object Detection |abruf=2019-01-14}}</ref>, mit einer einstufigen Detektionsstrategie.

Eine einstufige Detektionsstrategie bedeutet, dass die zu analysierenden Bilder nur einmal gelesen werden müssen. Der Anfang 2020 wohl schnellste Ansatz ist das erst im selben Jahr veröffentlichte YOLOv5. Zu seiner Anwendung sind einfache Open-Source-Lösungen verfügbar<ref>{{Internetquelle |autor=Jacob Solawetz |url=https://blog.roboflow.com/yolov5-improvements-and-evaluation/ |titel=YOLOv5 New Version - Improvements And Evaluation |datum=2020-06-29 |sprache=en |abruf=2021-09-23}}</ref>. Sie basieren auf folgendem Ansatz: Mit einer hohen Anzahl von Datensätzen aus der COCO-Datenbank wurde ein künstliches neuronales Netz aufwendig trainiert. Dieses fertig trainierte Netz ist als Datei verfügbar und kann dann mit Methoden aus dem „Deep Neural Network module (dnn)“ der lokal installierten Software [[OpenCV]] benutzt werden, um Bilder oder Videosequenzen in Echtzeit zu untersuchen. In dem zu untersuchenden Bildmaterial werden dann die „eintrainierten“ Objekte erkannt.

== Anwendungen ==
=== Industrielle Anwendungen ===
[[Datei:Template Matching.png|mini|Template-Matching mit rotierten Templates.]]
Eine Objekterkennung ist zum Beispiel bei komplizierten Fertigungsprozessen notwendig. Oftmals wird hier die Übereinstimmung der Form eines Objektes mit einer Vorgabe ermittelt (''Template-Matching''), oder die korrekte Lage desselben auf einem Fließband geprüft. Zusätzlich zu den optischen Sensoren können zur Unterstützung auch induktive, kapazitive oder magnetische Sensoren eingesetzt werden. Man spricht in diesem Zusammenhang auch von [[Sensordatenfusion|Sensorfusion]].

Darüber hinaus wird die Objekterkennung in der Qualitätssicherung zur Vollständigkeitsprüfung eingesetzt.
{{Hauptartikel|Vollständigkeitsprüfung}}

=== Fahrerassistenzsysteme ===
{{Hauptartikel|Fahrerassistenzsystem}}
Etiketten, die es in roter oder blauer Ausführung gibt, können beispielsweise bereits durch einen einfachen [[Farbsensor]] unterschieden werden. Soll aber zudem noch erkannt werden, ob auf dem roten Etikett eine Schrift aufgebracht ist, so muss meist eine entsprechende [[Kamera]] eingesetzt werden.

In Fahrzeugen werden zunehmend kamerabasierte Fahrerassistenzsysteme eingesetzt, um beispielsweise [[Verkehrsschild]]er oder die [[Fahrspurerkennung|Fahrspur]] automatisch zu erkennen. Bei der [[Verkehrszeichenerkennung|Detektion von Verkehrszeichen]] wird nach kreisförmigen Objekten gesucht. Eine rote Umrandung deutet dann auf ein [[Bildtafel der Verkehrszeichen in Deutschland#Verbotszeichen|Verbotsschild]] hin. Alternativ kann auch nur mit Mustern bekannter Zeichen verglichen werden (''Template-Matching'').

Komplexere Formen der Objekterkennung kommen dann zum Einsatz, wenn sich drehende oder schnell bewegte Objekte in einem Bild verfolgt werden müssen. Dann kommen mathematische Korrelatoren zum Einsatz, die sich an das Objekt anpassen können, wie z. B. bei einem sich wegdrehenden Hubschrauber, dessen Position vor einem komplexen Hintergrund ermittelt werden muss. Mittels geeigneter Bildverarbeitungssysteme sind Positionsbestimmungen von Objekten unterhalb der Pixelauflösung der zugrunde liegenden Bilder möglich.

== Siehe auch ==
* [[Gesichtserkennung (Fotografie)]]

== Weblinks ==
* [http://wwwmath.uni-muenster.de/u/lammers/EDU/ws03/Landminen/Abgaben/Gruppe9/Thema09-ObjekterkennungInBilddaten-ChristianGrosseLordemann-MartinLambers.pdf Objekterkennung] (PDF; 1,01 MB)
* Kurs [https://cs231n.stanford.edu/ CS231n] an der [[Stanford University]]. Lehrstoff im Bereich Computer Vision: Eigenen neuronalen Netze implementieren, trainieren und debuggen. Die Vorlesungsinhalte von 2017 sind online abrufbar. (englisch)
* [http://host.robots.ox.ac.uk/pascal/VOC/ The PASCAL Visual Object Classes Homepage (englisch)]

== Literatur ==

* David A. Forsyth, Jean Ponce: ''COMPUTER VISION: A MODERN APPROACH''. 2. Auflage, Pearson Education, Prentice Hall, Boston, 2012, ISBN 978-0-13-608592-8
* Richard Szeliski: ''Computer Vision - Algorithms and Applications.'' Springer-Verlag, London 2011, ISBN 978-1-84882-934-3, [[doi:10.1007/978-1-84882-935-0]] [http://szeliski.org/Book (szeliski.org)]
* Thorsten Hoeser, Claudia Kuenzer: ''Object Detection and Image Segmentation with Deep Learning on Earth Observation Data: A Review-Part I: Evolution and Recent Trends.'' Remote Sensing, 12 (10), 2020, S. 1–44. [[doi:10.3390/rs12101667]]. ISSN 2072-4292.
* Thorsten Hoeser, Felix Bachofer, Claudia Kuenzer: ''Object Detection and Image Segmentation with Deep Learning on Earth Observation Data: A Review-Part II: Applications.'' Remote Sensing, 12 (18), 2020, S. 3053. [[doi:10.3390/rs12183053]]. ISSN 2072-4292.

== Einzelnachweise ==
<references />

[[Kategorie:Bildverarbeitung]]
[[Kategorie:Computer Vision]]

Objekterkennung - Versionsgeschichte

imported>Comic-Star-55: Den Abschnitt "Landwirtschaft" aufgrund fehlender Relevanz entfernt sowie verdacht auf gezielte Werbung