Big Data

Facebook AI Open Source Discovery Transformer (DETR)

Einführung

Hin und wieder, eine Bibliothek oder ein Framework für maschinelles Lernen verändert die Landschaft des Feldes. Heutzutage, Facebook hat ein solches Framework geöffnet: DETR o DEtection TRansformer.

In diesem Beitrag, Wir werden das Konzept der Objekterkennung schnell verstehen und dann direkt in DETR eintauchen und was es bringt.

Objekterkennung auf einen Blick

Und Computer Vision, Objekterkennung ist eine Aufgabe, bei der unser Modell die Vordergrundobjekte vom Hintergrund unterscheiden und die Orte und Kategorien der im Bild vorhandenen Objekte vorhersagen soll. Aktuelle Deep-Learning-Ansätze versuchen, die Objekterkennungsaufgabe entweder als Klassifikationshürde oder als Regressionshürde oder beides zu lösen..

Als Beispiel, im RCNN-Algorithmus, mehrere interessierende Bereiche werden aus dem Eingabebild identifiziert. Anschließend, diese Regionen werden als Objekte oder als Hintergrund klassifiziert und, schließlich, ein Regressionsmodell wird verwendet, um die Bounding Boxes für die identifizierten Objekte zu generieren.

Das YOLO-Framework (Du schaust nur einmal), Außerdem, handhabt die Objekterkennung anders. Nimmt das gesamte Bild in einer einzigen Instanz und sagt die Bounding-Box-Koordinaten und Klassenwahrscheinlichkeiten für diese Boxen voraus.

Weitere Informationen zur Objekterkennung, siehe diese Beiträge:

Wir präsentieren DEtection TRansformer (DETR) von Facebook-KI

Wie Sie im vorherigen Abschnitt gesehen haben, aktuelle Deep-Learning-Algorithmen führen eine mehrstufige Objekterkennung durch. Sie leiden auch unter dem Problem der fast Duplikate, Mit anderen Worten, Fehlalarm. Vereinfachen, Facebook-KI-Forscher haben DETR . entwickelt, ein innovativer und effizienter Ansatz zur Lösung des Problems der Objekterkennung.

Das Originalpapier ist hier, Open-Source-Code ist hierund Sie können das Colab-Notizbuch einsehen hier.

Quelle: https://arxiv.org/pdf/2005.12872.pdf

Dieses neue Modell ist ziemlich einfach und Sie müssen keine Bibliothek installieren, um es zu verwenden. DETR behandelt ein Objekterkennungshindernis mit Hilfe einer transformatorbasierten Encoder-Decoder-Architektur als ein direkt gesetztes Vorhersagehindernis. Pro Satz, Ich meine das Bounding Box Set. Transformer sind die neue Generation von Deep-Learning-Modellen, die sich im NLP-Bereich hervorragend bewährt haben.

Die Autoren dieses Beitrags haben DETR anhand eines der beliebtesten Objekterkennungsdatensätze bewertet., COCO, im Vergleich zu einer sehr wettbewerbsfähigen schnelleren R-CNN-Basislinie.

In den Ergebnissen, der DETR erzielte vergleichbare Leistungen. Genauer, DETR zeigt deutlich bessere Leistung bei großen Objekten. Trotz dieses, funktionierte bei kleinen Objekten nicht so gut. Ich bin sicher, die Forscher werden es sehr bald herausfinden.

DETR-Architektur

Die allgemeine Architektur von DETR ist recht einfach zu verstehen. Enthält drei Hauptkomponenten:

ein CNN-Backbone
ein Encoder-Decoder-Transformator
ein einfaches Durchführungsnetzwerk

Quelle: https://arxiv.org/pdf/2005.12872.pdf

Hier, CNN-Backbone generiert Feature-Map aus Eingabebild. Anschließend, die Ausgabe des CNN-Backbone wird in eine eindimensionale Feature-Map umgewandelt, die als Eingabe an den Transformer-Encoder übergeben wird. Die Ausgabe dieses Encoders ist N Anzahl von Einbettungen fester Länge (Vektor), wobei N die vom Modell angenommene Anzahl von Objekten im Bild ist.

Der Transformer-Decoder decodiert diese Einbettungen an den Bounding-Box-Koordinaten mit Hilfe des Aufmerksamkeitsmechanismus des Decoders und des Encoders selbst..

Zusammenfassend, Neuronale Feedforward-Netze sagen normalisierte Zentrumskoordinaten vorher, die Höhe und Breite der Bounding Boxes und der linearen Ebene sagt das Klassenlabel mit einer Softmax-Funktion voraus.

Abschließende Gedanken

Dies ist ein wirklich spannendes Framework für alle Deep-Learning- und Computer Vision-Enthusiasten.. Ein großes Dankeschön an Facebook, dass sie ihren Ansatz mit der Community geteilt haben.

Zeit, sich anzuschnallen und dies für unser nächstes Deep-Learning-Projekt zu nutzen!!