Kommentar von Hilmar Buchta, Oraylis

Künstliche Intelligenz verschlagwortet Produktbilder

| Autor / Redakteur: Hilmar Buchta / Nico Litzel

Der Autor: Hilmar Buchta ist Chief Data Scientist & Geschäftsführer der Oraylis GmbH
Der Autor: Hilmar Buchta ist Chief Data Scientist & Geschäftsführer der Oraylis GmbH (Bild: Oraylis)

Als führende Handelskooperation für Bekleidung muss die ANWR Group laufend Produktangaben für die Präsentation in Web-Shops manuell erfassen – ein sehr zeitintensives und aufwendiges Verfahren. Infolgedessen hat das Unternehmen eine Bilderkennung für Schuhe entwickelt, die über die Produktfotos alle relevanten Angaben generiert. Basis bildet ein vortrainiertes Modell, dessen angelerntes Wissen zum Teil auf die neue Aufgabenstellung übertragen werden konnte.

Eine anwenderfreundliche Produktsuche zählt zu den wichtigsten Erfolgsfaktoren von Shopping-Portalen für Bekleidung. Kunden wollen nicht nur nach Marken filtern, sondern nach ganz spezifischen Merkmalen, wie Farben, Schnittformen oder der Höhe eines Schuhabsatzes. Infolgedessen sind die Händler gefordert, ihr vollständiges Angebot mit entsprechenden Metadaten zu versehen.

Da die Hersteller uneinheitliche und sehr grobe Kategorisierungen verwenden, müssen die erforderlichen Angaben meist unter großem Aufwand manuell erfasst werden. Diese Vorgehensweise ist nicht nur zeitintensiv, sondern auch fehleranfällig – insbesondere, wenn zum Saisonwechsel eine Vielzahl neuer Produkte erscheinen.

Vor diesem Hintergrund hat die ANWR Group gemeinsam mit Oraylis ein vielversprechendes Analysemodell auf Basis Künstlicher Intelligenz entwickelt: eine Bilderkennung für Schuhe. Die ANWR Group zählt europaweit zu den führenden Handelskooperationen für Schuhe, Sportartikel und Lederwaren. Das Unternehmen ist unter anderem Betreiber des Web-Shops „schuhe.de“. Insofern bedeutet das Modell eine umfassende Erleichterung: Eintreffende Ware lässt sich nunmehr allein über die Produktfotos automatisch verschlagworten. Bei der Modellentwicklung wurde eine Vorgehensweise auf Basis von Transfer Learning gewählt, die einerseits Aufwand einspart und andererseits zu zuverlässigen Analyseergebnissen führt.

100.000 Produkte als Trainingsgrundlage

Mehr als 6.000 Unternehmen mit über 11.000 Fachgeschäften in ganz Europa nutzen das Waren-, Marketing- und Serviceangebot der ANWR Group. Entsprechend umfangreich ist das Trainingsmaterial, das für den Aufbau des Modells zur Verfügung steht. Insgesamt handelt es sich um rund 75.000 verschiedene Schuhe aus aktuellen Kollektionen. Hinzu kommen circa 20.000 alte Produkte.

Für die Präsentation in den Web-Shops fotografiert die ANWR Group die Schuhe standardmäßig aus 20 Perspektiven. Im Kontext des Modelltrainings kommen jeweils zehn dieser Perspektiven zum Einsatz. Auf Vorder- und Rückansichten wird beispielsweise verzichtet, da Schuhe aus diesen Blickwinkeln nur schwerlich zu identifizieren sind. So wird das Modell letztendlich mithilfe von etwa 700.000 Bildern trainiert.

Grundsätzlich verlangt ein solches Training nach hohen Rechenleistungen. Durch die im weiteren beschriebene Vorgehensweise des Transfer Learnings konnte die Hardware aber relativ einfach gehalten werden. Als Trainingsumgebung diente ein Linux-Server mit sechs Kernen und 56 Gigabyte RAM-Speicher. Für weitere Beschleunigung sorgt eine Nvidia-Tesla-K80-Grafikkarte, die für diese Art von Rechenoperationen optimiert ist. Es handelt sich um eine virtuelle Maschine aus der Cloud, sodass die Investitionen in diesem Bereich überschaubar gehalten werden.

Generalistisches Modell individuell trainiert

Normalerweise nimmt also die Entwicklung eines Modells zur Bilderkennung eine immense Zeit in Anspruch. Aufgrund der Vielzahl der zu erlernenden Muster kann die Trainingsphase selbst auf spezialisierter Hardware mehrere Wochen oder gar Monate dauern. Eine Alternative bilden vortrainierte Modelle. Diese sind allerdings eher generalistisch ausgelegt. Beispielsweise können sie Schuhe, Hosen oder Jacken voneinander unterscheiden. Um welche Marke es sich handelt, lässt sich meist schon nicht mehr bestimmen.

Daher kommt bei der ANWR Group eine Mischform der beiden Ansätzen zur Anwendung, die auf der Methode des Transfer Learnings beruht. Ausgangspunkt bildet das TensorFlow Framework mit einer Inception-v3-Architektur, einem Deep-Learning-Modell über 48 Schichten. Bei Inception v3 handelt es sich um einen prominenten Vertreter der Convolutional Neural Networks (CNN), mit denen der Durchbruch bei der Bilderkennung gelungen ist. Sie zerlegen die Bilder in kleinere Bestandteile und erkennen in der Folge, welche Bildausschnitte relevant sind.

Für Inception v3 im Speziellen spricht, dass das Netzwerk inzwischen – etwa zwei Jahre nach Veröffentlichung – sehr gut erforscht und entsprechend gut handzuhaben ist. Zum anderen bildet das Modell einen guten Kompromiss zwischen Komplexität und Einfachheit – heißt: Die durchaus anspruchsvollen Anforderungen einer Bilderkennung für Schuhe lassen sich damit bewältigen. Dennoch ist das Training bei der vorhandenen Anzahl an Schichten nicht zu aufwendig.

Vor allem aber existiert zu diesem Modell bereits angelerntes Wissen. Es wurde auf Basis der Bilddatenbank ImageNet vortrainiert. Dadurch verfügt es über die Fähigkeit, allgemeingültige Bildelemente zu erfassen, wie Kanten oder Flächenformen. Dieser Teil des angelernten Wissens lässt sich dann auch auf den vorliegenden Anwendungsfall anwenden bzw. „transferieren“. Das Modell muss hier also nicht mehr von Grund auf trainiert werden.

Weitere Schichten gilt es indes auf die eigene Aufgabenstellung hin zu modifizieren. Dazu werden die vorhandenen Schlagworte auf die Produkteigenschaften des Shopping-Portals angepasst. Mithilfe der Bilddaten wird das Modell dann über mehrere Phasen hinweg trainiert und immer feiner justiert.

Die Inception-v3-Architektur im Überblick. Das neuronale Netz ist mit der Bilddatenbank ImageNet vortrainiert. Die erste Hälfte passt zur gegebenen Problemstellung und wird daher unverändert übernommen. In der zweiten Hälfte wird das Modell immer feiner auf das Thema justiert.
Die Inception-v3-Architektur im Überblick. Das neuronale Netz ist mit der Bilddatenbank ImageNet vortrainiert. Die erste Hälfte passt zur gegebenen Problemstellung und wird daher unverändert übernommen. In der zweiten Hälfte wird das Modell immer feiner auf das Thema justiert. (Bild: Oraylis)

Besonderheiten der Farberkennung

Fünf verschiedene Produkteigenschaften stehen beim Modelltraining im Fokus: Farbe, Kategorie, Saison, Absatzhöhe und Marke. Eine besondere Herausforderung stellt die Farbe dar. Viele Farbtönen sind schwer zu unterscheiden, wie etwa weiß und beige. Manches Schuhwerk ist sogar mehrfarbig. Zudem ist die vorherrschende Bildfarbe nicht zwangsläufig die Produktfarbe. Bestes Beispiel sind Sandalen. Hier nimmt die Farbe der Innensole einen deutlich größeren Bildbereich ein, als die Farbe der Riemen. Letztere ist aber für die Einordnung des Produktes entscheidend. Der Algorithmus muss somit auch dazu in der Lage sein, die relevanten Bildbereiche zu erkennen. Diese Besonderheiten gilt es in Form eines intensiveren Modelltrainings zu berücksichtigen. Gleichzeitig muss natürlich auch das Modell als solches komplex genug sein, um solche Stellen bzw. Feinheiten zur erkennen.

Das Modell unterscheidet im Ganzen zwischen 20 Farbkategorien. Für das Training ist es erforderlich, zunächst die unterschiedlichen Kategorien hinsichtlich der Mengen aneinander anzupassen. Denn: Jede Farbe sollte mit der gleichen Anzahl an Schuhbildern trainiert werden. Da Farben jedoch der Mode unterworfen sind, variierte der Umfang des zur Verfügung stehenden Materials teilweise stark. Infolgedessen werden die „großen Kategorien“ reduziert, indem nicht alle Bilder zum Einsatz kamen. „Kleinere“ Farbkategorien lassen sich indes durch Modifikationen und mehrfache Verwendung erweitern. So werden die Bilder in einem Spektrum von -15 bis +20 Prozent vergrößert, verkleinert oder zufällig gedreht. Darüber hinaus wird nach dem Zufallsprinzip ein neuer Hintergrund in das Bild montiert. Dieses Vorgehen führt zu einem robusteren Modell. Es lernt, dass der Winkel oder der Hintergrund bei der Erkennung von Schuhen keine Rolle spielt.

Dank Transfer Learning hat das Training der Farbe lediglich drei Tage in Anspruch genommen. Hätte das Modell neu aufgebaut werden müssen, wären auf der hier genutzten Hardware rund 50 Tage erforderlich gewesen. Ursprünglich sollten die Trainingszeiten sogar noch kürzer sein. In den ersten Testläufen wurde zunächst ausschließlich die letzte Schicht – also die 48. – des Modells neu justiert. Allerdings mit wenig zufriedenstellenden Ergebnissen: Die Trefferquote bei der Farbe lag nur bei 40 Prozent. Dem entsprechend wurde das Training vertieft und auf weitere Schichten ausgeweitet. Letztlich ist die komplette zweite Hälfte des Modells einem Finetuning unterzogen worden.

Weitere relevante Produkteigenschaften

Bei den anderen vier Produkteigenschaften wird ähnlich verfahren, wie bei der Farbe. Wobei die zahlenmäßige Anpassung der verschiedenen Ausprägungen leichter fällt. So sind bei der ANWR Group grundsätzliche Kategorien, wie „Damenschuhe“ und „Herrenschuhe“, per se mit einer Hierarchisierung unterlegt. Im Bereich der Damenschuhe ist das beispielweise „Damenstiefel > Damenwesternstiefel“. Kleine, sehr spezielle Kategorien bzw. Hierarchieebenen können dadurch einfach zusammengefasst werden. In der Folge erkennt das Modell 120 unterschiedliche Hierarchieausprägungen.

Noch einfacher gestaltet sich das Vorgehen bei „Saison“ und „Absatzhöhe“. In ersterem Fall gibt es lediglich eine Unterscheidung zwischen „Frühjahr/Sommer“, „Herbst/Winter“ sowie „Ganzjährig“, in letzterem zwischen „0 cm“, „bis 4 cm“, „bis 8 cm“ und „über 8 cm“. Es existieren also relativ wenige Ausprägungen, die sich entsprechend leichter bzw. genauer bestimmen lassen. Schließlich wird das Modell noch auf rund 100 verschiedene Marken trainiert. Verbleibende Marken werden unter „Unbekannt“ zusammengezogen. Dabei lässt sich natürlich feststellen, dass auffällige Schuhe – wie Sneakers – wesentlich einfacher zu trainieren sind, als dezente Modellinien mit weniger Unterscheidungsmerkmalen, wie zum Beispiel Business-Lederschuhe für Herren.

Bessere Stammdaten als Benefit

Am Ende dieses intensiven Trainings steht ein Modell, das die Eigenschaften einzelner Produkte mit bemerkenswerter Präzision ermittelt. Und: Die Bilderkennung ist nicht auf professionelle Produktfotos beschränkt. Sie funktioniert ebenso bei selbstgeschossenen Smartphone-Bildern.

Aktuell lässt sich dennoch ein gewisser manueller Aufwand nicht vermeiden. So gibt das Modell die Ergebnisse seiner Bildanalysen immer in Verbindung mit einer Wahrscheinlichkeit an. Liegt diese Wahrscheinlichkeit bei über 90 Prozent, ist die Angabe im Regelfall korrekt. Werte zwischen 70 und 90 Prozent sind als Vorschlag für eine manuelle Eingabe zu betrachten. Bei unter 70 Prozent ist indes eine manuelle Prüfung und Eingabe unumgänglich.

Im Gegenzug bietet sich die Möglichkeit, die Qualität der Stammdaten zu steigern. Weicht ein „sicheres“ Analyseergebnis von bereits vorhandenen Informationen ab, dann ist das ein zuverlässiger Hinweis auf einen Fehler im Datenbestand. Die auf diese Weise korrigierten Stammdaten fließen wiederrum in das Modell ein, sodass schrittweise für Verbesserungen gesorgt wird.

Fazit

Die Erschließung und Nutzung von Bildern ist in der unternehmensweiten Datenanalyse noch deutlich unterrepräsentiert – ein Phänomen, das bei unstrukturierten Daten häufig zu beobachten ist. Viele Unternehmen wissen nicht, wie sie das Thema angehen können. Sie fürchten hohe Aufwände und sind sich im Unklaren über die richtigen Anwendungsfälle.

Die Dienste der großen Anbieter – wie zum Beispiel Amazon Recognition oder Microsoft Cognitive Services – bieten in diesem Kontext keine große Unterstützung. Sie können eine Kirche von einem Strand unterscheiden und eignen sich somit für die Klassifizierung von Urlaubsbildern. Von der Identifikation und Analyse einer Damensandalette sind sie indes weit entfernt.

Dabei können Bilddaten einen erheblichen Mehrwert bieten, wie unser Beispiel gezeigt hat. Die ANWR Group profitiert massiv von der neuen Lösung. Gleichzeitig zeigt das Projekt, dass die Entwicklung einer Bilderkennung nicht zwingend mit hohen Aufwänden verbunden sein muss. Insgesamt hat die Modellentwicklung nur rund vier Wochen in Anspruch genommen. Durch den Einsatz von Transfer Learning wurde ein Großteil des Trainingsaufwands eingespart und gleichzeitig ein sehr spezialisiertes Modell für Bekleidung erzeugt. Ebenso vereinfachen Speicher- und Rechenressourcen aus der Cloud die Abläufe ungemein. Nicht zuletzt lässt sich diese Vorgehensweise auf viele andere Anwendungsfälle übertragen.

Wie aber können Unternehmen solche Ansätze selber initiieren? Grundsätzlich ist hierfür umfangreiches Wissen aus den Bereichen KI und Deep Learning erforderlich. Der Aufbau eigenen Know-hows lohnt sich aber nur dann, wenn solche Anwendungsfälle häufiger auftreten. Ansonsten empfiehlt sich die Zusammenarbeit mit einem kompetenten Partner, wie es auch in unserem Beispiel der Fall war. Hier waren die Aufgaben klar verteilt: Das vollständige Modell – inklusive Training und Nachtraining – wurde vom Dienstleister geliefert. Die Integration in die laufenden Prozesse erfolgte schließlich auf Seiten der ANWR Group.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 45423190 / Best Practices)