In dem Blogbeitrag über die Anbindung von Google Analytics mit R wurde eine eigene Lösung zu dem Thema Anomaly Detection angekündigt. Dieser Artikel stellt unser Produkt ed.Detect vor. e-dynamics Antwort für die Anomalie-Erkennung!
Was ist Anomaly Detection?
Heutzutage werden zu jeder Zeit Daten gemessen und gespeichert. Sind Daten zusätzlich mit einem Zeitstempel versehen, können sie durch sogenannte Zeitreihen dargestellt werden. Die Zeitreihenanalyse beschäftigt sich unter anderem damit, auffällige Datenpunkte, die sich vom Verlauf der übrigen Datenpunkten signifikant unterscheiden, zu identifizieren. Solche Datenpunkte werden Anomalien genannt. Anomalien können durch verschiedenste interne und externe Einflüsse ausgelöst werden.
Durch die mehrjährige Erfahrung der Datenerfassung, -bereinigung und -analyse, wissen wir bei e-dynamics sehr genau, wie solche Anomalien identifiziert werden können. Leider haben wir auch festgestellt, dass die händische Erkennung aufwendig und bei besonders hohem Datenaufkommen zeitintensiv ist. Mit ed.Detect haben wir unser Wissen in die Entwicklung eines automatisierten Prozesses fließen lassen, der die Daten genauso gut, nur wesentlich schneller, auf Anomalien untersucht.
Abbildung 1 – Zeitreihe der aktuellen Corona-Impfkampagne in Deutschland.
Welche Tools gibt es auf dem Markt?
Ein Blick auf die momentane Toollandschaft verrät, dass generell zwei verschiedene Gruppen der Anomalie-Erkennung existieren. Es gibt die integrierten Lösungen von etablierter Datenverarbeitungsoftware. Wer schon damit gearbeitet hat, war eher enttäuscht. Denn viele Anbieter nutzen veraltete Algorithmen und bieten nur wenig Möglichkeit zur individuellen Anpassung. Dies kann zur Folge haben, dass an jedem Feiertag und jedem Wochenende schon kleine Änderungen in den Daten als Anomalie ausgegeben werden. Der Nutzer wird durch die Vielzahl an unrelevanten Warnungen vielleicht blind für wahre Auffälligkeiten in den Daten und das Tool verfehlt seinen Zweck.
Die zweite Gruppe besteht Tools, die sich einzig auf die Anomaly Detection spezialisiert haben. Oft ist es dabei so, dass eine intransparente Lösung angeboten wird, bei dem der Kunde nicht weiß, was genau im Hintergrund passiert. Demnach ist auch unklar, wie zuverlässig die Erkennung von Anomalien ist. In vielen Fällen ist eine komplette Anbindung der eigenen Daten notwendig. Das kann widerum mit viel Aufwand und Kosten verbunden sein. Somit können aus reiner Kosten-Nutzen-Sicht die monatlichen Ausgaben die Vorteile des Erkennens und Behebens der Anomalien überschreiten.
Mit ed.Detect bieten wir ein kostengünstiges, transparentes und zuverlässiges Tool an. Für kleinere Unternehmen, aber ebenso für die Big Player, entwickeln wir eine, auf die eigenen Daten zugeschnittene, Individuallösungen. Dabei liegt uns, als Datenanalysten, das Verstehen der verwendeten Algorithmen und Methoden sehr am Herzen. Daher bieten wir ebenfalls Einführungen und Kurse an, sodass jeder in der Lage ist ed.Detect zu verstehen und anzuwenden.
Wie funktioniert Anomalie Detection?
Wir möchten anhand der Daten zur aktuellen Covid-Impflage (Abbildung 1) erörtern, wie unsere Anomaly Detection in ihrer Grundidee funktioniert und worin genau die Vorteile und Stärken unserer Methode liegen.
Wird der Algorithmus ohne weitere Einstellungen auf die Impfdaten angewandt, ist die Abbildung 2 ein mögliches Ergebnis (Anomalien sind durch orange Punkte gekennzeichnet).
Abbildung 2: Prophet Standard aus e-vacc Auswertung.xlsx
Gefunden wurden nur Anomalien am Ende der Zeitreihe und hauptsächlich an den oberen und unteren Spitzen. Dies lässt die Vermutung zu, dass der Algorithmus stark durch das schnelle Wachstum der täglichen Impfung beeinflusst ist und daher frühe Datenpunkte vernachlässigt. Um dieses Problem zu lösen, stellt unser Algorithmus verschiedene Möglichkeiten zur Verfügung, um auf die besondere Form einer Zeitreihe zu reagieren. In diesem Beispiel ist die vorherige Transformation der Impfdaten Daten mittels der sogenannten Yeo-Johnson-Transformation empfehlenswert.
Abbildung 3: Prophet Yeo aus e-vacc Auswertung.xlsx
Diese Abbildung zeigt, dass die Transformation dazu geführt hat, dass nun Anomalien über den gesamten Beobachtungszeitraum gefunden werden konnten. Ebenfalls fallen aber nun viele Anomalien mit bekannten Events zusammen. Falls Impfstoffe zurückgehalten bzw. freigegeben wurden, hat dies logischerweise Einfluss auf die Impfrate. Auch an Feiertagen ist eine niedrigere Anzahl an Impfungen vorhersehbar. Solche Schwankungen werden auf der einen Seite richtigerweise als auffälliges Verhalten erkannt, auf der anderen Seite könnte der Anwender jedoch den Wunsch haben zuvor bekannte bzw. erklärbare Datenpunkte bei der Erkennung gesondert zu berücksichtigen.
Für diesen Umstand wird dem Algorithmus einfach zuvor eine Liste übergeben, die Tage mit potenziell auffälligem Verhalten enthält. Gerade bei wiederkehrenden Feiertagen, ist der Algorithmus so in der Lage zu entscheiden, ob das Verhalten an solchen Tagen noch akzeptabel oder als anormal zu bewerten ist. Das heißt also, die angegebenen Tage werden nicht direkt bei der Erkennung ausgeschlossen, sondern nur mit besonderer Aufmerksamkeit behandelt.
Abbildung 4: Prophet Holidays aus e-vacc Auswertung.xlsx
Durch den zweiten Datensatz wird der Algorithmus nun nicht mehr durch die bekannten Auffälligkeiten beeinflusst. Das Ergebnis sind Anomalien, die zunächst nicht mit einem bekannten Ereignis zusammenfallen. So gefundene Auffälligkeiten können nun mit fachlicher Expertise näher betrachtet werden, sodass die weitere wertvolle Insights über die Daten erbringen.
ed.Detect selbst testen
Je schneller und detaillierter Anomalien erkannt werden, desto akkurater und effizienter kann darauf reagiert werden. Bleiben solche Anomalien unentdeckt, können schnell größere Schäden angerichtet werden, die zu unverhältnismäßig großen Verlusten führen. Daher empfehlen wir die Daten stets im Blick zu behalten und zu kontrollieren. Dabei unterstützt ed.Detect. Je länger ed.Detect im Einsatz ist, desto besser werden Anomalien erkannt. Überzeugen Sie sich selbst!
Zur Pflege der relevanten Feiertage und besonderer Events empfehlen wir unser Tool ed.Context. Mehr dazu gibt es auf der ed.Context Seite oder in unserem Blogartikel bzw. alle Produkte der e-dynamics Data Platform unter: www.e-dynamics.de/produkte/
Die oben genannten Schritte zur Optimierung der Anomalie Erkennung bilden dabei nur einen kleinen Teil der Möglichkeiten von ed.Detect ab. Unser Tool umfasst weiterhin viele Optionen, um auf grober und detaillierten Ebene Einstellungen vorzunehmen. Somit sind wir in der Lage jede Art und jeden Umfang von Datensatz mit gleichbleibender Qualität zu behandeln.
Ist dieses Thema für Ihr Unternehmen interessant oder haben Sie weitere Fragen zu ed.Detect, e-dynamics Anomaly Detection oder ed.Context?
Möchtet Sie mehr über unser Tool erfahren, welche Algorithmen verwendet werden, wie die Zeitreihe modelliert wird oder welche Transformationen wir anwenden?
Dann melden Sie sich gerne direkt bei uns.