Was ist eine Daten-Anomalie und wie erkenne ich sie?

In dem Artikel zeigen wir anhand von Beispielen was eine Daten-Anomalie ist und stellen mit ed.Detect eine Software basierte Möglichkeit zur automatisierten Erkennung vor.

Allgemein versteht man unter einer Anomalie die Abweichung von einem erwarteten Zustand oder Wert. Der erwartete Wert ist durch eine Regel definiert. Dabei basiert jeder Anwendungsfall auf unterschiedlichen Regeln. Ist die Regel bekannt, können die nächsten Werte berechnet werden. Entspricht der gemessene Wert nicht dem anhand der Regel berechneten Wert, handelt es sich um eine Daten-Anomalie.

Bei der Zahlenreihe: 3, 6, 9 ist die Rechenregel zur Bestimmung des nächsten Wertes die Addition der Zahl 3 (+3).
Auf die Zahl 9 folgt aus 9+3 die Zahl 12. Entsprechend enthält die Zahlenreihe 3,6,9,11,15 eine Daten-Anomalie bei der Zahl 11.

Ist die Rechenregel nicht bekannt, ist die automatisierte Erkennung von Anomalien komplex. Gleiches gilt, wenn für den Anwendungsfall keine bekannte Rechenregel existiert.

Auch Abweichungen von einem festen Zeitintervall sind Daten-Anomalien. Wird eine Abweichung festgestellt, kann z.B. eine definierte Aktion ausgelöst werden. Beispiele sind das Abschalten einer Maschine, das Senden eines Alarms, etc.

Darüber hinaus treten Anomalien nicht nur in gemessenen oder berechneten Daten auf. Anomalien treten ebenfalls in Daten auf, die auf Beobachtung beruhen. Ein bekanntes Beispiel ist die Anomalie des Wassers.

Anomalie oder Saison?

Aus den ersten Sätzen wird deutlich, dass Anomalien im Auge des Betrachters liegen können. Oft haben Anomalien nur im zeitlichen Verlauf und im Vergleich mit anderen Werten eine Bedeutung. Allerdings ist nicht jede Änderung der Werte im zeitlichen Verlauf auch eine Anomalie.

Wenn auf den Montag unmittelbar der Mittwoch folgt, werden alle zustimmen, dass dies nicht der Regel entspricht. Alle? Nein! Ein von unbeugsamen Badensern dominierter Fußballclub (ab 1:40min) hat eigene Regeln.

Werden in Aachen am 14.12. des Jahres über 20°C gemessen, ist dies eine Anomalie. Hingegen in Sydney entspricht diese Temperatur am selben Datum dem erwarteten Wert.

Saisonale Effekte wie Jahreszeiten sind häufig die Erklärung für Veränderungen in den Daten, die auf den ersten Blick wie eine Anomalie aussehen. Jedoch sind nicht alle vorkommenden Saisons bekannt. So sind in der Praxis oftmals unbekannte Saisonalitäten die eigentliche Erklärung für Abweichungen, die zunächst als Anomalie identifiziert wurden. Was als Suche nach Anomalien beginnt, kann so zur Erkennung neuer Datenmuster werden.

Wann ist die Abweichung von der Regel eine Anomalie?

Wenn eine Box 17 rote Rosen und eine gelbe Rose enthält, dann stellt die gelbe Rose eine Anomalie dar.
Aber was ist, wenn es viele Boxen mit Rosen gibt, und in jedem Container eine gelbe Rose unter den 18 roten Rosen ist?
Handelt es sich dann immer noch um eine Anomalie?

Auf die Frage, „Was ist eine Anomalie?“, geben die meisten Menschen eine spontane und zutreffende Antwort. Bei der Frage, „Wie erkennt man eine Anomalie?“, sind die Antworten vieler Interview Partner schon zögerlicher. Es zeigt sich schnell, dass eine Anomalie nur aus dem ed.Context (haha) erkannt werden kann. Der Kontext erfordert ein breites Wissen zu den Daten. Ein klassischer Aspekt des Kontext-Wissens sind die eben beschriebenen saisonalen Effekte.

Blog Was ist eine Anomalie fünf Rosenboxen ed.Detect
Blog Was ist eine Anomalie eine Rosenbox ed.Detect
Blog Was ist eine Anomalie viele Rosenboxen ed.Detect

Eine Abweichung von mehr als 10% zum Vortag ist bestimmt eine Anomalie

Einige Softwarelösungen im Online Analytics Kontext bieten Anomalie-Erkennung als Standardfunktion. Hierbei ist die Anomalie-Erkennung häufig mit einer Funktion zur automatisierten Benachrichtigung verbunden. Wird von der Software eine Anomalie erkannt, kann eine vorher festgelegte Aktion ausgelöst werden.

Nicht selten basieren die Anomalie-Erkennung auf Regeln, die der Nutzer individuell vorgibt. Die Regeln werden in der Art formuliert, „Benachrichtige mich, wenn der durchschnittliche Bestellwert im Vergleich zum Vortag um 10% sinkt.“

Nach unserem Verständnis ist dies keine echte Anomalie-Erkennung, denn eine Abweichung von 10% gegenüber dem Vortag kann durchaus normal und wiederkehrend sein. Eine klassische Erklärung ist das Wochenende. Eine individuellere Erklärung sind regionale Feiertage, geplante Wartungsfenster oder Ähnliches.

Eine Abweichung von 0,2% zum Vortag ist bestimmt keine Anomalie

Eine Anomalie ist nicht dadurch definiert, dass die Abweichung zum erwarteten Wert besonders groß ist. Auch geringe Schwankungen in den Daten können Anomalien darstellen!
Hier zeigt sich deutlich, dass für die zielgerichtete Erkennung von Anomalien der jeweilige Anwendungsfall entscheidend ist. Hierbei spielen zeitliche Auflösung der Daten und die Datenqualität eine große Rolle.

Anomalien folgen keiner Regel

Die bisherigen Beispiele zeigen, dass die Festlegung einer Anomalie stark von dem Betrachtungskontext und dem Anwendungsfall abhängt.
Einfache Regeln, die nur die Veränderung der gemessenen Werte berücksichtigen, sind nicht in der Lage alle Anomalien zu erkennen.

Bei einem Regel basierten Ansatz besteht auf der einen Seite ein hohes Risiko zu viele Werte als vermeintliche Anomalien zu erkennen. Insbesondere falsch-positiv Erkennungen, die durch Saisonalitäten erklärbar sind (Wochenende, Feiertage, Jahreszeiten, etc.).

Auf der anderen Seite besteht ein hohes Risiko, dass Anomalien außerhalb der festgelegten Regeln nicht erkannt werden. Dies resultiert in vielen falsch-negativ Erkennungen.

Insgesamt ist die Fehlerquote einer Regel basierten Anomalie-Erkennung hoch.

Anomalie-Erkennung mit ed.Detect und Machine Learning

Bei e-dynamics haben wir uns intensiv mit den mathematischen Grundladen der Anomalie-Erkennung befasst. Aus den Überlegungen und ersten Prototypen ist mit ed.Detect eine Software-Lösung entstanden, die Anomalien mit Machine Learning Algorithmen erkennt.
ed.Detect nutzt verschiedene und selbstlernende Algorithmen. Mittels Konfiguration werden die Algorithmen sehr zielgenau an die verschiedenen Anwendungskontexte angepasst. Hierdurch erzielt ed.Detect eine sehr hohe Genauigkeit bei der Erkennung von Anomalien.

ed.Detect besitzt eine direkte Anbindung an Adobe Analytics und die Adobe Experience Cloud sowie an Google Analytics und Google Big Query.
Ein integriertes Modul zur automatisierten Erstellung von Mitteilungen ist ebenfalls enthalten.

Als Teil der e-dynamics Data Platform (EDP) ist die Nutzung von ed.Detect nicht auf Verhaltensdaten digitaler Kommunikationskanäle beschränkt.
ed.Detect kann auf alle Daten mit einem zeitlichen Bezug angewendet werden.
Anwendungsbereiche sind neben anderen die Suche nach fehlenden Werten (Missing Data), die Analyse von Zahlungsdaten und Qualitätssicherung von Produktionsprozessen.

Sprechen Sie uns an, wenn Sie mehr über die Möglichkeiten der Anomalie-Erkennung mit ed.Detect erfahren möchten. Wir stellen die Einsatzmöglichkeiten gerne in einem persönlichen Online-Termin detailliert vor. Darüber hinaus bieten wir die Möglichkeit die Lösung in einem Proof-of-Concept mit Ihren eigenen Daten zu testen.

Feedback

Wir freuen uns über Feedback und weiteren Austausch zum Thema Daten-Anomalie.