Datenanalyse

„Blick ins Labor”

Zu unseren Aufgaben gehört die Analyse von Datenbeständen im Hinblick auf Anomalien im Sinne von Manipulationen und Fälschungen. Die dabei eingesetzten Methoden sind zum Teil sehr komplex und für den Laien kaum fassbar. Um Ihnen einen kleinen Eindruck von unserer Tätigkeit zu geben, erlauben wir mit der Ziffernanalyse einen „Blick ins Labor”, bei dem Sie auch selbst aktiv werden können.

Wahrscheinlich werden auch Sie beim Experimentieren die Erfahrung machen, dass sie technische Durchführung recht einfach ist, aber der Hauptaufwand die Interpretation der Ergebnisse darstellt. Langjährige Erfahrung hilft dabei schon…

Ziffernanalyse

Es handelt sich hierbei um ein schnelles Verfahren das einen ersten Eindruck von einem Datenbestand in Bezug auf Anomalien gibt. Der Ansatz geht auf Untersuchungen von Frank Benford zurück und ist deswegen häufig auch als Benford's Gesetz bekannt. Kurz zum Inhalt: für viele überraschend erfolgt die Verteilung der ersten Ziffer in Datenbeständen mit Umsatz-oder Einkaufsdaten nicht der Gleichverteilung. Ganz im Gegenteil: die Ziffer eins kommt typischerweise mit einem Anteil von gut 30 % am häufigsten vor, gefolgt von der zwei mit etwa 18 % usw:

Führende Ziffer Wahrscheinlichkeit
1 30,1
2 17,6
3 12,5
4 9,7
5 7,9
6 6,7
7 5,8
8 5,1
9 4,6

Dieser Ansatz wird nach seinem Entdecker Benfords Gesetz genannt. Entspricht ein Datensatz nicht diesem Gesetz, gibt es einen Hinweis auf Verzerrungen. Eine Ursache hierfür können Fälschungen oder andere Manipulationen sein. Für weitere Details hier der Link zur Wikipedia.

Wenn Sie selbst ausprobieren wollen, wie sich ihre eigenen Datenbestände verhalten, müssen Sie die folgenden Schritte durchlaufen. Alternativ können Sie sich auch eine ausführliche Anleitung als PDF-Datei herunterladen.

1. Vorbereitung eines Testdatensatzes

Der Datensatz muss folgenden Aufbau haben:

Bei der hochgeladenen Datei muss es sich um eine CSV-Datei von folgendem Format handeln:

value(2) ;(1) date(2) ;(1) subroj(2)
#,##(3) ;(1) TT.MM.YYYY(4) ;(1) Unterproject(5)

Beispieldatei

Erläuterung

  1. Die Felder der CSV-Datei werden durch ein Semikolon getrennt. Die Felder können optional mit einem Anführungszeichen " eingeschlossen werden.
  2. Die erste Zeile der Datei enthält die Spaltenüberschriften. Die werden beim Import übersprungen, und können daher beliebig sein.
  3. Hierbei handelt es sich um eine Zahl, welche als Dezimaltrennzeichen das Komma besitzt. Es handelt sich hierbei um den Betrag einer Buchung.
  4. Dieser Wert ist ein Datum, im Format "Tag.Monat.Jahr". Das Feld besitzt das Datum, an dem die Buchung stattgefunden hat.
  5. Dieses Feld dient dazu Buchungen zu bestimmten Unterprojekten zuzuweisen. Dies können zum Beispiel Filialen sein, welche miteinander verglichen werden sollen.
  6. Zeilenumbrüche in der Datei müssen durch <CR><LF> (carriage return/line feed) erfolgen. Dies ist unter Windows Standard. Linux verwendet hingegen nur ein <LF>.

Die Speicherung erfolgt als.CSV Datei; insgesamt sollten nicht mehr als 100.000 Datensätze übertragen werden.

Wichtig: Bitte verwenden Sie für ihre Experimente ausschließlich anonymisierte Spiel-oder Testdaten, da wir in diesem öffentlich zugänglichen Teil unseres Servers keine Verantwortung für Datensicherung übernehmen.

2. Anmeldung

Wenn Sie das erstme Mal Daten ins System hochladen, dann wird automatisch ein Account erstellt.

Dieses Vorgehen dient dazu, dass sie mehrere Datenbestände unabhängig voneinander speichern und analysieren können.

3. Hochladen des Datenbestands

Nach erfolgreichem Hochladen führt das System automatisch eine Ziffernanalyse durch, nachdem am Abschluss sie eine entsprechende Bestätigungsmail bekommen.

4. Ergebnisbetrachtung

Nun können Sie sich selbst davon überzeugen, ob Ihr Datenbestand dem Benfordschen Gesetz entspricht. Neben der Betrachtung als Ganzes können Sie auch Teildatenbestände miteinander vergleichen (zum Beispiel Filialen einander gegenüberstellen) oder auch die Werte verschiedener Perioden miteinander zu vergleichen. Wenn plötzlich die Daten nicht mehr der erwarteten Verteilung entsprechen, könnte dies ein Hinweis auf Verzerrungen oder Manipulationen sein.

5. Löschen der Daten

Nach Abschluss der Analysen sollten Sie Ihre Daten wieder vom Server löschen, ansonsten geschieht dies durch uns in der monatlichen Intervallen.

„Eintritt ins Labor”

Zur Interaktive Ziffernanalyse

Ihren XING-Kontakten zeigen