Umsatzprognose

Umsatzprognosen mit einer tagesgenauen Vorhersage helfen bei der Liquiditätsplanung, insbesondere bei saisonalen Umsatzschwankungen. Die Entwicklung eines Prognosemodells mit derartiger Genauigkeit erfordert mehr Datenverständnis als Vorhersagen auf Monats-, Quartals- oder Jahresbasis.
ANKHOR FlowSheet ermöglicht die interaktive Entwicklung von Umsatzprognosemodellen. Neben zahlreichen Operatoren verschiedener Progonosemethoden, unterstützt die Daten-Werkbank den Entwickler auch bei der Datenvorbereitung und der interaktiven Datenexploration.

Lösungsbeispiel:

Täglich auflaufende Daten, wie z.B. Umsätze zeigen häufig ein zyklisches Muster nach Wochentagen oder Monaten. Sie eignen sich daher für Datumsbasierte vorhersage mit Hilfe von auf Kategorien basierenden Faktortabellen.

Als Beispiel dienen hier Umsatzdaten eines Gastronomiebetriebes (Echtdaten). Es soll basierend auf Daten der Vergangenheit der Umsatz an einzelnen zukünftigen Tagen geschätzt werden.

Die Daten liegen in einer zweispaltigen Tabelle vor:

Eine erste visuelle Analyse mit dem „Datacube Visual Exploration Wizard“ bestätigt das zyklische Verhalten an Wochentagen bzw. Monaten:

Deutlich erkennbar sind der hohe Umsatz an Freitagen und Samstagen sowie der Jahreszyklus mit einem Maximum zum Dezember hin.

Ein erster trivialer Ansatz wäre, einfach den Durchschnitt aller Tage als Vorhersage zu nehmen. Dies wird mit dem folgenden Graph gezeigt, um das prinzipielle Vorgehen zu erläutern:

Nach dem Einlesen der Daten wird das Modell erzeugt, in diesem Fall eine einfache Mittelwertbildung. Die Vorhersage findet hier durch den „numrows“ und den „duprows“ Operator statt, die einfach den Mittelwert vervielfältigen. Der „RMSLE“ Operator berechnet den „Root Mean Square Log Error“ also die Wurzel des durchschnittlichen logarithmischen Fehlers. Er beträgt bei diesem naiven Ansatz 0,8 und soll als ersten Wert dienen. Der „Datacube Visual Exploration Wizard“ hilft dabei, die Ergebnisse der Vorhersage zusätzlich genauer zu analysieren.

Zeitreihen, die finanzielle Aspekte abbilden haben meist eine exponentielle Komponente, die durch Inflation oder typisches Wachstum geprägt ist. Ein guter Ansatz ist also, dieses durch eine Regression zu eliminieren.

Dieser Operator berechnet den exponentiellen Skalierungsfaktor mit Hilfe einer Regression. Das absolute Datum wird hierbei in einen Numerischen Wert umgerechnet, der die Anzahl der vergangenen Sekunden seit einem Startwert repräsentiert. Der Betrag selbst wird durch eine Division mit seinem Mittelwert in einen Faktor gewandelt. Der Betrag wird schließlich für die weitere Verarbeitung durch diesen Faktor geteilt, um den exponentiellen Wachstumsanteil aus den Daten zu entfernen.

Dieses Diagramm macht die Auswirkung der Anpassung deutlich. Die originale Kurve (blau), die eine deutlich Tendenz zeigt zu wachsen, wird entsprechend abgeflacht (rot). Die gelbe Kurve zeigt die Vorhersage basierend auf der Kombination aus Mittelwertbildung und Regression. Der erreicht RMSLE von 0,75 zeigt, dass diese Prognose bereits geringfügig besser ist.

Im nächsten Schritt soll nun die zyklische Natur der Daten ausgenutzt werden.

Hierfür nutzen wir den „Factorize by Category“ Operator, und die drei aus dem Datum destillierten Kategorien: Wochentag, Monat und Jahr. Wochentag und Monat lassen sich bei einer Vorhersage aus dem Zieldatum problemlos ermitteln. Da das Jahr aber natürlich nicht bekannt ist, bietet sich an, das Vorjahr oder aber eine Extrapolation der beiden vergangenen Jahre zu verwenden.

An den Faktoren lassen sich wieder die für das Vorhersagemodell besonders umsatzstarken Wochentage und Monate erkennen.

Die vorhergesagte Kurve (rot) folgt nun bereits ziemlich genau der originalen Kurve (blau), entsprechend ist der RMSLE nun nur noch 0.37.

Untersucht man die Umsätze auf Ausreißer, erkennt man sehr deutlich, dass die Prognose besonders an Tagen vor Feiertagen fehlerhaft ist.

Entsprechend macht es Sinn, diese getrennt zu betrachten. Hierbei sind drei Varianten zu berücksichtigen:

  • Feste Feiertage, also solche die jedes Jahr am gleichen Tag liegen (z.B. Weihnachten)
  • Bewegliche Feiertage (z.B. Ostern)
  • Sonderveranstaltungen die spezifisch für das Unternehmen sind

Der „Map Formatted Date to Value“ Operator bietet die Möglichkeit Datumsfilter mit Datumswerten zu kombinieren, um so eine Abbildung der festen und beweglichen Feiertage auf Namen zu erreichen.

Die Abbildung wird einmal für den Vortag und für die Sonderveranstaltungen noch einmal für den Tag selbst durchgeführt. Tage, die von keinem der beiden Filter gefunden werden, werden mit neutralem „datetype“ markiert.

Der „datetype“ wird dann genutzt, um unabhängige Faktorisierungen für normale und besondere Tage zu erstellen.

In der Monatsübersicht ergibt sich nur eine leichte Verbesserung:

Die neue Prognose (rot) nähert sich in einigen Monaten der Zielkurve (blau) besser an als die einfache Prognose (gelb).

Betrachtet man jedoch gezielt die Sondertage ergibt sich ein deutlich verbessertes Bild.

Die Vorhersagegüte gemessen anhand des RMSLE verbessert sich nochmal auf 0,325.

Zum Abschluss soll noch geprüft werden, ob die Vorhersage auch bei nicht trainierten Daten plausible Ergebnisse liefert. Da das Ziel eine Prognose für zukünftige Werte sein soll, bietet es sich an, die Daten in eine ältere Gruppe für das Training und eine aktuellere Gruppe für die Validierung zu teilen.

Als Faktor für ein Jahr, das nicht im Training verfügbar war, wird einfach das Vorjahr angenommen. Das Ergebnis liefert einen Fehlerwert von 0,39 – eine visuelle Inspektion zeigt deutlich, dass die Vorhersage im Mittel zu hoch ist.

Eine erste Vermutung deutet darauf hin, dass das angenommene exponentielle Wachstum in Hinblick auf fallende Zinsen eventuell nicht über mehrere Jahre konstant, und somit als zu groß geschätzt wurde. Verzichtet man auf diesen Schritt, so erhält man einen Fehlerwert von 0,32 und eine deutlich passendere Prognose im Monatsmittel.

Da es sich aber um eine tagesaktuelle Prognose handelt, ist auch wichtig einen Blick auf dieses Detail zu werfen, hier für die Monate April bis Juni.

Man erkennt wie die prognostizierten Umsätze (rot) relativ genau den tatsächlichen (blau) folgen. Auch die besonderen Termine wie Ostern, Himmelfahrt oder spezielle Aktivitäten schlagen sich korrekt nieder. Nicht erkannt wurde hingegen der Brückentag nach Himmelfahrt am 30. Mai.

Nachdem das Prognosemodell nun mit den Daten von 2014 verifiziert wurde, können die Makros des Modells für einen tatsächlichen Einsatz in eine Anwendung eingebettet werden.

Das Operatorpaar zur Erzeugung des Prognoseschätzers und Auswertung werden von einem Kalendereingabeelement, sowie einem Diagrammoperator eingerahmt. Die Sondertage für 2015 werden über einen zusätzlichen Eingang „specialdays“ bereitgestellt.

Die Vorhersage kann dann problemlos im Dashboard oder aber als Web-Applikation genutzt werden.

Newsletter-Anmeldung

Wenn Sie sich für unseren Newsletter anmelden, so erhalten Sie regelmäßig Tips und Tricks, Informationen zu Sonderangeboten und alle weiteren Neuigkeiten rund um ANKHOR FlowSheet.