Dashboards für die Marktforschung – Teil 1: Daten

Wir haben DataLion von Anfang an als Dashboardsoftware für Marktforscher*innen konzipiert. Ein Grund dafür ist sicher auch unsere berufliche Herkunft aus der Branche. Aber was genau macht eine DashboardSoftware für die Marktforschung aus? Da wir immer wieder gefragt werden, was genau DataLion von anderen Softwareplattformen unterscheidet, wollen wir in einer Serie von Blogposts das Thema „Dashboards für die Marktforschung“ aus unterschiedlichen Perspektiven beleuchten und unter anderem auf die Besonderheiten in Daten, Charttypen, Metriken und Reporting näher eingehen.

Marktforschung consumer behavior sample, Dashboards für die Marktforschung


Beginnen wollen wir mit einem Blick auf die Datenstrukturen in der Marktforschung. Hier findet man die größten Besonderheiten, die Institute und betriebliche Marktforscher*innen immer wieder aufs Neue vor große Herausforderungen in der Umsetzung in interaktive Dashboards stellen. Die typische Dashboard Software für Datenverarbeitung und Visualisierung geht in der Regel von Datenstrukturen aus der Buchhaltung aus – Umsatz und Volumen nach Region, Unternehmenseinheit, Produkt in einem bestimmten Zeitraum sind seit der Entstehung der Tabellenkalkulation in den 1980ern Jahren der typische Anwendungsfall.

Aber in der Marktforschung haben wir eine ganz andere Datenstruktur, uder Marktforschung Dashboards für die Marktforschung. Hier sind es nicht immer dieselben Produkte, die in bestimmten Zeiträumen verkauft werden, sondern Befragte, die in Fragebögen Hunderte oder gar Tausende von Fragen nach Demografie, Lebensweise, Einstellungen, Rangreihen, Präferenzen usw. beantworten. Dabei werden je nach Befragungsverlauf immer wieder unterschiedliche Bereiche übersprungen, angezeigt oder gar zufällig ausgewählt. Das Ergebnis sind Datensätze, die oft extrem „breit“ sind (also sehr viele Spalten haben), wobei aber nur ein Teil der Werte ausgefüllt sind („sparse data“).

Filter und Prozentuierung

Das führt uns schon zu der ersten Besonderheit im Dashboards für die Marktforschung: Durch die Entstehung in Online-, Telefon- oder Face-to-Face-Befragungen findet man im Datensatz oft ganze Variablenbereiche, die nur bestimmten Personen gezeigt wurden (z.B. nur Frauen oder Kennern einer bestimmten Marke). Das wiederum erfordert besondere Maßnahmen in der Auswertung: Je nachdem, welche Aussagen man treffen möchte und wie die Filterführung verläuft, muss auf eine Grundgesamtheit, ein bestimmtes Sample oder auf den Filter prozentuiert werden: 10% der Kenner einer Marke und 10% der Bevölkerung sind zwei ganz unterschiedliche Aussagen.

Ebenso wichtig ist, dass man in allen Darstellungen zu jeder Zeit erkennt, auf welche Basis hier jeweils prozentuiert wurde. Dies wird in Längsschnittbefragungen oder Tracking-Studien sogar noch weiter verkompliziert, da immer mal wieder neue Fragen hinzugenommen werden oder alte Fragen entfallen. Oder in Abfragen nach Marken werden bestimmte Merkmale hinzugefügt. Wenn man zum Beispiel in einem Balkendiagramm 10 Marken hat, die jeweils zu einem unterschiedlichen Zeitpunkt hinzugekommen sind, hat jeder Balken eine eigene Basis.

Wir haben dies in DataLion so einfach wie möglich gestaltet: Die Dashboard Software für die Marktforschung erkennt automatisch, ob sich alle Merkmale eines Charts auf dieselbe Basis beziehen oder ob es – zum Beispiel durch später hinzugekommene Merkmale – unterschiedliche Fallzahlen bzw. fehlende Werte gibt. Die Berechnung der Prozentzahlen basiert dann auf den jeweiligen Fallzahlen. Und wenn man – auch das kommt vor – eine ganz andere Variable als Basis verwenden möchte, kann man das auch einstellen, so dass Auswertungen einer Frage immer automatisch eine bestimmte Variable als Basis verwenden. So können sich unsere Anwender auf die Inhalte und Zahlen konzentrieren und müssen nicht ständig darüber nachdenken, welche Basis hier verwendet werden muss.

Dashboards für die Marktforschung Fehlende Werte

Während in den typischen Tabellenkalkulationsdatensätzen eine 0 bedeutet, dass in einem bestimmten Zeitraum schlicht nichts verkauft wurde, gibt es in Marktforschungsdaten einen großen Unterschied zwischen einer Null, einem leeren Wert und einem fehlenden Wert (Missing Value). Je nach Kontext gibt es sogar unterschiedliche Arten von fehlenden Werten: nicht im Filter, weiß nicht, sonstiges, keine Angabe etc., die oft mit unterschiedlichen Werten wie -77 oder 999 kodiert werden.

Manche dieser fehlenden Werte möchte man in Auswertungen sehen, andere jedoch nicht. Manche fehlende Werte sollten in der Berechnung von Anteilen berücksichtigt werden, andere sollten hier ausgeschlossen werden. Wer schon einmal versucht hat, mit einer Tabellenkalkulation oder einer normalen Visualisierungssoftware Auswertungen mit einer bunten Mischung an -99, -77, 99, NULL und 0 zu erstellen, kennt sicher das Gefühl der Verunsicherung, wenn ein Durchschnittswert einer Skala von 1 bis 5 auf einmal viel größer ist als er sein dürfte, oder unerwartet ein negatives Ergebnis auswirft.

DataLion Missing Values für die Marktforschung, Dashboards für die Marktforschung

Anstatt mit komplizierten Workarounds, Recodes oder Hilfsvariablen zu arbeiten, haben wir in DataLion von Anfang an ein umfangreiches Handling von Missing Values vorgesehen. Man kann die unterschiedlichen Fehlenden Werte oder Null-Werte definieren und dann wahlweise in Berechnungen einbeziehen oder ausschließen. Das funktioniert dann auch in Mittelwerten oder Summen, so dass hier eine 999 nicht als Zahl, sondern gar nicht gezählt wird.

Auch in der Angabe der Fallzahlen werden Missing Values berücksichtigt, so dass man auch hier in der Legende immer erkennen kann, auf welches Fallzahlengerüst sich Aussagen über bestimmte Filter, Zielgruppen oder Marken stützen. Denn auch wenn eine Befragung an 2.000 Personen ging: Wenn eine Marke oder ein Produkt nur für 10 Befragte echte Werte hat und ansonsten nur Missing Values, dann sollte man das in der Auswertung immer deutlich erkennen.

Dashboards für die Marktforschung – Fallzahlen

Damit kommen wir auch schon zum nächsten großen Thema: Fallzahlen. Wer aus dem Controlling oder Sales kommt, für den ergibt der Begriff „Fallzahl“ keinen Sinn. Eine verkaufte Einheit ist eine verkaufte Einheit. Und, ob in einer Filiale 100 unterschiedliche Produkte verkauft werden oder nur eines, spielt für die Aussagekraft der Zahlen auch keine Rolle.

Fallzahlen in DataLion, Marktforschung dashboard

Ganz anders ist es in der Marktforschung. Für jede Aussage müssen wir klar sehen können, auf welcher Fallzahlenbasis diese Aussage beruht. Wenn die Basis zu klein ist (z.B. kleiner als 50 oder 100), dann müssen wir besonders vorsichtig bei der Interpretation dieser Aussage sein. Und hier kommen dann auch wieder die Filter und Fehlenden Werte zum Tragen: Denn nicht die gesamte Fallzahl ist entscheidend, sondern am Ende geht es darum, wer ganz konkret diese eine Frage beantwortet hat.

Auch statistische Tests wie zum Beispiel t-Tests zum Mittelwertvergleich oder Chi-Quadrat-Tests zum Vergleich von Anteilen, benötigen die jeweiligen Fallzahlen, um ermitteln zu können, ob und wie signifikant die Ergebnisse einer Marktforschungsstudie überhaupt sind.

Dashboards für die Marktforschung – Gewichte

Als ob das nicht schon komplex genug wäre, gibt es in Marktforschungsstudien sehr häufig nicht nur eine Fallzahl, sondern gleich mehrere Fallzahlen. Denn viele Marktforschungsstudien arbeiten mit Daten, die anhand von Gewichtungsfaktoren so gewichtet sind, dass die Stichprobenanteile der wichtigsten Untergruppen – zum Beispiel Regionen oder Altersgruppen – der Verteilung in der Grundgesamtheit entsprechen.

In anderen Studien werden die Daten nicht nur gewichtet, sondern auch noch mit Hochrechnungsfaktoren auf die Grundgesamtheit projiziert. In diesem Fällen haben wir immer zwei unterschiedliche Fallzahlen – gewichtet und ungewichtet -, die in unterschiedlichen Kontexten jeweils relevant sind. Geht es um die Prüfung der statistischen Signifikanz, so zieht man die ungewichteten Fallzahlen heran, geht es um die Aussagen über Verhalten oder Einstellungen der Zielgruppen, sind die gewichteten Fallzahlen relevant.

In vielen Fällen, möchte man sich absichern, dass keine Aussagen über zu kleine Populationen getroffen werden können – entweder aus Datenschutzgründen oder aus Gründen der Belastbarkeit der Zahlen. In diesen Fällen müssen selbstverständlich die rohen, ungewichteten Fallzahlen berücksichtigt werden. Gerade in Tabellenbänden werden daher häufig beide Fallzahlen mit ausgegeben, damit man sich jeweils die relevante Fallzahl für die Auswertung zur Verfügung hat.

Gewichte in DataLion Marktforschung Dashboards

Die Mathematik hinter der Gewichtung ist zwar nicht besonders kompliziert (jeder Fall wird mit dem dazugehörigen Gewicht multipliziert und dann wird durch die Summe der Gewichte geteilt), aber die Gewichtung stets händisch zu berechnen, ist dann doch relativ aufwändig. Daher kann man in DataLion die Gewichtungsvariablen – dies können auch mehrere sein wie im Fall von Monats-, Quartals- oder Repräsentativsample-Gewichten – ganz einfach definieren und dann im Dashboard per Mausklick auswählen, ob und nach welcher Variable gewichtet werden soll. Aktuell testen wir eine DataLion-Erweiterung, die es sogar ermöglicht, Daten dynamisch in der visualisierungstool
nach Vorgaben zu gewichten.

Test DataLion Dashboardsoftware Free Demo:

Jetzt testen →

Dashboards für die Marktforschung – Datenmenge

Wer schon einmal versucht hat, den Datensatz einer Befragung mit 10.000 Spalten und 30.000 Zeilen in einer Dashboard Standardsoftware zu öffnen, weiß dass das nicht wirklich flüssig läuft. Aber gerade, wenn eine Befragung viele Multiple-Choice-Fragen hat, in denen einzelne Merkmale entweder zutreffen (1) oder nicht (0), dann können Datensätze sehr schnell in die Breite wachsen. Relationale Datenbanksysteme haben zwar mit vielen Millionen von Zeilen kein Problem, aber Zehntausende Spalten sind in der Regel nicht mehr darstellbar.

Hier haben wir mehrere Möglichkeiten im Dashboards für die Marktforschung: Entweder man zerteilt den Datensatz in mehrere horizontale Teile, die jeweils einen Teil der Variablen für alle Befragten enthalten und wertet diese Datensätze dann verknüpft über eine gemeinsame Schlüsselvariable aus – dies funktioniert in DataLion per Dropdown im Backend.

Datensatz mit Joins in DataLion Dashboards für die Marktforschung

Die zweite Variante ist die „Vertikalisierung“ des Datensatzes – d.h. man verwandelt die Spalten in Zeilen, so dass dann nur noch die Filter und die relevante Variable oder Metrik übrig bleiben. Aus 100 Spalten mit 1-5 für die Markensympathie, von denen die meisten leer sind, werden dann nur noch wenige Zeilen mit einer geringen Zahl von Spalten – z.B. die ID, ein Zeitstempel, die Marke und dann eine Spalte mit dem Wert für die Sympathie. Je nachdem wie breit ein Datensatz vorher ist, und wie stark die Spalten gefüllt sind, kann das eine sinnvolle Alternative sein. Das Berechnen der Fallzahlen lässt sich in so einem Fall, in dem es mehrere Zeilen pro Befragten gibt, in DataLion bequem über eine Formel lösen, die z.B. die unterschiedlichen IDs zählt.

Die dritte Variante sind spaltenorientierte Datenbanksysteme. Wir haben hier sehr gute Erfahrungen mit Apache Drill und Exasol gemacht, wenn es darum geht, Datensätze flüssig auszuwerten, die sowohl viele (d.h. über 2000) Spalten haben, aber auch sehr viele Zeilen umfassen. Auch hier lässt sich die Anbindung bequem im Backend einrichten.

Wir hoffen, Ihnen mit diesem Blogpost die Besonderheit der Datenstrukturen in Marktforschungsdashboards nähergebracht zu haben und freuen uns natürlich sehr über Feedback. Im zweiten Teil dieser Blogpostreihe wird es dann um Charttypen gehen, die für Marktforschungsdashboards besonders geeignet sind.

Interessiert an Marktforschungsdashboards? Büchen Sie jetzt einen Anruf: