Wie gewinnt man Wahlen mit Big Data?

In den letzten Tagen wurde über alle Kanäle ein Artikel aus der Schweizer Publikation „Das Magazin“ immer wieder geteilt und kontrovers diskutiert: Die Geschichte des Psychologen Michal Kosinski, der eine Methode entwickelt haben soll, die von der Data Science-Firma Cambridge Analytica aufgegriffen wurde und mit der Donald Trump letztlich die Wahl gewonnen haben soll. So zumindest wurde dieser Artikel immer wieder zusammengefasst. Doch was ist dran an der Story? Lassen sich Informationen aus Social Media wirklich dazu verwenden, Vorhersagen über Parteipräferenzen, Wahlverhalten und politische Aktivitäten zu treffen?

Image by Paul Albertella (Flickr CC-BY-SA)
Image by Paul Albertella (Flickr CC-BY-SA)

Die Antwort lautet: Auf jeden Fall. Die ungefilterten Posts, Likes und Shares in Social Media sind sehr viel konkreter und näher an der Realität als es jede klassische Wahlforschungs-Umfrage sein könnte. Wenn man diese Informationen mit anderen Daten kombiniert – zum Beispiel den Antworten einer Person in einem Psychologischen Test oder einer Umfrage à la „Welche Stadt passt am besten zu dir“ -, kann man mit den Standard-Methoden des Machine Learning tatsächlich sehr treffsichere Vorhersagen („Predictions“) treffen. In der Werbung ist das unter dem Begriff Targeting schon so weit gang und gäbe, so dass mittlerweile ein großer Teil der Werbebanner und Mailings, die man erhält, auf solchen Vorhersagen beruht.

Aber auch der Einsatz von Datenbanken und Targeting für den Wahlkampf ist in den USA mittlerweile fast schon ein alter Hut. Schon die beiden von Karl Rove geplanten Kampagnen von George W. Bush 2000 und 2004 wurden im Nachhinein als Erfolg der „Number Cruncher“ gesehen. Damals war es Alex Gage und seine Firma Target Point, der als „Entschlüssler der politischen DNA“ immer wieder in den Wahlanalysen vorgekommen ist. Selbstverständlich war das Microtargeting und Data-Mining auch in den beiden Obama-Kampagnen zentral. Hier entdeckte Jim Messina zum Beispiel die überdurchschnittliche Affinität von Frauen 40-49 mit hohem Wahlkampfspendenpotential zur TV-Serie Sex and the City. Prompt wurde die Schauspielerin Sarah Jessica Parker als Gastgeberin für ein Fundraising-Dinner gewonnen – und diese Meldung ging per Mail an alle Frauen in dieser Zielpopulation.

Da zum einen die Abstände zwischen den Kandidaten in den jüngsten Wahlen immer enger wurden, so dass wenige Tausend Stimmen wahlentscheidend werden können, und zum anderen die verfügbaren Daten (Social Media, Datenbanken, Geodaten, Wahldatenbanken) immer detaillierter und umfangreicher werden, hat auch das Targeting einen immer größeren Stellenwert in der Wahlkampfplanung gewonnen. Ziel ist es – genau wie in Lehrbüchern der klassischen Werbung – die richtigen Personen mit der richtigen Botschaft im richtigen Moment zu erwischen. Aber das Datenbankmarketing ermöglicht es, in allen drei Dimensionen immer granularer vorzugehen:

  1. Die „Zielgruppen“ sind nicht mehr grobe soziodemographische Raster, sondern sehr konkrete, oft auf Lebensstilen aufbauende Beschreibungen à la „Soccer Mom“. Oft sind es sogar nur wenige Tausende oder Hunderte Personen, die mit einer Kampagne angesprochen werden sollen.
  2. Die Botschaft wird in der Regel vor dem eigentlichen Versand intensiv AB-getestet, um die Variante herauszufinden, die in der jeweiligen Zielpopulation die größte Wirkung hat – bis hin zu individuellen Botschaften, die den exakten Musikgeschmack oder die Hobbies einer Person ansprechen.
  3. Mit Smartphones ist auch der richtige Zeitpunkt nahezu beliebig wählbar. Ob abends zuhause auf dem Sofa oder unterwegs am Bahnhof oder beim Skifahren – je nachdem, welche Botschaft kommuniziert werden soll, lässt sich der richtige Ort und die richtige Zeit exakt ansteuern.

Die aktuell heiß diskutierte psychometrische Methode, die aus Social Media-Informationen erst Persönlichkeitsprofile erstellt um dann aus diesen Profilen dann Kampagnen zu steuern, ist fast so etwas wie ein Relikt aus der Vergangenheit. Nicht nur, dass die OCEAN- oder Big Five-Persönlichkeitsprofile aus den 1930er Jahren stammen, sondern sie sind eigentlich nur eine Komplexitätsreduktion für uns Menschen, die sich 5 Dimensionen vielleicht gerade noch vorstellen können. Moderne Machine-Learning-Algorithmen können problemlos aus 10.000 dimensionalen Profilen ihre Vorhersagen treffen. Den Maschinen reicht es völlig aus, dass 200 Personen in Präferenzcluster 2049 fallen und besonders gut mit den Themen A, B, C angesprochen werden können, und sie brauchen auch keine psychologische Theorien, um Zusammenhänge zu finden und zu testen.

Welche Rolle Data Mining und Targeting in den nächsten Wahlen, vor allem der Bundestagswahl, spielen wird, werden wir sehen. Die ersten „Daten-Zauberer“ werden aber schon in Stellung gebracht.

Siehe dazu auch das Interview mit dem Zündfunk.