Privatsphärefreundliche Analytics

Sicherlich haben alle schon einmal den Begriff “Web(site) Analytics” oder eine ähnliche Adaption davon gehört. Und natürlich ist es offensichtlich, dass wir in der heutigen Welt bei jedem Schritt, den wir online machen, über Analyse- und Trackingtechniken stolpern. Sei es in sozialen Medien, auf Nachrichten-Portalen, bei der Lieblingssuchmaschine, dem E-Mail-Anbieter oder in manchen Fällen sogar beim eigenen Arbeitgeber. [1]

Doch treten wir einen Schritt zurück und fragen nicht nur, was (Web-) Analytics sind, sondern auch, was ihre Implikationen sind und was Werbeunternehmen damit tatsächlich über jede unserer Handlungen sowie all‘ unsere Wünsche und Bedürfnisse herausfinden können. Und natürlich sollten wir uns hierbei fragen: Ist das wirklich notwendig – gibt es nicht bessere und datenschutzfreundlichere Wege unsere Ziele zu erreichen?

Was sind Web-Analytics?

Die “Web Analytics Association (WAA)” (zu dt. der Web-Analyse-Verband) definiert Web-Analytics recht kurz als:

die Messung, Sammlung, Analyse und Berichterstattung von Webdaten, um die Webnutzung zu verstehen und zu optimieren. [Übersetzung des Autors] [2]

Diese Definition gibt zwar ein breiteres Verständnis davon, was Web-Analytics beinhalten, aber sie definiert nicht klar, welche Methoden eingesetzt werden können oder sollen, welche Werkzeuge dafür erforderlich und auch praktikabel sind, was die Zieleinheit einer solchen Analyse sein könnte, welche Schritte zu unternehmen sind, um deren Privatsphäre zu wahren (falls das überhaupt gewünscht ist…) und was “Webdaten” überhaupt sind. Außerdem fehlt in der WAA-Definition eindeutig eine Aussage über den Zweck einer solchen Analyse. [3, 4]

Solche Überlegungen sind jedoch von entscheidender Bedeutung, da sie enorme Auswirkungen auf das Nutzererlebnis haben sowie auf die digitale Selbstbestimmung und natürlich auf die Effektivität der durch einen Website-Betreibenden durchgeführten Analytik.

Analyse von Datenverkehr statt Analyse von Menschen

Internet-Marketing-Experten versuchen traditionell, Erkenntnisse über den Datenverkehr einer Webseite oder Web-Applikation zu gewinnen, indem sie das Verhalten der Besuchenden während ihres Aufenthalts auf der Seite analysieren. Dieser Ansatz, auch wenn er seit mehreren Jahrzehnten als Standard gilt, hat gleich mehrere Probleme, die oft von Marketing-Teams in Unternehmen ohne tiefere Überlegungen ignoriert werden und gleichzeitig den Effekt der “digitalen Entmündigung”, wie Mülhoff es ausdrückt, vorantreiben. [5, 6]

Obwohl eine solche Verhaltensanalyse in Bezug auf die meisten Marketingkennzahlen (meist von den Werbeunternehmen selbst aufgestellt) recht effektiv zu sein scheint, ist es wichtig anzuerkennen, dass menschliches Verhalten und Denken relativ komplex ist, sich nur schwer in ein theoretisches oder mathematisches Modell integrieren lässt und von einer Reihe von Faktoren wie Kultur, Alter, Geschlecht, sozioökonomischem Hintergrund und vielen weiteren beeinflusst wird. So oder so, unabhängig davon, wie viele Daten gesammelt werden, kann menschliches Verhalten nur bis zu einem gewissen Grad erklärt oder vorhergesagt werden. [3, 5, 7]

Während es sinnvoll sein kann, einige Informationen über den Gesamtdatenverkehr sowie das tatsächlich erreichte Publikum (im Gegensatz zur Zielgruppe) zu erheben, werden solche Informationen in der Regel stark überbewertet, insbesondere in der feinen Granularität, die viele Web-Analyse-Werkzeuge bieten. Informationen, die für strategische Entscheidungen genutzt werden, lassen sich meist aus Datenaggregaten ableiten. Ironischerweise werden gesammelte Informationen auf Mikroebene oft verdichtet und zu eben solchen Aggregaten verarbeitet, welche für die Entscheidungsabteilungen in Organisationen oder Unternehmen leichter zu verstehen sind. [8]

Die Informationen, an denen Webseitenbetreibende oft tatsächlich interessiert sind, sind hauptsächlich Kennzahlen zum Datenverkehr, sowie einige zusätzliche Informationen über vage, nicht-personenbezogene Demographiekategorien der Besuchenden. Allerdings ist es in der Regel völlig irrelevant, die Eigenschaften aller einzelnen Besuchenden zu kennen. Stattdessen ist es wichtiger, wie viele (oder welcher Anteil der) Besuchenden aus dem Land X kommen, wie viele den Web-Client (Browser) Y verwenden und wie viele sich eine bestimmte Unterseite Ihrer Webseite ansehen usd., d.h. Kennzahlentabellen mit voneinander unabhängigen Zellen. [9]

Um verständlicher zu machen, was mit “Analyse von Datenverkehr statt Analyse von Menschen” gemeint ist, betrachten wir eine hypothetische Webseite, auf der sieben einzelne Besucher:innen eine oder mehrere Unterseiten zu einem bestimmten Zeitpunkt aufrufen. Man könnte nun entweder verfolgen, was die jeweiligen Besuchenden auf der Seite tun (Analyse von Menschen), oder man könnte stattdessen einen Zähler für die spezifischen Informationen einrichten, an denen man interessiert ist (Analyse von Datenverkehr).

In beiden Fällen bleiben die Schlüsselinformationen und Schlussfolgerungen anhand der Analyse die gleichen. Während jedoch die “Analyse von Menschen” das detaillierte Profil und die Bewegung jedes einzelnen Besuchenden auf einer Webseite abbildet und dadurch erhebliche Mengen an Verhaltensinformationen sammelt, kann die “Analyse von Datenverkehr” nur dazu verwendet werden, Verteilungen von Merkmalen der Besuchenden abzuleiten.

Aus solchen Aggregaten, die durch die “Analyse von Datenverkehr” erzeugt werden, können geschickte Analyst:innen (die in jedem Fall benötigt werden, um Rohdaten in Vorschläge für Marketing-Strategien zu übersetzen) immer noch wichtige und detaillierte Informationen ableiten, ohne die Privatsphäre der jeweiligen Besuchenden zu verletzen oder, noch schlimmer, ihre Identität preiszugeben.

Letztlich ist die Abwägung Informationen auf Mikroebene oder lediglich aggregierte Daten zu erheben eng mit dem Thema des Datenminimalismus verbunden. Anstatt so viele Informationen wie möglich zu sammeln und erst danach zu überlegen, was man mit den Daten anfangen könnte, sollte ein effektives und die Privatsphäre respektierendes Datenerfassungsverfahren “von hinten nach vorne” geplant werden. Das bedeutet, dass in einem ersten Schritt darüber nachgedacht werden sollte, welche Informationen benötigt werden und wie man sie erheben kann, während man einen potenziellen Verlust der Privatsphäre der Nutzer:innen gegen den tatsächlichen Gewinn für die eigene Marketing- und Produktstrategie abwägt.

Eigene oder Drittanbieter-Analysen

Insbesondere bei Open-Source-Lösungen für Web-Analytics sollten sich Betreibende einer Webseite irgendwann überlegen, ob sie den Dienst selbst (First-Party) oder durch Dritte (Third-Party), also durch einen Dienstleister betreiben lassen wollen. Während die verwendete Software in der Regel identisch bleibt, kann eine solche Entscheidung dennoch direkte Auswirkungen auf die Privatsphäre der Nutzenden sowie die Effektivität der Datenerfassung (aufgrund von Werbeblockern und ähnlicher Anti-Tracking-Software) und die Wartung oder Aufsicht über die Datenspeicherung oder Informationsübertragung haben.

So kann der Einsatz externer Datenverarbeitenden unter der Datenschutzgrundverordnung (DSGVO) der Europäischen Union problematisch sein, sowohl was die Verantwortlichkeit, als auch die Zustimmung der Nutzenden sowie die Einhaltung der automatischen und expliziten Aufforderung zur Löschung solcher personenbezogener Daten durch den Drittdienst betrifft. [10, 11]

Wenn die Web-Tracking Lösung stattdessen selbst betrieben werden (First-Party), haben Betreibende einer Webseite die volle Kontrolle darüber, welche Daten erhaben oder eben nicht nicht erhoben werden, wie und wo diese Daten gespeichert werden und wie lange sie aufbewahrt werden. Zum Beispiel könnten Betribende einer Webseite, die nach dem Prinzip des Daten-Minimalismus handeln, direkt kontrollieren, wie viele (oder wie wenige) Daten sie von Besuchenden sammeln. Genauso können sie entscheiden, ob sie dem Wunsch von Besuchenden, nicht verfolgt zu werden nachkommen, sollten diese darum bitten. In Anbetracht der DSGVO der EU oder ähnlicher Datenschutzbestimmungen auf der ganzen Welt könnten Betreibende einer Webseite außerdem entscheiden, keinerlei personenbezogene Daten zu sammeln und keine Tracking-Cookies zu setzen, um das Recht der Besuchenden auf Privatsphäre weiter zu stärken (und die Notwendigkeit für lästige Zustimmungsbanner zu umgehen). [12, 13, 14, 15]

Natürlich haben Betreibende einer Webseite bei den meisten proprietären Analyse-Lösungen nicht die Möglichkeit, die Software auf eigener Infrastruktur selbst zu betreiben. Darüber hinaus sind sie verpflichtet, Dritt-Anbietenden nicht nur “ihre” Web-Kennzahlen anzuvertrauen (die insbesondere bei digitalen Unternehmen Rückschlüsse auf ihren Marktwert zulassen), sondern auch die Daten ihrer Besuchenden, d.h. sie entscheiden über die Privatsphäre anderer. Die Nutzung von Inhalten oder Diensten Dritter impliziert immer, dass diese Dritten Zugriff auf alle Informationen der Besuchenden haben könnten, während die eigentlichen Betreibenden der Webseite kaum einschränken können, welche Informationen weitergegeben werden dürfen und welche nicht. [16]

Zentralisierte Analytik im System des Überwachungskapitalismus

Ein erwähnenswerter Punkt ist das Zusammenspiel von Web-Analyse durch Dritte und Digitale Monopole. Durch die Ausnutzung ihrer Marktposition und der (oft aufgebauschten) Nachfrage, dem ständig wachsenden “Hunger” nach (Nutzer:innen-) datengetriebenen Anwendungen und Diensten durch sogenannte digitale Unternehmen, gelang es global agierenden Werbefirmen, einen Zustand zu erreichen, in dem nahezu das gesamte Internet ihre Analytics-Dienste nutzt bzw. sich auf sie verlässt. [17]

Das bedeutet nicht nur, dass diese Handvoll Werbefirmen es kleineren Projekten schwer machen, erfolgreich zu sein oder Innovationen voranzutreiben (insbesondere in Bezug auf die Privatsphäre der Nutzenden), sondern sie haben auch Zugang zu riesigen Mengen an Daten von Webseitennutzenden aus aller Welt und aus vielen Schichten und Nieschen, wodurch sie nahezu unbegrenztes Wissen über das (Online-) Verhalten, Wünsche und Lebensumstände von Individuen erfahren können. Dies wiederum hilft jenen global agierenden Werbeunternehmen, die Einnahmen ihres eigentlichen Geschäftsbereichs zu verbessern: Werbung durch Mikrotargeting. [17, 18]

Die Auswirkungen eines solchen Ausmaßes des sogenannten “Überwachungskapitalismus” waren bei mehreren direkten oder indirekten Versuchen (und Erfolgen) zur Manipulation demokratischer Verfahren und der politischen Meinungsbildung in jüngster Vergangenheit leicht zu erkennen, z. B. vor, während und sogar nach dem BREXIT-Referendum im Vereinigten Königreich oder der Präsidentschaftswahl 2016 in den Vereinigten Staaten von Amerika in Verbindung mit Werbeanzeigen mittels Mikrotargeting und dem Kampagnenmarketing, Desinformationskampagnen und der Beteiligung von – unter anderem – der Politikberatungsfirma Cambridge Analytica.

Es ist leicht zu erkennen, dass die Menge und Granularität der Nutzungsdaten sowie das Wissen über das Verhalten und die Wünsche einer nicht unerheblichen Anzahl von Menschen zu immenser politischer und wirtschaftlicher Macht sowie Einfluss auf die öffentliche Meinung führen. Die Dezentralisierung der Informationen über Datenverkehrs- und Nutzer:innendaten ist neben strengen und präzisen Regeln des Datenschutzes ein wichtiger erster Schritt aus der wachsenden Bedrohung durch Marktbeherrschung und Digitale Monopole.

Etablierung von Richtlinien für “Ethische Web-Analytics”

Die Frage steht nun im Raum: “Können wir es besser machen?”. Und die Antwort ist selbstverständlich “Ja, das können wir in jedem Fall”. Es gibt nur wenige präzise Richtlinien oder Versuche, “ethische” oder “datenschutzfreundliche” Web-Analytics zu etablieren, allerdings gibt es bereits einige Hinweise und Projekte, die implizit solche Richtlinien verfolgen. Dies soll also ein solcher Versuch sein, entsprechende Richtlinien aufzustellen und auch eine Einladung für andere, sich einzubringen und dazu beizutragen. [19, 20, 21]

TL; DR:

1. Sind Web-Analytics wirklich nötig?

Wie bereits zuvor erwähnt, sollten sich Betreibende einer Webseite ganz zu Beginn überlegen, ob sie Web-Analytics zwingen benötigen. Dafür ist es hilfreich zunächst zu definieren, welches Problem überhaupt gelöst werden soll und welche Informationen dafür tatsächlich benötigt werden. Werden Daten von Besuchenden dafür gebraucht oder kann darauf verzichtet werden?

Um ein reales Beispiel aus unseren eigenen Überlegungen zu geben: Die Skalierung einer Cloud-Plattform für eine große Anzahl von Nutzenden erfordert eine Menge an Informationen über die Auslastung der Server- und Netzwerkinfrastruktur. Um jedoch diese Informationen zu sammeln, ist eine Nutzer:innenverfolgung innerhalb unserer Dienste absolut nicht nötig (und könnte sogar irreführend sein). Stattdessen können wir direkt die Server- und Dienstauslastung messen (ohne zu wissen oder sich dafür zu interessieren, wer diese Auslastung im Detail verursacht) und die Infrastruktur entsprechend skalieren, ohne jemals zu verfolgen, was unsere Nutzenden auf der Plattform tun.

2. Analyse des Datenverkehrs, statt Analyse von Menschen

Wenn Betreibende einer Webseite zu dem Schluss kommen, dass sie Web-Analytics benötigen, sollten sie sich für die Analyse des Datenverkehrs, anstelle der Verfolgung ihrer Nutzenden entscheiden. Die meisten, wenn nicht sogar alle relevanten Informationen können auf diese Weise gesammelt und entsprechende Entscheidungen über die resultierenden Aggregate getroffen werden, ohne die Privatsphäre der Besuchenden zu verletzen. Viele Informationen können auch mittels der Server-Log-Analyse gewonnen werden, welche auch potenzielle Verlangsamungen aufgrund von Analytics-Code, der im Webbrowser der Besucher läuft, beseitigt.

Es sollte zusätzlich über clevere Lösungen für A/B-Tests neuer Deinste oder die Übergänge zwischen verschiedenen Unterseiten einer Webseite mit Zählern oder “Events” nachgedacht werden, anstatt jede einzelne Bewegung aller Besuchenden zu verfolgen.

Außerdem – und das ist ein wesentlicher Aspekt jedes “ethischen” Tracking-Verfahrens: Web-Analytics-Cookies sollten nicht Teil der Analysewerkzeuge von Betreibenden einer Webseite sein. Dies geht Hand in Hand mit dem vierten Punkt dieser Richtlinien, denn gerade beim Tracking durch Dritte ist das Cross-Site-Tracking eine berechtigte Sorge. Es gibt datenschutzfreundliche Methoden zum Zählen der “eindeutigen Besuchenden” einer Website oder eines Dienstes, die keine Cookies oder omnipräsente Überwachung beinhalten.

3. Nutzung von Freier statt proprietärer Software

Es gibt eine Fülle von Freien/Libre- und Open-Source-Analytics-Lösungen, so dass es kaum einen Grund gibt, sich für proprietäre Web-Analytics zu entscheiden. Es gibt außerdem viele Gründe, sich generell für Open Source Software zu entscheiden, einige davon haben wir in der Vergangenheit bereits beleuchtet:

“Digitale Selbstbestimmung”
“Plattformökonomie & Digitale Monopole”
“Daten- und Informationssicherheit”
“Freie Software – Was ist das, warum ist sie wichtig?„)

Darüber hinaus kann die Verwendung von Open-Source-Lösungen Vertrauen bei den Besuchenden schaffen, da sie ein gewisses Maß an Transparenz impliziert (und auch tatsächlich liefert). Offen darüber zu sein, was und warum man Informationen sammelt, ist nicht nur oft gesetzlich vorgeschrieben (z.B. durch die DSGVO), es kann auch die Rücksichtnahme von Betreibenden einer Webseite bezüglich des Recht der Besuchenden auf Privatsphäre und Anonymität widerspiegeln und wie die Freiheiten der Nutzenden in der eigenen Geschäftsstrategie bewertet werden.

4. Sorgfältige Bewertung von Angeboten Dritter

Insbesondere beim Einsatz von Open-Source-Lösungen, sollte in Erwägung gezogen werden, die Web-Analyse-Lösung selbst zu betreiben. Dies verhindert, dass Dritte Zugriff auf die Informationen von Besuchenden und auch auf die Statistiken der eigenen Webseite haben.

Solche Lösungen selbst zu betreiben, ist jedoch nicht immer machbar. Die Wartung einer solchen Lösung erfordert Zeit und Wissen. Der Betrieb eines veralteten oder anderweitig unsicheren Dienstes kann die eigene Infrastruktur für Eindringlinge öffnen. Dies gilt für jeden netzwerkgebundenen Dienst, wie z. B. Webseiten oder eben Cloud-Plattformen. In solchen Fällen kann der Einsatz eines “Providers” sinnvoll sein, insbesondere wenn durch die Web-Analytics Software keine personenbezogene Informationen der Besuchenden gesammelt werden, sondern lediglich Datenverkehrsaggregate. Dennoch sollten nur vertrauenswürdige Provider genutzt werden.

Was noch?

Es gibt sicherlich noch mehr Ideen von Leuten, die sich seit Jahren oder sogar Jahrzehnten mit ethischen und datenschutzkonformen Lösungen für Web-Analytics und Engagement-Analysen beschäftigen. Dieser Blogpost soll auch ein Aufruf zur Beteiligung sein, um eine gemeinsame, solide Definition für entsprechende Richtlinien für Betreibende von Webdiensten aufzustellen.

Quellen

Mojeek Team (2021): Time to Ban Surveillance-Based Advertising. Online unter mojeek.com (Aufgerufen am 2021-07-24)
Web Analytics Association (2008): The Official WAA Definition of Web Analytics. Online unter webanalyticsassociation.org (WebArchive)
Jansen, B. J. (2009): Understanding User-Web Interactions via Web Analytics. Synthesis Lectures on Information Concepts, Retrieval, and Services, 1(1), 1–102. DOI: 10.2200/s00191ed1v01y200904icr006
Zheng, J. & Peltsverger, S. (2015): Web Analytics Overview. In Encyclopedia of Information Science and Technology, Chapter 756, URL: researchgate.net
Mühlhoff, R. (2018): Digitale Entmündigung und User Experience Design. In: Leviathan – Berliner Zeitschrift für Sozialwissenschaft. 46(4), 551-574, DOI: 10.5771/0340-0425-2018-4-551
Miyazaki, A. D. (2008): Online Privacy and the Disclosure of Cookie Use – Effects on Consumer Trust and Anticipated Patronage. Journal of Public Policy & Marketing, 27(1), 19-33. DOI: 10.1509/jppm.27.1.19
Javris, P. (2020): Does targeted digital advertiseing work? Online unter usefathom.com (Aufgerufen am 2021-07-23)
Saric, M. (2020): How we use web analytics to measure our startup’s progress and make better decisions. Online unter plausible.io (Aufgerufen am 2021-07-23)
That, U. (2018): The analytics tool I want. Online unter plausible.io (Aufgerufen am 2021-07-23)
European Parliament (2016): REGULATION (EU) 2016/679 OF THE EUROPEAN PARLIAMENT AND OF THE COUNCIL. Online unter europa.eu (PDF) (Aufgerufen am 2021-07-23)
Ford, N. (2020): GDPR – Third party data processors‘ responsibilities. Online unter itgovernance.eu (Aufgerufen am 2021-07-23)
Electronic Frontier Foundation: Do Not Track. Online unter eff.org (Aufgerufen am 2021-07-23)
Matomo Team (2017): The new GDPR data protection regulation and potential consequences on Matomo. Online unter matomo.org (Aufgerufen am 2021-07-23)
Kohr, J. (2020): How to keep personally identifiable information safe. Online unter matomo.org (Aufgerufen am 2021-07-23)
Kohr, J. (2020): What is data anonymization in web analytics? Online unter matomo.org (Aufgerufen am 2021-07-23)
“Innocraft” (2017): 12 ways Matomo Analytics helps you to protect your visitor’s privacy. Online unter matomo.org (Aufgerufen am 2021-07-23)
Saric, M. (2020): Why you should stop using Google Analytics on your website. Online unter plausible.io (Aufgerufen am 2021-07-23)
Jarvis, P. (2020): Why digital privacy matters even more in 2021. Online unter usefathom.com (Aufgerufen am 2021-07-23)
Rezgur, A., Bouguettaya, A., & Eltoweissy, M. Y. (2003): Privacy on the web: Facts, Challenges, and Solutions. In IEEE Security & Privacy Magazine, 1(6), 40-49. DOI: 10.1109/msecp.2003.1253567
Paolini, M. (2010): Twitter Chatter – Web Analytics Code of Ethics. Online unter mpaolini.com (Archived version at Webarchive). (Aufgerufen am 2021-07-24)
Request Metrics Team (2021): Privacy and Ethical Web Analytics. Online unter requestmetrics.com (Aufgerufen am 2021-07-20)

Diesen Beitrag teilen:

Jan Weymeirsch

| Website

Jan ist Mitgründer von ViOffice. Er kümmert sich insbesondere um die technische Umsetzung und Wartung der Software. Seine Interessen liegen insbesondere in den Themengebieten Sicherheit, Datenschutz und Verschlüsselung.

Neben seinem Studium der Volkswirtschaftslehre, später der angewandten Statistik und seiner daran anknüpfenden Promotion, hat er jahrelange Erfahrung im Bereich Softwareentwicklung, Opensource und Serveradministration.

Jetzt neu!