User Tracking op Vlaamse krantenwebsites

Een tweetal jaar geleden deed ik al een aanklacht over user tracking op websites aan de hand van enkele Vlaamse krantenwebsites. Ik dacht dat het wel eens tijd was voor een update en een iets grondigere analyse.

Tracking: Wat? Waarom? Hoe?

(Update: Het Cambridge Analytica-verhaal werd in maart 2018 – terecht – een schandaal voor Facebook). U las misschien onlangs over het Britse bedrijf Cambridge Analytica: een shady bedrijfje dat gebeurtenissen zoals Brexit de verkiezing van Trump kon beïnvloeden dankzij illustere geldschieters en doorgedreven data-analyse. Ze doen aan politieke microtargeting: De juiste boodschap bij de juiste persoon, op het juiste moment, voor een maximale impact. Big Data is Big Business.

Bedrijven zoals Cambridge Analytica kunnen enkel effectief werken door toegang te hebben tot massieve hoeveelheden persoonlijke data. Zij – en andere behavioral advertising tech bedrijven – zijn de reden dat ons wereldwijde web het laatste decennium steeds sneller getransformeerd is van een informatiebron in een advertentie-beerput. Op nagenoeg elke website draaien processen om u te profileren en deze data achteraf voor grof geld te verhandelen in een onzichtbare miljoenenindustrie. (Aangeraden lectuur: 1, 2, 3).

Niets is écht gratis. Websites bieden “gratis content” waarvoor u eigenlijk betaalt met uw psychologisch profiel. Zonder medeweten of toestemming. Hetzelfde geldt voor de apps op uw smartphone, die steeds hongeriger om zich heen grijpen naar uw berichten, foto’s en contactpersonen.

Websites kunnen eenvoudig een brede waaier aan informatie over u verzamelen:

U bent uniek? Hoera? Nee.

  • Welke pagina’s u bekijkt. Dat is uiteraard redelijk onoverkomelijk: je browser vraagt een pagina aan een webserver, de server geeft die pagina terug en registreert dat. Edoch, hoe lang blijft zo’n logboek bewaard? Je kan het vergelijken met een bibliotheek die bijhoudt welke boeken je uitleent – voor altijd. Hoe basic ook, er wordt een profiel opgebouwd van jou, als persoon.
  • Sites kunnen cookies op uw computer opslaan en daarin informatie dumpen, om later terug uit te lezen. Cookies zijn sinds het prille begin deel van het internet, maar worden vaak misbruikt voor het bewaren van bijvoorbeeld een uniek identificatienummer. Deze info kan gebruikt worden om u opnieuw te herkennen bij een volgend bezoek. Er zijn ondertussen genoeg cookie-technieken die zelfs verwijderpogingen overleven. Stout internet. Cookies zijn echter slechts 1 van de vele pijlen in het arsenaal van trackingbedrijven.
  • Sites kunnen zoveel mogelijk informatie over je proberen te linken / te correleren om zo over meerdere websites heen een zo goed mogelijk profiel op te stellen.
    • Zonder u het beseft is de combinatie van uw verbinding, browser en hardware een unieke vingerafdruk (Zie Wikipedia: Fingerprint). Kijk bijvoorbeeld eens op Am I Unique? Deze website geeft weer hoe “zeldzaam” uw specifieke combinatie van technische factoren is, en hoe gemakkelijk het is om uw fingerprint te detecteren. Spoiler: het is erger gesteld dan u denkt.
    • Indien u tijdens het surfen ook ingelogd bent op sociale media is het mogelijk om die vingerafdruk te linken aan een specifieke naam.
    • Registreren wat u typt en weer verwijderd, waar je cursor zich op het scherm bevindt, hoe snel u scrollt … gaat gemakkelijk via JavaScript, een webtechnologie die door elke moderne browser gebruikt wordt.
    • Technieken die gebruik maken van uw microfoon of webcam worden ook al tijden toegepast.

Bovenop alle privacy-implicaties zorgen al die tracking-scripts er bovendien voor dat webpagina’s trager laden: kleine hapjes uit uw tijd én batterijduur. De gemiddelde webpagina heeft nu de grootte van de FPS-klassieker DOOM, en tracking-scripts/advertenties dragen daar enorm toe bij.

Het is belangrijk om te begrijpen dat deze problemen niet worden tegengegaan door “een goeie antivirus” (want het is technisch gezien geen malware) of “ik gebruik Mac / Linux / FreeBSD / een microgolf met Android op”. Op welke manier je een webdienst ook gebruikt, je zal geconfronteerd worden met tracking.

Testmethodologie

Ik koos 4 grote Vlaamse krantenwebsites voor een kleine analyse: Het Laatste Nieuws, De Morgen, Het Nieuwsblad en De Standaard. Telkens werd enkel de homepage van de site geopend, op 1 Augustus 2017. Ik weet dat we eind september zijn als ik dit publiceer, maar wat kan ik zeggen? Ik ben een luie beer.

Technisch: De tests werden uitgevoerd in Firefox 54.0.1 (64-bit) op Ubuntu 17.04, telkens draaiende in een VirtualBox VM. Voor elk bezoek werd de VM opnieuw geïnitialiseerd naar de beginstatus. Voor het registreren van de requests werd er gebruik gemaakt van de Lightbeam plug-in (versie 1.3.2) en van Wireshark (versie 2.4.0). De lijst met requests werd vervolgens geëxporteerd naar CSV-bestanden, waarvan de ruwe data hier beschikbaar is. Het opvragen van de locatie van servers werd gedaan via de FreeGeoIP database en dit Python script (Python 3 vereist). Requests naar Akamai (Content Delivery Network dat content in cache heeft) werden weggefilterd.

Resultaten

Per krantenwebsite geef ik een netwerkgrafiek gegenereerd door Lightbeam, om een algemene visuele indruk te geven met welke belangrijke 3rd party websites (= servers die geen onderdeel zijn van krantenwebsite) je verbindt bij het laden van de voorpagina. Deze grafiek wordt aangevuld met een weergave van het aantal 3rd party requests en een diagram van de (geschatte, via FreeGeoIP) locaties waar de servers van deze 3rd party geregistreerd staan.

Disclaimer: Dit zijn niet de énige online publicaties die in dit bedje ziek zijn. Ik wil bovendien ook niet beweren dat deze kranten (en de mensen die er zich dagelijks in het zweet voor werken) malafide bedoelingen hebben. Ik wil enkel duidelijk maken hoeveel er achter de schermen gebeurt en een conversatie starten over de noodzaak hiervan – en eventueel alternatieven aanreiken. SORRY MEDIA, LOVE YOU.

Het Laatste Nieuws (www.hln.be)

De Morgen (www.demorgen.be)

De Standaard (www.standaard.be)

Het Nieuwsblad (www.nieuwsblad.be)

Bespreking resultaten

Alle geanalyseerde krantenwebsites verbinden bij het laden van de homepage met een groot aantal advertentie en tracking-bedrijven, die elk een verschillende subset van informatie over de websitegebruiker verzamelen.

Een handvol vaak voorkomende spelers:

  • Rubicon Project: Een ad exchange / analytics bedrijf uit Los Angeles.
  • Doubleclick: Tracking solution, opgekocht door Google. (privacy policy hier)
  • Gemius: “Online Research Agency” (privacy policy – in het Pools – hier)
  • Optimizely: “Experience Optimization Platform”: Verkoopt software om websites te “personalizen” adhv gebruikersdata.
  • ScoreCardResearch: “Market Research Community” die info haalt uit “surveys en web tagging”. (das een leuk woord voor tracking)
  • Trackuity: “Trackuity simplifies acuity through tracking”
  • TiqCDN: “A tag management system designed to help manage the lifecycle of e-marketing tags (sometimes referred to as tracking pixels or web beacons), which are used to integrate third-party software into digital properties.” (nog dure woorden voor tracking)”.

Elk van deze bedrijven heeft in zijn privacy policy – als die er al is – een erg vage beschrijving van wélke data er verzameld wordt (“enkel de nodige data”, “minimaal”) en waarvoor die precies gebruikt wordt (“partners kunnen data opvragen”, “enkel voor gebruik binnen onze dienstverlening”). We hebben er als gebruikers met andere woorden slechts naar te raden wat er effectief achter de schermen gebeurt. Daar kan de krantenwebsite in kwestie geen garanties over bieden, en dat is op zich al problematisch.

Het resultaat is voor geen enkele van de onderzochte websites rooskleurig, maar Het Laatste Nieuws en Het Nieuwsblad hebben de meeste 3rd party scripts op hun homepages. Alle onderzochte websites doen beroep op een breed spectrum aan trackers. Geen enkele van de websites respecteert de “Do Not Track”-vlag, waarmee gebruikers in hun browser kunnen aangeven dat ze niet wensen getrackt te worden.

Naast enkele Belgische adverteerders (Zimmo, Jobat, Hebbes) zijn er voornamelijk buitenlandse spelers: De meeste requests gaan naar bedrijven in de Verenigde Staten (telkens meer dan 50%). Dit kan en zàl volgend jaar bij de invoering van de GDPR in Europa voor vragen zorgen. Een ander land dat opvalt is Ierland: De Europese hoofdzetel (lees: belastingstruuk) van Facebook. Het juridisch kluwen aangaande de legaliteit van het bewaren van dit soort gebruikersdata in andere landen ga ik overlaten aan advocaten (ping ping De Juristen) (antwoord: TL;DR – Niet goed!)

Elke onderzochte website heeft de verplichte waarschuwing over het gebruik van cookies. De eigenlijke verklaring laat echter te wensen over en informeert gebruikers (mijns inziens) onvoldoende over welke data er verzameld wordt, hoe lang die bewaard wordt, etc.

In het cookiebeleid van de Persgroep (De Morgen, Het Laatste Nieuws) staan een tiental van de gebruikte 3rd-party diensten beschreven, maar niet allemaal. Op het einde van het cookiebeleid wordt gesuggereerd om cookies voor de websites van de Persgroep gewoon uit te zetten, maar dit is geen oplossing tegen data die vergaard wordt op andere manieren (JavaScript tracking). In dit document is er ook sprake van de Crazy Egg-technologie, om muisbewegingen te tracken.

In het cookiebeleid van Mediahuis (De Standaard, Het Nieuwsblad) staat wat algemene uitleg over de verschillende technologieën die gebruikt worden in de pagina-tracking, maar worden geen bedrijven genoemd, of de precieze data die verzameld wordt. Ook hier wordt gesuggereerd om cookies uit te schakelen – ook hier een spreekwoordelijk doekje voor het bloeden.

Diensten die op meerdere websites aanwezig zijn

De wildgroei aan trackers op de homepages van deze kranten is zorgwekkend en tekenend voor de huidige staat van het internet. De impact is groter dan u denkt: de diensten gemarkeerd in het geel kunnen uw surfgedrag over meerdere krantenwebsites heen tracken, aangevuld met de andere plekken op het internet die u bezoekt waar zij aanwezig zijn: na zo’n ochtendje krantenartikels lezen hebben deze diensten een schrikwekkend gedetailleerd profiel.

Veel van deze bedrijven zullen beweren dat de verzamelde data geanonimiseerd wordt, want “de IP-adressen worden verwijderd” – dit is echter niet voldoende als anonimisatieproces: zie de uitleg over fingerprinting hierboven. Zelfs voor sites met veel trafiek is het mogelijk om zonder IP-adressen unieke gebruikers te identificeren: ik ben vandaag vast en zeker de enige die vanop een Ubuntu-computer met deze schermresolutie uit dit niet nader genoemde boerengat naar websites surft.

Het laden van al deze tracking meuk heeft ook invloed op de snelheid waarmee de pagina op je scherm verschijnt:

Dit is een tijdslijn van het laden van een niet nader genoemde krantenwebsite. Alles dat binnen de eerste 1.4 seconden geladen wordt is content van het artikel zelf: de tekst en de foto’s. Ongeveer alles daarna, tussen 1.4 seconden en 3 seconden, zijn tracking-scripts en advertenties. Dat is meer dan de helft van de laadtijd opgesoupeerd. En dit is dan nog op een residentiële kabelverbinding – op een mobiele verbinding is de impact nog meer voelbaar. Ook voor de batterijduur. (Oud maar relevant: Sectheory – Browser power consumption)

Kan het anders?

Zijn al deze trackingdiensten noodzakelijk? Gebruiken kranten deze explosie aan informatie wel degelijk? Krijgen ze die op een transparante manier terug van de gebruikte trackingdiensten? Wat verdienen de trackingbedrijven aan uw informatie? Hoe lang blijft deze bewaard? Ik vind het heel moeilijk om te geloven dat je +50 trackingdiensten nodig hebt om een online-platform van een krant succesvol te runnen.

Een goed voorbeeld van hoe het anders kan vinden we bij De Correspondent: zij hebben na een soortgelijk onderzoek in Nederland hun eigen website onder handen genomen, en enkele beslissingen genomen om de privacy van hun gebruikers beter te garanderen: een moedige stap, waarbij ze ook moesten toegeven dat bepaalde tracking-diensten waarop ze beroep deden nutteloos waren.

Het open-source analysepakket Piwik

Een belangrijke stap was het gebruik van het open-source pakket Piwik: een set trackingtools die je volledig in eigen beheer kan draaien: de verzamelde gebruikersdata zit dan niet meer bij een derde partij, maar wordt in eigen beheer gehouden. Bovendien respecteert Piwik de “Do Not Track”-vlag van browsers, waarmee gebruikers kunnen aangeven dat ze liever niet getrackt willen worden. Ook op deze blog wordt Piwik gebruikt.

Het is eveneens mogelijk om geembedde content (Facebook, Twitter) “click to load” te maken – zo kiest de gebruiker zelf welke van deze diensten hij wilt contacteren bij het lezen van de pagina. Je kan server-side een preview maken van de content.

Dit alles vereist uiteraard een inspanning als web developer, en is niet op 1-2-3 gefixt. Bovendien zijn een deel tools die vaak door developers gebruikt worden (Google Fonts API, Disqus, Recaptcha) moeilijker te implementeren zonder third party scripts te laden. Daarom: nog een belangrijke realisatie van De Correspondent:

Tot we ons  lang niet al die gegevens zijn nodig. In plaats van vanalles te meten en dan te kijken of we patronen kunnen vinden die ons helpen bij het verbeteren van De Correspondent, zijn we onszelf gaan afvragen wat we eigenlijk écht willen weten.

Het is mogelijk om én informatie over je gebruikers en hun gedrag te verzamelen zonder daarbij beroep te doen op 50+ externe diensten. Het kritisch evalueren van welke data je écht gebruikt, je te beperken tot een select aantal aanbieders die je vervolgens stevig in de neus gaat peuteren over hun privacybeleid en garanties vraagt voor je gebruikers is ook een heel belangrijke stap.

Zelfs indien je niet bereid zou zijn om elk van deze diensten tegen het licht te houden is het een taak (en binnenkort GDPR-gewijs een plicht) om je gebruikers gedetailleerd te informeren over wie data verzameltwaarom dat gebeurt, en welke data er verzameld wordt.

Sidenote: het boek U heeft wé iets te verbergen”, door twee Correspondenters – Maurits Martijn en Dimitri Tokmetzis – is een aanrader.

Wat kan ik als gebruiker doen?

Trackers en advertenties blokkeren in een browser is symptoombestrijding: een wapenwedloop waarbij iedereen uiteindelijk verliest. Het is nodig om onze relatie met adtech-bedrijven grondig te herzien, en als gebruikers informatie te eisen over de behandeling van onze data.

Dit gezegd zijnde, de Firefox browser van Mozilla (beschikbaar voor alle operating systems en platforme onder de zon), gecombineerd met de volgende tools / browser-plugins zijn aangeraden.

uBlock Origin in actie

  • uBlock Origin : General-purpose blocker voor advertenties, tracking en malware-domeinen. Open-source en onder actieve ontwikkeling. (Firefox Addon page). Niet te verwarren met uBlock, de originele tool die na een bitter dispuut tussen twee developers een andere richting is uitgegaan.
  • Privacy Badger: Tool van de Electronic Frontier Foundation (EFF) om trackingscripts te blokkeren.
  • Decentraleyes: Plugin om general purpose libraries (jquery, …) lokaal te laden, ipv telkens te verbinden met een centrale CDN, en dus zo aan te geven dat je bepaalde pagina’s bezoekt.
  • Better by Indie: Tool voor mobiele iOS apparaten om trackingscripts te blokkeren. Mede-ontwikkeld door Aral Balkan, een man die zeer zinnige dingen te zeggen heeft over privacy en online recht.
  • HTTPS Everywhere: Niet meteen te maken met tracking afweren, maar als u toch bezig bent met plugins te installeren is dit ook een must: Zorgt ervoor dat overal waar mogelijk een HTTPS-verbinding verkozen wordt boven een (onveilige) HTTP-verbinding. Ook van de EFF.
  • Noscript is een plug-in waar een minimum aan technische kennis voor vereist is: deze blokkeert bij default alle (java)scripts op een website, en als gebruiker kan je die dan terug aanzetten om functionaliteit te herstellen.

Andere browser-opties:

  • Over de Brave browser zijn de meningen enigzins verdeeld: Enerzijds is het en goede, snelle browser op basis van Chromium die advertenties en trackingscripts out of the box blokkeert, langs de andere kant plant Brave om de advertenties die geblokkeerd worden te vervangen door advertenties die worden gescreend op privacy-inbreuken én irritantheid. Hoedanook: Brave is een betere optie dan onbeschermd surfen.
  • In een recente update van OSX voegde Apple aan zijn browser Safari ook tracker-blocking toe. (Technische info)
  • Chrome is een dubbelsnijdend zwaard: op zich een goeie browser, en alle bovenstaande plug-ins werken er ook op, maar het blijft een beetje moeilijk om een browser aan te bevelen die beheerd wordt door een van de grootste trackingbedrijven. Er zijn ook builds zonder alle Google-meuk.
  • Edge van Microsoft heeft eveneens een uBlock Origin plug-in.

De Firefox-versie voor Android-telefoons laat ook toe om bovenstaande plugins te installeren. Voor zij die wel eens nieuwe router firmware geflasht hebben is het ook een mogelijkheid om contact met trackingdiensten te blokkeren op netwerkniveau.

Een alternatief is het gebruik van een alternatief, privacy-beschermend netwerk zoals het Tor-netwerk (het DARK WEB SPOOKY SPOOKY), maar dat is voer voor een een presentatie die ik regelmatig geef. Eenvoudiger dan  u denkt: browser downloaden op torproject.org en u bent vertrokken!

Mijden als de pest, ondanks hun naamsbekendheid: Ghostery en Adblock Plus. Beide bedrijven hebben een programma waarbij adtech-bedrijven tegen poen op een whitelist kunnen komen. (NyTimes over Adblock Plus).

SLOT

Ik moedig adtech bedrijven en hun k(l/r)anten (kijk wat ik daar deed!) aan om in dialoog te gaan en hun beslissingen toe te lichten. Ik hoop dat mijn betoog niet de indruk wekt dat ik alles wat naar advertentie of gebruikersanalyse ruikt wil platbranden. Er moet meer transparantie komen, en meer beslissingskracht in handen van de eindgebruiker. De vriendelijke mensen van Adhese gingen de dialoog al aan op Twitter, waar u mij (@jbaert) ook kan contacteren met vragen of suggesties.

Comments are closed.