jun 2, 2016 / door Jan-Willem Ligtelijn / In Piwik, Webstatistieken

Piwik en Google Analytics – Data ownership en dataverbruik

In ons vorige blog over de verschillen en overeenkomsten tussen Piwik en Google Analytics hebben we een aantal onderwerpen de revue laten passeren. We hebben het gehad over een stukje historie, fundamentele verschillen en de wijze waarop beide pakketten omgaan met privacy. In dit deel gaan we verder in op data ownership en dataverbruik.

Piwik en Google Analytics: Data ownership

Databeveiliging en data ownership is een groot aandachtsgebied binnen nagenoeg elke IT afdeling. Een steeds groter wordende groep van bedrijven en organisaties kiezen specifiek voor data warehouses en on premises hosting om zo de verzamelde data binnen hun eigen omgeving te houden zonder dat deze data ter beschikking wordt gesteld aan derden. Vreemd genoeg zien we dat deze aandacht minder aanwezig is als het gaat om web-tracking data. Zonder aarzeling worden gebruikersdata ingeruild voor een gratis analytics tool. Waarom is data ownership zo belangrijk? En hoe gaan Google Analytics en Piwik om met data ownership?

Wat betekent data ownership nou precies?

Data ownership verwijst naar het uitoefenen van uw juridische rechten en beheer over een informatieverzameling. In andere woorden: U kunt deze data creëren, wijzigen, delen en de toegang beheren tot deze data. Data ownership is vooral belangrijk in middelgrote tot grote organisaties die afhankelijk zijn van het verwerken van de verzamelde informatie. Door de enorme aanwas van consument-gedreven data zien we een trend dat organisaties het beheer en analyse van deze data outsourcen aan externe bureau’s. Webstatistieken zijn cruciaal om uw organisatie aan te sturen en verantwoording af te leggen, maar eigendomsrecht op de data die u verzamelt (data ownership) is net zo cruciaal. Als u geen controle heeft over uw dataverzameling kan dit potentieel het bedrijf schaden. Uw organisatie zou het niet wenselijk vinden dat al uw CRM informatie in handen zou vallen van een reclamebureau. Zeker niet als dit reclamebureau voor uw concurrent werkt. En dat is precies het pijnpunt bij diverse cloud-hosted oplossingen.

De “kleine lettertjes” van Google Analytics

Als u Google Analytics gebruikt, weet u niet precies waar uw data is opgeslagen, verwerkt wordt en wie erbij kan. Daarom is het belangrijk om de juridische paragraaf over informatierechten van de voorwaarden van Google Analytics goed te lezen (“de kleine lettertjes”):

6 – Informatierechten

Laten we eens kijken naar de stukken tekst die specifiek gaan over data ownership. In het volgende stukje tekst lezen we iets onheilspellends:

Behoudens de voorwaarden van haar privacybeleid (zie www.google.com/intl/nl/policies/privacy/) mogen Google en haar volledige dochterondernemingen de verzamelde informatie over Uw gebruik van de Service behouden en gebruiken.

In het kort staat hier simpelweg dat Google zich bedient van het recht om uw informatie te gebruiken. De tijden dat softwareleveranciers geld vroegen voor hun product en in ruil daarvoor het beheer van uw data streng oppakten en daarnaast niets deelden met derde partijen zijn helaas voorbij. Google biedt haar diensten gratis aan, zolang u Google toegang geeft tot de verzamelde data. Dat dit niet zoveel problemen geeft voor kleine bedrijven kan zo zijn, maar het is zeker geen optie voor het grootbedrijf en de overheid/publieke sector. Als u op de één of andere manier de Algemene Voorwaarden van Google schendt kunnen ze uw account deactiveren en bent u al uw data kwijt. Natuurlijk kunnen grote bedrijven en overheden kiezen voor GA360. De exacte kosten hiervan zijn nog niet bekend, maar GA Premium was aan te schaffen vanaf 150.000 dollar. Dan heeft u volledig data ownership. Maar kunt en wilt u dat betalen?

Piwik: 100% Data ownership

Piwik geeft u 100% eigendom over uw data. Piwik host u zelf. De software draait op uw eigen infrastructuur en alle data wordt verzameld in uw eigen MySQL database. U bepaalt wie er toegang heeft tot deze data. Piwik biedt een grote mate van flexibiliteit aan bedrijven en organisaties die bijvoorbeeld PII (Personally Identifiable Information) data of andere gevoelige data opslaan maar dit niet extern mogen, kunnen of willen doen. De data die binnen Piwik wordt verzameld, wordt nimmer gedeeld met derde partijen. U bent de enige eigenaar van data die wordt verzameld door uw eigen Piwik platform. Anders dan Google, ontplooit Piwik geen advertentieactiviteiten. Piwik heeft dus geen belang bij uw data. Piwik’s data ownership blijft 100% overeind staan, of u nou kiest voor de community editie, Piwik Pro On-Premises of Piwik Pro Cloud. Als u gebruik maakt van de Cloud oplossing kunt u ten alle tijden een dump opvragen van uw database. De dump wordt binnen drie werkdagen geleverd. De cloud hosting oplossing van Piwik is volledig conform nationale en internationale wet- en regelgeving ingericht. Daarom maken veel overheidsinstanties over de hele wereld al gebruik van de Piwik Pro Cloud oplossing.

Piwik Pro is al te gebruiken vanaf € 29,- per maand en dus veel goedkoper dan Google Analytics 360.

Concluderend:

  • Data = macht. Dit betekent dat het een grote bedreiging kan vormen voor elke organisatie als de data niet goed beheerd wordt.
  • De standaard Google Analytics lijkt gratis, maar u betaalt met uw data ownership. Is uw organisatie welwillend om dit bewust op te geven? Of betaalt u 150.000 dollar?
  • Piwik biedt standaard 100% data ownership, ongezien welke editie van Piwik u gebruikt.

Dataverbruik en tracking limieten

Alle software heeft zijn limieten. Zowel Piwik als Google Analytics zijn daar geen uitzondering op. Ze verschillen wel in de wijze waarop beide pakketten omgaan met dataverbruik en data tracking. Waar dient u op te letten als u nadenkt over welke tool u wilt gaan gebruiken? Google Analytics geeft openlijk toe dat ze bepaalde harde limieten binnen hun dienst inzetten om het systeem te beschermen tegen het verwerken van een te grote hoeveelheid data. Daarom zitten er limieten aan het aantal properties, doelen en transacties die u kunt meten. Als een gebruiker over de limieten schiet, zullen de acties die daarna doorgegeven worden aan Google Analytics niet meer worden verwerkt. Om dezelfde rede sampeled Google uw data. Hierover later meer.

De enige limiet waar Piwik tegenaan kan lopen worden bepaald door uw eigen infrastructuur. Piwik kan zonder problemen miljoenen pageviews verwerken en dat gegarandeerd zonder enige vorm van sampling te gebruiken. Uiteraard is het verstandig om vanwege performance enige limieten in te stellen. U kunt bijvoorbeeld het aantal oude logbestanden dat in de database wordt bewaard regelmatig verwijderen. Maar u bepaalt hoeveel data u wilt verwerken, ongeacht welke versie van Piwik u gebruikt.

Als u Piwik Pro Cloud gebruikt, rekent u af op basis van het aantal acties dat Piwik moet verwerken. Met een bereik van 100.000 acties (voor € 29,- per maand) tot vijfhonderdmiljoen acties (€ 4600 per maand). Heeft u meer nodig? Geen probleem! Een simpele aanvraag en Piwik levert.

Data sampling en Google Analytics

De hoeveelheid data die Google Analytics moet verwerken is gigantisch. Om al deze data te kunnen verwerken heeft Google maatregelen moeten nemen om de hoeveelheid data die verwerkt wordt per account te limiteren. Google heeft hiervoor data sampling ingezet. Let wel dat u altijd een complete set data getoond krijgt als het gaat om bezoeken of pageviews of als uw website kleine volumes aan gebruikers verwerkt. Het probleem begint op te spelen als u een bepaalde limieten binnen Google bereikt en daar geavanceerde segmentatie op loslaat zoals omzet, conversiepercentages etc. In de gratis versie van Google Analytics wordt er gesampled vanaf 250.000 sessies per maand. Je kunt deze limiet verhogen naar 500.000 maar dit heeft een negatief effect op de laadtijd van rapportages. Als u gebruik gaat maken van Google Analytics 360 wordt de limiet gezet op 25 miljoen sessies. Daarboven wordt er ook sampling toegepast wat kan leiden tot onbetrouwbare inzichten. Als er sampling wordt toegepast ziet u dit in de rechter bovenhoek “The report is based on x visits (x% of visits)”. De sampling percentages verschillen van query tot query and het aantal sessies die in de selectie zijn meegenomen. Als u een betaalde versie van Google Analytics gebruikt kunt u de ongesamplede rapportage exporteren. Er is echter geen mogelijkheid om de ongesamplede data standaard wel te laten zien.

Data sampling en Piwik

U heeft binnen Piwik ten alle tijden toegang tot 100% ongesamplede data. U bent de enige eigenaar van deze data en de enige limiet waar u tegenaan loopt zijn de limieten die uw infrastructuur u stelt.

Volgende maand sluiten we af met een aantal functionaliteitsvergelijkingen. Wilt u meer informatie over wat Piwik voor uw organisatie kan betekenen? Neem dan contact met ons op!