Twinkle | Digital Commerce

Vier statistical ghosts

2019-01-22
1000562
  • 2:12

Lizzie Eardley, senior data scientist bij Skyscanner, deelde tijdens de vijfde editie van Conversion Hotel afgelopen november de inzichten van Skyscanner op het gebied van data. Bij dit bedrijf staat experimenteren hoog in het vaandel, met dagelijks vijfhonderd experimenten die live staan en in totaal meer dan tienduizend afgeronde experimenten. Het uitvoeren van betrouwbare experimenten is belangrijk om de juiste resultaten te behalen. Hieronder vier valkuilen die Eardly er tegenkomt, de zogenaamde statistical ghosts.

Tekst: Anouk Erens

Ghost 1

Bijna significant

Bij een frequentistische aanpak kun je geen uitspraken doen als: ‘Deze test is bijna significant.’ Je bepaalt van tevoren een p-waarde en achteraf beoordeel je de test daarop. Er zijn dan drie mogelijke uitkomsten:

1. In de test is een significant positief effect gevonden met een bepaalde zekerheid.

2. In de test is geen verschil aangetoond tussen de twee varianten.

3. In de test is een significant negatief effect gevonden met een bepaalde zekerheid.

Ghost 2

Meerdere segmenten

Wanneer je naar meerdere segmenten kijkt in een A/B-test, wordt de kans dat je een vals positieve uitkomst ziet bij elk segment een stukje groter. Dus hoe meer segmenten je bekijkt, hoe groter de kans dat een van deze segmenten een (vals) positief effect laat zien. Het gaat zelfs zo ver dat bij dertien segmenten de kans 50 procent is dat één of meer segmenten een vals positief resultaat laten zien. Helaas kun je niet zien welke dit is geweest en of dit daadwerkelijk het geval was.

Ghost 3

Slechte metric, verkeerde test

Voorafgaand aan een test bepaal je op welke metric je jouw test gaat afrekenen. Denk bijvoorbeeld na of je op gebruiker of op sessies wilt afrekenen. Vaak heeft gebruikersniveau de voorkeur, omdat je dan langeretermijneffecten meet. Maar sessieniveau kan ook een goede keuze zijn, als je bijvoorbeeld herhaalgedrag wilt stimuleren.

Ghost 4

Spieken

Er is volgens Lizzie een aantal redenen waarom je zou willen spieken tijdens een test. Zo wil je onder andere checken of al je data goed binnenkomen en of een experiment geen negatief effect heeft op je overall metrics.

Spieken heeft helaas ook een aantal nadelen. Wanneer je de intentie hebt ook te acteren op wat je ziet, is er een andere statistische methode nodig dan wanneer je die intentie niet hebt. Voorbeelden hiervan zijn sequential testing of continuous testing.

Kortom, er zijn veel verschillende valkuilen die de betrouwbaarheid van je experimenten kunnen schaden. ‘Je kunt je nooit beschermen tegen alles, maar zorg er in ieder geval voor dat je mensen goed getraind zijn, dat ze snappen waar ze naar kijken en dat veel gemaakte fouten bij jou niet gemaakt kunnen worden’, aldus Lizzie Eardley.

Webanalisten
Dit artikel is geschreven door Anouk Erens, senior data insights expert bij Online Dialogue, voor het online analyse- en optimalisatieplatform Webanalisten.nl. Het volledige artikel is hier te lezen.