donderdag 25 februari 2010

Van DNA en statistisch onbenul

In de Washington Monthly van maart/april 2010 stond een interessant artikel, getiteld DNA's dirty little secret : A forensic tool renowned for exonerating the innocent may actually be putting them in prison.


Privacy-voorvechtster Sophie in 't Veld bracht het artikel via twitter onder mijn aandacht.

Waar gaat het over?
Kort gezegd kan een (onvolledig) profiel van forensisch DNA-bewijsmateriaal leiden tot een 'match' met een onschuldige, door verkeerde zoekmethodes in databases en gebrek aan kennis over statistiek bij politie, justitie en de rechterlijke macht. En, in de Verenigde Staten, de jury.
Want vooral de jury leidt aan het CSI-effect, waarbij mensen het realiteitsniveau van series als CSI overschatten en onmenselijk hoge verwachtingen hebben van echte forensische wetenschap. Gevolg is dat een DNA-match als absolute waarheid wordt gezien, waarover dus geen twijfel bestaat.

Wat gaat er mis?
Bij het analyseren van DNA, richten wetenschappers zich idealiter op dertien markers, genetische merkers, ook wel loci genoemd. De kans om twee mensen te vinden waarbij alle dertien merkers overeenkomen, is ongeveer één op een biljard (dat is 1:1.000.000.000.000.000). Maar hoe minder merkers er vergeleken worden, hoe groter de kans dat meer dan een persoon voldoet aan het profiel. Familieleden delen er vaak een behoorlijk aantal en zelfs vreemden hebben wel twee of drie overeenkomstige merkers.

Een DNA profielmatch is vooral zinvol bij het matchen van bewijsmateriaal met een bekend aantal verdachten. Nu is in een strafzaak het DNA-bewijsmateriaal vaak verontreinigd of verouderd, waardoor de dertien merkers nooit gehaald worden. Door een profiel te maken op basis van minder merkers, verhoogt de kans dat het bij meer dan één persoon matcht. Overigens is dat nog steeds niet heel problematisch; in het artikel wordt een voorbeeld aangehaald van een profiel op basis van vijf-en-een-halve merker, met een kans van één op een miljoen op een verkeerde match. Ook dat is nog wel te gebruiken bij een beperkte lijst verdachten.

Maar dan gaat het mis. De opsporingsdiensten gebruiken grote databases met DNA-profielen om de dader te vinden, in plaats van te vergelijken met het lijstje verdachten. De zoekmethode wordt omgekeerd: van een gerichte vraag naar datamining. Daarbij beseft men niet dat de kans op een nep-match flink verhoogd wordt. Immers, als de kans op een misser één op een miljoen is en je vergelijkt met één miljoen profielen in de database, dan is de kans groot dat je een 'match' hebt. Maar dus niet per sé de juiste.

In het geval van het artikel ging het over een database van ruim 300.000 profielen, waardoor de kans niet 1 : 1.000.000 was, maar ongeveer 1 : 3 Dit was de jury niet duidelijk gemaakt en de advocaat mocht het om onduidelijke redenen niet aanvoeren.

Wat betekent dit?
Het voorbeeld geeft aan dat de redenatie "ze mogen alles van me weten, want ik heb niets te verbergen" op zijn zachtst gezegd wat naïef is. Met de huidige werkwijze zou het wel eens kunnen betekenen dat de frequentie waarmee jouw gegevens in een database voorkomen recht evenredig is met de 'pakkans'.
Daarnaast geeft het ook aan dat toezicht op privacy-gevoelige (politionele) informatiebestanden veel verder moet gaan dan alleen het doel van de verzameling, authorisatie en de beheersomgeving; er moet ook gecontroleerd worden op de kwaliteit van het gebruik. Gebruikers van deze informatie moeten opgeleid en bijgeschoold blijven worden en hun handelingen met de verzameling moeten niet alleen gemonitord worden, maar ook geregeld geëvalueerd en zo nodig gecorrigeerd worden. De enorme hoeveelheden niet-openbare, complexe data waar bijvoorbeeld een wetshandhaver mee te maken krijgt, gecombineerd met de verbeterde zoekmogelijkheden, vereist een effectief en nauwgezet toezicht. Een toezicht dat veel verder gaat dat periodieke audits, managementrapportages of die hemeltergende auditvorm waarbij de informatie-eigenaar het onderzoek zelf mag uitvoeren; de self-audit.

En in Nederland?
In het wel heel korte literatuuronderzoekje dat ik heb uitgevoerd, kwam bovenstaand probleem niet naar boven. Voor zover bekeken, besteedt het Nederlands Forensisch Instituut (NFI) er op haar site dnasporen.nl geen aandacht aan en de meeste ander artikelen gaan over het DNA-onderzoek zelf. Uiteraard zal dit probleem in het Nederlandse strafrecht ook bestaan. Maar er wordt niet uitgebreid over gepubliceerd.

Drie interessante bronnen:
Statistiek in de rechtzaal, over de zaak Lucia de B. (2004)
www.dnasporen.nl, het NFI over de DNA-databank en en forensisch DNA-onderzoek. (z.d.)
De DNA-databank van het NFI

Bron afbeeldingen:
http://auniquefindgiftbaskets.com/Zen/index.php?main_page=popup_image&pID=26
http://tvshowsforall.files.wordpress.com/2009/01/csi.jpg
http://puesoccurrences.wordpress.com/2009/07/
http://sdow.semanticweb.org/2008/pub/slides/SDoW2008-slides-Beyond-Walled-Gardens-Open-Standards-for-the-Social-Web/privacy.gif

Update (9/3/2010):
Het Eggensinstituut van de Universiteit van Amsterdam biedt een tweedaagse cursus aan voor advocaten en magistratuur, met de titel: Interpretatie van forensische & statistische DNA-onderzoeksgegevens. De cusus gaat er vanuit dat forensisch(DNA) bewijs een steeds prominentere rol in het huidige strafproces speelt:
In deze tweedaagse cursus zal door deskundige docenten aan u worden uitgelegd hoe deze rapporten geïnterpreteerd dienen te worden. U leert onder meer in een praktijksessie (rollenspel - waaraan ook leden van de zittende en de staande magistratuur zullen deelnemen) hoe deze kennis toe te passen in de zittingszaal. U krijgt inzicht in goede en foute rederneringen bij de interpretatie van onderzoeksresultaten en de bewijswaarde daarvan, mede aan de hand van concrete zaken. U krijgt ook uitleg over het formuleren van een relevante onderzoeksvraag. Verder zullen nieuwe (wettelijke) ontwikkelingen aan de orde komen, waaronder de positie van de deskundige en de aan hem/haar te stellen vragen en eisen.

Geen opmerkingen: