Een van de toezichthouders wilde een wat meer uitgewerkte beschrijving van de steekproefbepaling, het liefst gebaseerd op de Acceptable Quality Level-methode, zoals beschreven in een blog van Ingmar Koch.
Geen onredelijke eis en daarnaast vond ik het interessant om het eens op deze situatie uit te proberen. Tijdens het uitwerken liep ik echter tegen een probleem aan, dat ik ook in een reactie op Ingmars blog beschreven heb: Wat is een acceptabel percentage voor partijen te scannen of gescande documenten (batches) die ten onrechte goedgekeurd worden?
De casus
De hieronder beschreven steekproefmethode gaat uit van een vereenvoudiging van het beproefde AQL-model . De AQL-methode geeft aan bij welke batchgrootte welke steekproef genomen moet worden en hoe groot de foutmarge binnen die steekproef mag zijn. Het originele model kent verschillende acceptatiegraden van fouten en gaat uit van drie niveaus van ‘inspectie’ of kwaliteitscontrole. Dit is echter gericht op externe leveranciers. Omdat het in dit geval een interne procedure binnen de eigen organisatie betreft, is uitgegaan van een vaste acceptatiegraad en een gemiddeld niveau van kwaliteitscontrole.
Allereerst zal vastgesteld moeten worden hoe groot de batch is waarop de steekproef genomen wordt. Dit is afhankelijk van hoe vaak men steekproeven wil nemen en in welke mate de batches van samenstelling verschillen. Als men één keer per dag een steekproef wil nemen, dan bestaat de batch uit alle gescande stukken of scans van die dag. Als men per type document wil controleren, dan wordt de steekproef per specifieke batch genomen.
Daarna moet bepaald worden hoe groot de foutmarge binnen de batch en binnen de steekproef mag zijn. In dit geval gaan we uit van het hoogst mogelijke geaccepteerde kwaliteitsniveau voor de batch, waarbij het maximaal aantal toegestane fouten in de steekproef zo dicht mogelijk bij 0 ligt (vanaf 1 fout is de batch dus afgekeurd). Dit heeft tot gevolg dat tot een bepaalde batchgrootte alle documenten bekeken moeten worden (de grijze vlakken in onderstaande tabel).
Volgens deze tabel is een steekproef bij de hoogst mogelijke kwaliteit (0,065%) pas zinvol vanaf 3201 documenten. Alle batches die 3200 of minder documenten bevatten, moeten volledig gecontroleerd worden. Dit is vermoedelijk niet realistisch. Het is in de dagelijkse praktijk wel redelijk om uit te gaan van een volledige controle bij batches van 280 of minder documenten. Volgens de tabel kan dus bij een foutmarge van 0,25% begonnen worden met steekproeven. Uiteraard kan bij grotere batches er voor gekozen worden om een lagere foutmarge te kiezen, om zo een betere kwaliteit te garanderen. Dit levert dan wel een grotere steekproef op en dus meer controlewerkzaamheden.
Voorbeeld 1:
Een batch bestaat uit 400 documenten. Er kan nu een steekproef van 50 documenten getrokken worden. Als de steekproef geen enkele fout bevat, is de gehele batch goedgekeurd. Als de steekproef 1 of meer fouten bevat is de hele batch afgekeurd.
Voorbeeld 2:
Een batch bestaat uit 12.000 documenten. Er kan nu een steekproef van 315 documenten getrokken worden. Als de steekproef 0, 1 of 2 fouten bevat, is de gehele batch goedgekeurd. Als de steekproef meer dan 2 fouten bevat is de hele batch afgekeurd.
Er kan ook voor gekozen worden het niveau op te voeren en bijvoorbeeld een foutmarge van 0,15% of zelfs 0,065% te hanteren. De steekproef blijft dan gelijk, maar het aantal geaccepteerde fouten daalt. Bij 0,15% wordt 1 fout nog als acceptabel gezien en bij 0,065% mag geen enkele fout optreden.
Het spreekt voor zich dat het kwalitatief beste resultaat wordt bereikt, als de laagste foutmarge als uitgangspunt wordt genomen.
Het probleem
Wat is een acceptabel percentage voor batches die ten onrechte goedgekeurd worden?
Ik kom daar niet uit en ik heb het idee dat de norm ook niet zo ver gaat. Je kan wel uitrekenen hoe hoog het percentage is, maar niet hoe je bepaalt wat een acceptabel percentage is. Het lijkt er op dat dat toch weer natte-vinger-werk en persoonlijke voorkeur is.
Eigenlijk is het een voortzetting van de reden om AQL te gebruiken: een logisch-rationele methode om kwaliteit te bepalen. Maar dan weer een niveau dieper. En op basis waarvan kom je dan weer tot die dieper liggende acceptatie? Nu loop je het gevaar vast te komen in het (wetenschaps)filosofisch drijfzand dat men de oneindige regressie noemt: elke basis voor kennis (of rechtvaardiging van een theorie) heeft weer een andere basis nodig. Een theoretisch-methodisch Droste-effect.
De oplossing voor dit probleem wordt gezocht in het axiomatisch systeem of axiomatische methode, waarbij een axioma een als grondslag aanvaarde bewering is. Dus niet bewezen, maar geaccepteerd.
Ik herken dit probleem uit mijn inspectietijd: een dossier moet betrouwbaar zijn, maar wat is de definitie van 'betrouwbaar'? Nou, dat het juist, volledig en integer is! En wat is dan de definitie voor 'juist'? Nou, eh... dat het waar en relevant is. En wat is dan de definitie voor... Enzovoort.
Bij inspecties werden regels, standaarden en normen vaak als een vorm van axioma gebruikt. Nu zijn die niet zo exact als wiskundige axioma's, met als gevolg dat er nog veel ruimte voor interpretatie bleef. Alhoewel de statistische AQL-methode wat exacter is, is er nog veel discussie mogelijk over de precieze toepassing. Daarom wordt het onder archiefinspecteurs als hulpmiddel gezien en niet als 'de waarheid'. De zogenaamde professional judgement speelt zeker ook een rol.
Ingmar antwoordt op mijn probleemstelling onder andere:
Wat je wel zou kunnen doen, is andersom rekenen. Dat je dus uitgaat van de maximale kosten die je bereid bent te maken bij vervanging (en controle-werkzaamheden) en dan uitrekent hoe groot het risico op fouten dan wordt.
Dat kan je inderdaad een stapje dichterbij brengen, omdat je het dan concreet maakt. Maar het blijft een regressievraagstuk in zich hebben, omdat ook het berekenen van risico's een oneindige reeks van basisproblemen met zich mee brengt (Ingmar noemt dat 'delen door nul').
Oplossing?
Er is geen echt bevredigende oplossing, ben ik bang. Het zou wel veel discussie kunnen schelen door zo veel mogelijk acceptatiepercentages op nul te zetten, zeker als het om cultuurhistorisch erfgoed gaat (en ja, dat gaat dan dus ook over de blijvend te bewaren, net ingescande binnengekomen post...) en daarnaast aan te geven wat je maximale kosten mogen zijn. En dat is al een uitdaging op zich, omdat de meeste digitaliseringsbegrotingen zo niet worden samengesteld.
Combineer je deze uitgangspunten met een op dezelfde manier opgebouwde risicoanalyse, dan zou je in de buurt van een axioma kunnen komen. Bewezen is het zeker niet, maar we accepteren het.
Plaatjes
http://www.kennislink.nl/system/files/000/027/401/large/statistiek1.jpg?1254390645
http://www.leger1939-1940.nl/Uniform/Wielrijder/voorschrift_rijwiel_no84_1932.jpg
De casus
De hieronder beschreven steekproefmethode gaat uit van een vereenvoudiging van het beproefde AQL-model . De AQL-methode geeft aan bij welke batchgrootte welke steekproef genomen moet worden en hoe groot de foutmarge binnen die steekproef mag zijn. Het originele model kent verschillende acceptatiegraden van fouten en gaat uit van drie niveaus van ‘inspectie’ of kwaliteitscontrole. Dit is echter gericht op externe leveranciers. Omdat het in dit geval een interne procedure binnen de eigen organisatie betreft, is uitgegaan van een vaste acceptatiegraad en een gemiddeld niveau van kwaliteitscontrole.
Allereerst zal vastgesteld moeten worden hoe groot de batch is waarop de steekproef genomen wordt. Dit is afhankelijk van hoe vaak men steekproeven wil nemen en in welke mate de batches van samenstelling verschillen. Als men één keer per dag een steekproef wil nemen, dan bestaat de batch uit alle gescande stukken of scans van die dag. Als men per type document wil controleren, dan wordt de steekproef per specifieke batch genomen.
Daarna moet bepaald worden hoe groot de foutmarge binnen de batch en binnen de steekproef mag zijn. In dit geval gaan we uit van het hoogst mogelijke geaccepteerde kwaliteitsniveau voor de batch, waarbij het maximaal aantal toegestane fouten in de steekproef zo dicht mogelijk bij 0 ligt (vanaf 1 fout is de batch dus afgekeurd). Dit heeft tot gevolg dat tot een bepaalde batchgrootte alle documenten bekeken moeten worden (de grijze vlakken in onderstaande tabel).
Batchgrootte
|
Steekproef
|
Foutmarge
0,065%
|
Foutmarge
0,1%
|
Foutmarge
0,15%
|
Foutmarge
0,25%
|
Foutmarge
0,4%
|
2 tot 8
|
2
| |||||
9 tot 15
|
3
| |||||
16 tot 25
|
5
| |||||
26 tot 50
|
8
| |||||
51 tot 90
|
13
| |||||
91 tot 150
|
20
| |||||
151 tot 280
|
32
|
0
| ||||
281 tot 500
|
50
|
0
|
0
| |||
501 tot 1.200
|
80
|
0
|
0
|
1
| ||
1.201 tot 3.200
|
125
|
0
|
0
|
1
|
1
| |
3.201 tot 10.000
|
200
|
0
|
0
|
1
|
1
|
2
|
10.001 tot 35.000
|
315
|
0
|
1
|
1
|
2
|
2
|
35.001 tot 150.000
|
500
|
1
|
1
|
2
|
2
|
3
|
150.001 tot 500.000
|
800
|
1
|
2
|
2
|
3
|
3
|
500.001 en meer
|
1250
|
2
|
2
|
3
|
3
|
4
|
Volgens deze tabel is een steekproef bij de hoogst mogelijke kwaliteit (0,065%) pas zinvol vanaf 3201 documenten. Alle batches die 3200 of minder documenten bevatten, moeten volledig gecontroleerd worden. Dit is vermoedelijk niet realistisch. Het is in de dagelijkse praktijk wel redelijk om uit te gaan van een volledige controle bij batches van 280 of minder documenten. Volgens de tabel kan dus bij een foutmarge van 0,25% begonnen worden met steekproeven. Uiteraard kan bij grotere batches er voor gekozen worden om een lagere foutmarge te kiezen, om zo een betere kwaliteit te garanderen. Dit levert dan wel een grotere steekproef op en dus meer controlewerkzaamheden.
Voorbeeld 1:
Een batch bestaat uit 400 documenten. Er kan nu een steekproef van 50 documenten getrokken worden. Als de steekproef geen enkele fout bevat, is de gehele batch goedgekeurd. Als de steekproef 1 of meer fouten bevat is de hele batch afgekeurd.
Voorbeeld 2:
Een batch bestaat uit 12.000 documenten. Er kan nu een steekproef van 315 documenten getrokken worden. Als de steekproef 0, 1 of 2 fouten bevat, is de gehele batch goedgekeurd. Als de steekproef meer dan 2 fouten bevat is de hele batch afgekeurd.
Er kan ook voor gekozen worden het niveau op te voeren en bijvoorbeeld een foutmarge van 0,15% of zelfs 0,065% te hanteren. De steekproef blijft dan gelijk, maar het aantal geaccepteerde fouten daalt. Bij 0,15% wordt 1 fout nog als acceptabel gezien en bij 0,065% mag geen enkele fout optreden.
Het spreekt voor zich dat het kwalitatief beste resultaat wordt bereikt, als de laagste foutmarge als uitgangspunt wordt genomen.
Het probleem
Wat is een acceptabel percentage voor batches die ten onrechte goedgekeurd worden?
Ik kom daar niet uit en ik heb het idee dat de norm ook niet zo ver gaat. Je kan wel uitrekenen hoe hoog het percentage is, maar niet hoe je bepaalt wat een acceptabel percentage is. Het lijkt er op dat dat toch weer natte-vinger-werk en persoonlijke voorkeur is.
Eigenlijk is het een voortzetting van de reden om AQL te gebruiken: een logisch-rationele methode om kwaliteit te bepalen. Maar dan weer een niveau dieper. En op basis waarvan kom je dan weer tot die dieper liggende acceptatie? Nu loop je het gevaar vast te komen in het (wetenschaps)filosofisch drijfzand dat men de oneindige regressie noemt: elke basis voor kennis (of rechtvaardiging van een theorie) heeft weer een andere basis nodig. Een theoretisch-methodisch Droste-effect.
De oplossing voor dit probleem wordt gezocht in het axiomatisch systeem of axiomatische methode, waarbij een axioma een als grondslag aanvaarde bewering is. Dus niet bewezen, maar geaccepteerd.
Ik herken dit probleem uit mijn inspectietijd: een dossier moet betrouwbaar zijn, maar wat is de definitie van 'betrouwbaar'? Nou, dat het juist, volledig en integer is! En wat is dan de definitie voor 'juist'? Nou, eh... dat het waar en relevant is. En wat is dan de definitie voor... Enzovoort.
Bij inspecties werden regels, standaarden en normen vaak als een vorm van axioma gebruikt. Nu zijn die niet zo exact als wiskundige axioma's, met als gevolg dat er nog veel ruimte voor interpretatie bleef. Alhoewel de statistische AQL-methode wat exacter is, is er nog veel discussie mogelijk over de precieze toepassing. Daarom wordt het onder archiefinspecteurs als hulpmiddel gezien en niet als 'de waarheid'. De zogenaamde professional judgement speelt zeker ook een rol.
Ingmar antwoordt op mijn probleemstelling onder andere:
Wat je wel zou kunnen doen, is andersom rekenen. Dat je dus uitgaat van de maximale kosten die je bereid bent te maken bij vervanging (en controle-werkzaamheden) en dan uitrekent hoe groot het risico op fouten dan wordt.
Dat kan je inderdaad een stapje dichterbij brengen, omdat je het dan concreet maakt. Maar het blijft een regressievraagstuk in zich hebben, omdat ook het berekenen van risico's een oneindige reeks van basisproblemen met zich mee brengt (Ingmar noemt dat 'delen door nul').
Oplossing?
Er is geen echt bevredigende oplossing, ben ik bang. Het zou wel veel discussie kunnen schelen door zo veel mogelijk acceptatiepercentages op nul te zetten, zeker als het om cultuurhistorisch erfgoed gaat (en ja, dat gaat dan dus ook over de blijvend te bewaren, net ingescande binnengekomen post...) en daarnaast aan te geven wat je maximale kosten mogen zijn. En dat is al een uitdaging op zich, omdat de meeste digitaliseringsbegrotingen zo niet worden samengesteld.
Combineer je deze uitgangspunten met een op dezelfde manier opgebouwde risicoanalyse, dan zou je in de buurt van een axioma kunnen komen. Bewezen is het zeker niet, maar we accepteren het.
Plaatjes
http://www.kennislink.nl/system/files/000/027/401/large/statistiek1.jpg?1254390645
http://www.leger1939-1940.nl/Uniform/Wielrijder/voorschrift_rijwiel_no84_1932.jpg
7 opmerkingen:
Mooi stuk Chido!
Ik snap dat je op zoek bent naar vaste grond op basis waarvan iedereen kan vaststellen hoe en hoe vaak scans gecontroleerd zouden moeten worden, maar uiteindelijk was dat niet mijn doel bij het schrijven van de blog. Ik wilde vooral laten zien dat de je moet nadenken over de manier waarop je steekproefsgewijs controleert en dat daar al redelijk uitgewerkte methoden voor zijn.
Dat is sowieso bij vervangingstrajecten mijn houding: leg me maar uit waarom je dat op die manier doet en welke "fouten" je daarbij voorziet en/of accepteert.
Dat is ook hoe we het in Brabant de afgelopen jaren gebruikt hebben bij het beoordelen van machtigingsaanvragen. De vragen die we beantwoord wilden hebben waren: hoe controleer je? Hoe bepaal je die steekproef? Wat doe je bij fouten?
Een gemeente heeft een tijd lang ge-experimenteerd met de AQL-methode, maar uiteindelijk vastgesteld dat het voor hun te omslachtig en ingrijpend was. Zij hebben daarna een andere manier bedacht, die voor hun en ons acceptabel was.
Een andere gemeente gebruikt de methode wel en heeft de batchgrootte laten afhangen van hun controle-capaciteit. Het aantal geaccepteerde fouten werd ook grotendeels bepaald door de beschikbare tijd en financiën. Daar hebben we gezegd dat ze vooral aan hun bestuurders heel erg duidelijk moeten maken dat 100% foutloos niet bestaat.
Want dat vind ik tenslotte de allerbelangrijkste "les": we zullen fouten moeten accepteren, want het resultaat van 100% controle is niet 100% foutloos.
Het schijnt dat er "iets" over kwaliteitscontrole in de Archiefregeling komt te staan om het schrappen van de machtiging voor vervanging uit de Archiefwet te compenseren. Maar ik heb geen idee hoe dat uitgewerkt gaat worden.
Dank voor je reactie, Ingmar.
Ik weet dat je niet tot een allesomvattende oplossing wilde komen met je blog, maar er zijn collega's die dat wel als zodanig opvatten. De macht van het geschreven woord :-)
Mijn uitgewerkte methode voor deze opdrachtgever is ook slechts een handreiking, een aanvullende zekerheid. Wat ik hierboven niet vermeldde is dat alle images tijdens het vervangingsproces al twee keer onder vakkundige ogen kwamen: een keer tijdens een volledigheidscontrole na het scannen en een keer bij de registratie in het DMS. Die dubbele check leek mij voldoende, zeker als het toetsen op kwaliteit is opgenomen in het controleprotocol. Niettemin is bij de aanvraag voor een machtiging voor vervanging een steekproefprocedure opgenomen. Zoals in deze post beschreven.
(Het voordeel van deze vorm van vervanging - de routinematige vervanging - is dat er nog een derde, weliswaar ongestructureerde controle is door de behandelend ambtenaar: als die het stuk niet (volledig) kan lezen, is de kans groot dat hij of zij dat wil laten herstellen.)
Mijn conclusie is dat de AQL-methode te omslachtig is voor puur het controleren van de images bij een routinematig vervangingsproces bij een middelgrote overheidsorganisatie. Het deelproces is te klein en de aantallen zijn te laag. Het heeft weinig meerwaarde, zeker als er al andere 100%-controles ingebouwd zijn. En het levert schijnzekerheid op. Maar ik ben het met je eens: daar moet wel over nagedacht zijn en je moet het geconstateerd hebben.
Daarom geloof ik ook wel in het accepteren van fouten en de professional judgment door en van de toezichthouder. Aan de andere kant vind ik het moeilijk te accepteren dat de gemeente in je tweede voorbeeld een wisselend kwaliteitsniveau hanteert binnen hetzelfde proces. Ik begrijp dat middelen doorslaggevend kunnen zijn, maar het is de vraag of ze wel toe zijn aan vervanging, als de kwaliteit niet voorop staat.
We kunnen het de digitaliseerders gemakkelijker maken door aan te geven hoe ze toestsmethoden als AQL het best kunnen inzetten door de valkuilen te vermijden. Net zoals we bij ED3 kunnen aangeven dat het niet alleen een afvinklijstje is, maar een 'denkraam'. Zoals je blog inderdaad is bedoeld.
@Ingmar
Nog een kleine reactie op je opmerking over kwaliteitscontrole in de Archiefregeling: laten we hopen dat er iets gezegd wordt over het het extern laten toetsen van zowel de kwaliteitsprocedure als de implementatie, als de uitvoering.
Met steekproeven of zo ;-)
Een kleine correctie: die tweede gemeente hanteert geen wisselende batchgrootte en dus wisselende kwaliteiten. Het gaat daarbij om de vervanging van bestaande dossiers en ze hebben met hun leverancier afgesproken hoe groot de batch wekelijks mag zijn, op basis van de controle-capaciteit die ze zelf hebben. Dus, simpel gezegd: stel ze kunnen maximaal twee uur per week controleren, en een item controleren kost 6 minuten, dan moeten de weekbatches niet groter zijn dan 150 items. Dus dan spreken ze af dat ze iedere week max 150 items geleverd krijgen.
Ok, dat had ik niet begrepen. Het gaat dus om vertraagde vervanging en niet om routinematige vervanging?
Dan is je capaciteit mbt kwaliteitscontrole anders in te zetten, inderdaad.
Interessante materie, dank voor alle achtergrondinformatie. Kan zeker nog eens van pas komen. Want in Zeeland gebeurt alles 10 jaar later, je weet toch?! Is er al onderzoek gedaan naar kwaliteit van scanhard- en software? Want denk dat hier nog flinke slag te maken valt. Om nog maar te zwijgen van de verschillende OCR-engines. Ik weet dat eenvoudige scansoftware één engine bevat, de duurdere pakketten hebben soms wel 3 OCR-engines.
@Eric-Jan
Bij deze opdrachtgever was al veel jaren aan ervaring met scanning en digitalisering in huis. De scan- en ORC-kwaliteiten werden geregeld gecontroleerd, naar mijn idee voldoende voor een machtiging voor vervanging.
Maar het zijn inderdaad belangrijke randvoorwaarden.
Een reactie posten