Ter voorbereiding las ik onder andere het boek De Big Data Revolutie van Viktor Mayer-Schönberger en Kenneth Cukier. Dat versterkte mijn ideeën over het huidige beperkte selectie- en vernietigingsbeleid voor archiefstukken, maar het bevestigde vooral mijn gevoel dat de waarde van informatie (en dus ook archiefmateriaal) veel breder en langduriger is, dan binnen mijn vak wordt aangenomen. Een must-read voor iedere moderne archivaris.
De Big Data Revolutie (2013, Maven Publishing, Amsterdam) |
Definitie
Het boek gaat niet in op de technische aspecten van Big Data (juist niet), maar beschrijft het concept (waar hebben we het over) en bekijkt de maatschappelijke en economische implicaties (wat kunnen/willen we er mee). De technologie is een gegeven, hoewel er veel voorbeelden worden gebruikt om te laten zien wat het inhoudt. Dat maakt het tot een leesbaar boek, alhoewel de Amerikaanse opzet - met veel herhalingen en het continu benadrukken van het positieve - wel eens ergerlijk is.
De meeste definities van Big Data zijn technisch georiënteerd en een variant van deze beschrijving op Wikipedia:
Men spreekt van big data wanneer men werkt met één of meer datasets die te groot zijn om met reguliere databasemanagementsystemen te onderhouden. De definitie van big data is niet altijd duidelijk. Volgens Gartner gaat het in elk geval om drie factoren: de hoeveelheid data, de snelheid waarmee de data binnenkomt en opgevraagd wordt en de diversiteit van de data.De schrijvers geven geen definitie van Big Data, maar meer een visie of invalshoek voor een concept:
De term 'big data' verwijst naar dingen die je op een grote schaal kunt doen [met informatie, CH] en die op een kleinere schaal niet mogelijk zijn, en waarmee je nieuwe inzichten verkrijgt of nieuwe vormen van economische waarde creëert op een manier die invloed heeft op onder andere markten, organisaties en de relatie tussen burgers en overheden." (blz. 15)Voorbeeld
Een prachtig voorbeeld vind ik de Google Grieptrends. Door analyse van zoektermen die mensen invoerden bij Google, kon het bedrijf een model maken waarmee het de verspreiding van de wintergriep in de Verenigde Staten (en tegenwoordig 'wereldwijd') kan voorspellen. Niet alleen bleek de uitkomst zeer betrouwbaar, het was ook nog eens vele malen goedkoper en sneller dan de CDC (Centers for Disease Control and Prevention) van de federale overheid het kon.
Spaanse griep |
Ondertussen is er ook een Google Dengue-trend en persoonlijk zit ik te wachten op de Google Hooikoortstrend.
Het voorbeeld heeft alle elementen in zich die in het boek behandeld worden: de rommeligheid van de gegevens; de toename van het belang van de correlatie ten opzichte van het causale verband; de dataficatie van de wereld; de toenemende waarde van gegevens voor secundair gebruik (waarbij je van tevoren niet weet waarvoor je het nog gaat gebruiken) en tot slot de gevolgen en risico's van deze manier van hergebruik en hoe je die zou kunnen ondervangen.
Archieffuncties
Ik zal de punten uit de vorige alinea hieronder beschrijven, maar mijn interesse gaat uit naar de mogelijkheden van hergebruik (en deels ook dataficatie). Naast de drie bekende functies van archief (geheugen, verantwoording, cultuurhistorisch) leidt dit wat mij betreft tot een vierde functie, namelijk die van grondstof voor toekomstige informatieproducten. Hergebruik, niet als bijproduct van de geheugenfunctie, maar als aparte en gelijkwaardige functie.
Statistiek
Een van de uitgangspunten van Big Data is dat je alle beschikbare gegevens gebruikt en niet een steekproef. Statistisch gezien is het een steekproef met onderzoekspopulatie N = alles. Dat heeft gevolgen voor de structuur en kwaliteitseisen van de data, de foutenmarges en de onderzoeksmethodieken.
Rommeligheid
Als je alle beschikbare data gebruikt, dan is er een grote kans dat die verzameling als geheel 'rommelig' is. Dat kan op vier manieren:
- de kans op fouten neemt toe, naarmate er meer gegevenspunten worden toegevoegd. Hoe meer metingen, hoe groter de kans dat er een paar foutieve metingen tussen zitten;
- door alle beschikbare data te gebruiken, moet je verschillende soorten informatie uit verschillende soorten bronnen combineren, die niet meteen goed bij elkaar passen;
- een inconsequente manier van vastleggen kan leiden tot extra structuurproblemen bij het gebruik van de data. De termen Ministerie van Binnenlandse Zaken en Koninkrijksrelaties, BZK, Binnenlandse Zaken en BiZa, bijvoorbeeld, verwijzen allemaal naar hetzelfde instituut;
- het exporteren of verwerken van gegevens (dus het omzetten in iets anders) kan leiden tot rommeligheid.
Nou moe! |
Correlatie
Dat brengt me bij het volgende punt: het toenemende belang van correlatie ten opzichte van causaliteit.
Een correlatie is niets meer dan het meetbaar maken van een statistische relatie tussen twee gegevens. Een sterke correlatie houdt in dat er, wanneer een van de waarden verandert, een grote kans is dat de andere waarde ook verandert.
Correlaties kunnen in de praktijk gebruikt worden om verbanden aan te wijzen en voorspellingen te doen, alhoewel je nooit zekerheid hebt; alleen waarschijnlijkheid. Niettemin kan het toegevoegde waarde hebben als je correlatiesanalyses loslaat op bijvoorbeeld (historische) klantgegevens.
Het aanbevelingssysteem van Amazon is een van de meest bekende voorbeelden. Nadat de gegevens te overvloedig waren om handmatig beoordeeld te worden (de Amazon site werd oorspronkelijk door mensen beheerd), zette men Big Data technieken in om verbanden tussen producten op te sporen. De kwaliteit van de aanbevelingen schoot omhoog, evenals de verkoopcijfers. Handmatig en met de oude steekproefsgewijze statistische benadering lukte dit niet zo goed.
Voorspellingen doen op basis van correlaties spelen een cruciale rol bij Big Data en wordt al op veel plekken toegepast om waarschijnlijk gedrag van mensen te achterhalen. Daarnaast wordt de techniek gebruikt om grote mechanische of constructieve fouten op te sporen. Machines en constructies worden tegenwoordig voorzien van vele sensoren die een enorme output aan data opleveren. Monitoring en analyse van deze gegevens vormen een early warning systeem en kunnen leiden tot kwaliteitsverbetering en bijvoorbeeld kostenreductie door minder te verspillen.
De Wereldmonitor |
Correlaties vertellen ons dat er een verband is, niet waarom. Daarvoor blijft het nodig om de causaliteit te bepalen. Mooi voorbeeld is de correlatie tussen een uitbraak van polio en de stijgende verkoop van Coca Cola in de Verenigde Staten in 1950:
Jaarlijks braken er polio-epidemieën uit in de VS en zo ook in 1950. Deze uitbraak had wat meer slachtoffers dan gemiddeld en ineens zag men een causaal verband tussen het gestegen aantal slachtoffers en de gestegen coca cola verkoop. Al snel bleek dat er geen causaal verband was, maar een correlatie. De zeer hete zomer van dat jaar leidde tot een verhoogde polio-uitbraak (dit is een bekend verschijnsel, zeker als de hygiënische omstandigheden onder de maat zijn) én - niet verrassend - tot verhoogde verkoopcijfers voor (onder andere) Coca Cola.
Maar toen was de mythe van het causale verband al geboren. Mensen zijn gewend om in causale verbanden te denken en niet de (vagere) correlaties. Dit laat meteen een van de gevaren van het gebruik van correlaties zien. Wetenschappelijk is causaliteit ook ingewikkelder aan te tonen (er bestaat bijvoorbeeld geen wiskundig model voor) dan correlatie. In veel gevallen zal diepgaander onderzoek naar causaliteit pas beginnen nadat de Big Data zijn werk heeft gedaan: als we specifiek willen onderzoeken waarom en niet alleen geïnteresseerd zijn in het wat.
Causale correlaties |
Dataficatie
Door meten tot weten stond er begin vorige eeuw boven het koudste plekje op aarde; het laboratorium van Kamerlingh Onnes in Leiden (vaak verkeerd geciteerd als 'meten is weten'). De schrijvers van het boek waren vermoedelijk niet bekend met deze zin, want anders hadden ze het zeker gebruikt. Het benoemt precies wat het boek zegt over 'data': een beschrijving van iets wat kan worden vastgelegd, geanalyseerd en gereorganiseerd (blz. 114).
De schrijvers munten de term dataficatie voor dit type 'meetkunde':
Het dataficeren van een verschijnsel houdt dan in dat je het in een gekwantificeerde vorm brengt, waarin het systematisch kan worden vastgelegd en geanalyseerd.Het Google Books project wordt als een belangrijk voorbeeld genoemd: uiteraard is het eerst nodig om te digitaliseren, maar de eigenlijke, langetermijn waarde zit in het dataficeren van de gedigitaliseerde tekst door (allereerst) de tekstplaatjes te OCR-en.
[...] dat is iets heel anders dan digitalisering, de omzetting van analoge informatie in binaire, nullen en enen, zodat computers ermee overweg kunnen. (Blz. 114)
Om te dataficeren, moeten we het kunnen (weten we hoe het moet en hebben we de juiste gereedschappen) en we moeten het willen (wat wensen we te kwantificeren en vast te leggen). De bouwstenen voor dataficatie zijn al eeuwen voor het begin van het digitale tijdperk ontwikkeld. Een prachtig voorbeeld daarvan is The Physical Geography of the Sea uit 1855 van Matthew Fontaine Maury.
Als we de wereld opvatten als een zee van gegevens, dan biedt dataficatie de mogelijkheid om deze hele wereld in kaart te brengen. Of dat nou leuk is, of niet.
(Ik houd het hier kort, maar er valt veel meer te vertellen over het concept dataficatie. Zie hiervoor binnenkort mijn andere blogpost.)
Measuring your body is a scientific undertaking where precision and accuracy counts.It’s also a fun process of discovery if you are one of your favorite people. |
Waarde (ofwel hergebruik)
Alhoewel het hoofdstuk zich voornamelijk richt op de voorbeelden van mensen en bedrijven die geld verdienen met Big Data-denken, staan er ook interessante beschrijvingen in van de functie en het doel van hergebruik en van de organisatorische functies en specialisten die de meerwaarde aan de data geven.
En de voorbeelden van bedrijven zijn legio: Google, Amazon, alle grote sociale medianetwerken, alle telefoniebedrijven, alle ISP's, Farecast, Acxiom, Experian, Equifax, AirSage, Sense Networks, Coursera; maar ook 'offline' bedrijven als UPS, Honda, Walmart en Barnes & Noble. (Enzovoort, enzovoort.)
Google Books blijft een interessant voorbeeld. Niet alleen heeft het tot economische voordelen geleid; er is zelfs een nieuwe tak van wetenschap uit voortgekomen. Culturomie is een door de computer ondersteunde vorm van lexicologie die menselijk gedrag en culturele trends probeert te begrijpen door middel van kwantitatieve tekstanalyse. Google Books maakt dat goed mogelijk. In 2012 had het project al 15% van het gedrukte erfgoed van de wereld verwerkt, zo'n 20 miljoen unieke titels. Daarnaast had het bedrijf enkele handige gereedschappen ontwikkeld om onderzoek te doen (bijvoorbeeld Ngram Viewer). Dat betekent dat onderzoekers dwars door die 20 miljoen werken onderzoek kunnen doen.
Niet alleen is plagiaat zo gemakkelijker op te sporen, maar het leidde voor de Engelse taal tot de ontdekking van donkere lexicale materie: minder dan de helft van het totaal aantal Engelse woorden in boeken is ooit in woordenboeken opgenomen.
Optiewaarde
Bij Big Data geldt eigenlijk altijd dat de meerwaarde in het hergebruik zit. De schrijvers hebben het dan over de potentiële secundaire toepassingen en noemen dat de optiewaarde van gegevens.
Daarbij zien ze vier mogelijkheden voor hergebruik:
- De methodologie van de recombinante gegevens, waarbij de waarde van een wordt gecreëerd door een gegevensverzameling te combineren met een (wellicht totaal) andere verzameling.
- Uitbreidbaarheid van gegevens: door rekening te houden met de potentiële secundaire toepassing, faciliteer je een toekomstige meerwaarde. (Bewakingscamera's in winkels kijken niet alleen naar winkeldieven, maar ook naar de routes die klanten afleggen door de winkel. Google Street View-auto's verzamelen van alles, terwijl ze rondrijden.)
- Het digitale kielzog dat mensen achterlaten, de gegevensuitstoot, levert zeer veel informatie op die voorkeuren, aversies en patronen van mensen kwantificeren. Althans, bij analyse in hergebruik.
- De enorme gegevensverzamelingen van overheden, de openbare gegevens, leveren veel mogelijkheden voor hergebruik. De hele Open Data beweging is hierop geënt, met onder andere de sites data.gov, data.gov.uk en data.overheid.nl als gevolg.
Het hoofdstuk over de waarde eindigt met dit citaat:
De crux van de waarde van gegevens is hun schijnbaar oneindige potentieel aan mogelijkheden voor hergebruik: de optiewaarde ervan. Het verzamelen van informatie is essentieel maar niet voldoende, want het grootste deel van de waarde van gegevens ligt niet in het bezit ervan, maar in het gebruik.(Blz. 173)
What's in a name. |
Gevolgen
Nu lijkt het nog zo dat ideeën en expertise de grootste waarde hebben, maar dat zal verschuiven naar de waarde in de gegevens zelf. We zullen namelijk meer met de informatie kunnen doen en de bezitters van de informatie zullen zich daar steeds meer van bewust worden. En als gegevens op een slimmere, Big Data-manier worden gebruikt, kan dit gevolgen hebben voor bedrijfsmodellen en de manier waarop (keten)partners samenwerken.
Bovenstaande alinea is wat mij betreft ook (zeker) van toepassing op het archiefwezen en met name de archiefbeheerders.
Doordat Big Data veel kan voorspellen over het gedrag van mensen en dingen, zal de vakdeskundige (de specialist met veel praktijkkennis) een deel van het aanzien verliezen en de statisticus of gegevensanalist naast zich moeten dulden.
Big Data zou ook een verschuiving van het idee van schaalgrootte teweeg kunnen brengen. Bezitters van grote hoeveelheden data hebben de neiging om steeds meer te verzamelen, omdat ze daarmee tegen minimale kosten grotere winsten kunnen maken. De hoeveelheid data hangt niet per sé samen met de grootte van het bedrijf. Simpel gezegd: een klein, flexibel bedrijf kan floreren met veel data.
Risico's en controle
Eigenlijk zijn de risico's in twee categorieën op te splitsen: te veel (of een verkeerd georiënteerd) vertrouwen in de voorspellende waarde van Big Data-analyses en de verdere afbrokkeling van privacy.
Voorspellingen
Die voorspellende waarde is inderdaad een risico, zeker in een wereld waar de media-politieke waan van de dag maatgevend is geworden. Snelle, kotertermijn oplossingen hebben de voorkeur en dan wordt er minder secuur gekeken naar de doelmatigheid van het resultaat. Als statistische waarschijnlijkheid voor het gemak gezien wordt als individueel causaal verband, dan leidt dat tot fouten die soms rampzalig zijn voor het individu (zie ook mijn blog over statistiek en DNA van vier jaar geleden).
Bij misdaadbestrijding en politionele taken worden algoritmische modellen al enige tijd gebruikt om te voorspellen welke acties waar uitgevoerd moeten worden. Het is een kleine stap om voorspellingen over (het gedrag van) mensen als 'feit' te beschouwen en op basis daarvan te beoordelen en te straffen. Dan zijn we aangeland bij het scenario uit Minority Report.
Nou is hier juridisch veel tegenin te brengen, vooral omdat statistische waarschijnlijkheid geen rekening houdt met de vrije wil van de mens en het (juridisch gedefinieerde) causale verband. Maar wat als er een dodelijke variant van het griepvirus uitbreekt en de overheid bepaalt dat iedereen die met zijn zoektermen 'positief' test in de Google Grieptrends preventief in quarantaine gezet wordt?
De 'voorspellende staat' ontzegt mensen dan de verantwoordelijkheid voor hun daden. Zonder schuld kan er ook geen onschuld zijn en het boek wil dat juist in de rechtspraak of bij beoordelingen door de overheid het causale verband en de vrije wil van de mens de uitgangspunten blijven, evenals de aansprakelijkheid van de individuele burger voor zijn/haar daden. Big Data moet gezien worden als een hulpmiddel om te informeren, niet om te verklaren.
Gebruik van Big Data moet daarom hierbij aan regels gebonden zijn. Uitkomsten moeten reconstrueerbaar zijn en algoritmes en gegevensverzamelingen controleerbaar en traceerbaar. En dat zal bij Big Data-analyses niet altijd even gemakkelijk zijn (zie mijn blog over de Flash Crash van 2010).
Er zullen dus gecertificeerde onderzoekers, controleurs en gegevensverzamelingen moeten komen. Het boek wil dat oplossen middels wetgeving en interne ethiek. Dat lijkt mij een al te positief wereldbeeld, dat tot flinke misstanden gaat leiden. In dit licht is de presentatie van professor Arnold Lodder tijdens de najaarsvergadering 2013 van de NVvIR een interessante aanvulling.
Privacy
Privacy hangt nauw samen met het bovenstaande, maar heeft een andere insteek als probleem. Zoals gezegd is de meerwaarde in Big Data gekoppeld aan het optiewaarde van data: het hergebruik voor iets waar het in eerste instantie niet voor verzameld is. En dat is binnen het huidige principe van privacy aan voorwaarden gebonden.
De voorwaarden zijn samen te vatten met informeren en om toestemming vragen. En daar zit het probleem: dat zullen de meeste Big Data-verwerkers niet doen omdat dat te kostbaar wordt - hetzij omdat het om heel veel personen en data gaat, hetzij omdat het traceren van de persoon niet altijd gemakkelijk is. En juist door de Big Data technieken is anonimisering zinloos.
Het boek pleit voor een veranderend concept van privacy:
[...] bedrijven krijgen het recht om persoonlijke gegevens langer te gebruiken, maar in ruil daarvoor moeten ze verantwoordelijkheid nemen voor de toepassingen ervan en de verplichting aangaan persoonlijke gegevens na een bepaalde tijd te wissen. (Blz. 245)Privacy door aansprakelijkheid dus. Dit lijkt me een wat naïeve oplossing. Ten eerste verschillen de ideeën over het nemen van verantwoordelijkheid en over een redelijke termijn per land (hoe ga je dat als Google inrichten?) en ten tweede is handhaving voor de individuele burger bijna niet te doen.
Toekomst
Naast de trends die hierboven onder Risico's en controle beschreven staan, zien de schrijvers nog wat ontwikkelingen, die ik aan de hand van citaten uit het boek zal laten zien:
Het bezit van kennis, dat vroeger stond voor het doorgronden van het verleden, zal straks staan voor het vermogen de toekomst te voorspellen. (Blz. 266)
Uiteraard zijn de hulpmiddelen belangrijk, maar een fundamentelere (sic!) reden is dat we meer gegevens hebben, aangezien steeds meer aspecten van de wereld worden gedataficeerd. (Blz. 268)
Big Data zal onmisbaar worden voor het doorgronden en aanpakken van veel van onze dringende wereldwijde problemen. (Blz. 271)De schrijvers doelen hier op zaken als klimaatverandering, gezondheidszorg, economische ontwikkeling en conflictpreventie.
Toekomst met Siri |
Waar verleden, heden en toekomst vroeger één onverbrekelijk geheel vormden (tijd werd als iets cyclisch ervaren), heeft men nu een verleden om op terug te kijken en een toekomst om naar uit te zien als iets open en ongerept, terwijl men het heden vormgeeft.De bespiegeling over voorspellingen doet mij erg denken aan Asimovs Foundation, zoals ik bij dit boek wel vaker een link naar SF-verhalen vond:
[...]
Maar nu maken Big Data-voorspellingen de toekomst minder open, minder ongerept.
(Blz. 272-273)
Als iedereen bij de gegevens te rade gaat en Big Data-hulpmiddelen inzet, is de belangrijkste onderscheidende eigenschap wellicht onvoorspelbaarheid: het menselijke element van instincten, risico's nemen, ongelukken en fouten. (Blz. 275)Conclusie
Het boek is een aanrader. Vooral omdat het Big Data als een maatschappelijk concept behandelt en niet als een IT-probleem of een business tool, maar ook omdat het overkomt als een goede beschrijving van de huidige stand van zaken.
En het is een aanrader voor archivarissen, omdat het laat inzien dat onze huidige vakmatige methodes van beheer en selectie niet doelmatig zijn bij deze nieuwe manier van informatieverwerking. Ze kunnen er zelfs toe leiden dat we nog meer gemarginaliseerd worden en voor een groot deel zullen verdwijnen. Terwijl veel principes uit de archivistiek (ik heb het dus niet over de trucjes als vernietiging e.d.) juist nog heel waardevol kunnen zijn.
Wat mij betreft moet iedere archivaris dit boek lezen, al was het maar om met de IT-ers en managers mee te kunnen praten (of tegen te kunnen spreken).
Zo. En van nu af aan schrijf ik big data zonder hoofdletters.
Plaatjes
http://www.standard.co.uk/incoming/article8901662.ece/BINARY/original/de-big-data-revolutie---vik.jpg
http://www.geschiedenis24.nl/.imaging/stk/geschiedenis/photo/media/geschiedenis/nieuws/twee/2009/April/41893438/original/41893438.jpeg
http://img213.imageshack.us/img213/9819/achterstalligepostrv4.gif
https://www.internet-sicherheit.de/fileadmin/images/internet-fruehwarn-systeme/Internet-Fruehwarnsystem-Globus.jpg
http://amultiverse.com/wp-content/uploads/2010/09/2010-09-27-Correlation-Loves-Causation.png
http://pascalenary.files.wordpress.com/2010/10/measure-yourself.png
http://upload.wikimedia.org/wikipedia/commons/thumb/9/9e/WapenWaarde.jpg/200px-WapenWaarde.jpg
http://cdniphone.i-culture.nl/wp-content/uploads/2012/06/Siri-toekomst-voorspellen.jpg
3 opmerkingen:
Heel interessant Chido. Ik heb bijna alles gelezen! Hergebruik als nieuwe waarde van informatie is niet nieuw volgens mij. Wel als het om voorspellende waarde gaat.
Genoeg om over na te denken :)
Sluit me aan bij Luud voor wat betreft grondstof/hergebruik, alhoewel aard en schaal wel enorm aan het veranderen zijn door 'big data' (dus misschien toch een 'aparte' functie rechtvaardigen). Erg interessante blogpost, Chido! Je krijgt er vast medestanders bij. ;-)
Dank, Luud en Chris.
Aan dat hergebruik en de gevolgen voor de archivistiek ga ik nog een postje wagen.
Een reactie posten