donderdag 2 januari 2020

Archieven en CO2: ruim je data op!



Hergebruik van boeken bij de Technische Universiteit Eindhoven

Gegevens kunnen voorkomen in talloze vormen, binnen en buiten de organisatie en worden gebruikt  door vele functionarissen. Het betreft daarbij gegevens in documenten, in metadata om die documenten toegankelijk te maken, in databases, in de vorm van teksten, foto’s, rekenbladen, ingevulde formulieren, lege formuliermodellen, tekeningen, stilstaande en bewegende beelden, gesproken woord en andere geluiden, koppelingen tussen pakketten, informatieobjecten, software om dit alles zichtbaar te maken en te onderhouden.

Hoe gaan we het 'schoon houden' van onze digitale omgeving noemen? Het woord datahygiëne  begint aarzelend bekend te worden in kringen, waar men zich druk maakt over de optimale conditie van onze geheugenbestanden.  
Als wereldbewoners hebben we de komende jaren enorme problemen te overwinnen, en dat lukt alleen met gezamenlijke inspanningen. Steeds meer mensen onderkennen de grote klimaatveranderingen, maken zich zorgen en erkennen dat maatregelen geboden zijn. In Nederland hebben we te maken met een moeilijk oplosbare stikstof- en CO2-problematiek. Een klimaatprobleem los je niet op binnen landsgrenzen, maar moeten wereldwijd worden aangepakt. Ieders bijdrage zal daarbij nodig zijn en alle beetjes helpen daarbij.

Laat duidelijk zijn: de manier waarop we momenteel kunnen communiceren, waaraan digitalisering ten grondslag ligt, heeft ons veel voordelen opgeleverd en zal de komende jaren de wereld blijven veranderen. Stel dat al het huidige  berichtenverkeer in enveloppen hadden gezeten, die waren getransporteerd, gedistribueerd naar de geadresseerden… Ook dat had wellicht tot ontbossing geleid, zoals tijdens de Tachtigjarige Oorlog de bouw van de Spaanse Armada heeft geleid tot massale bomenkap.

We hebben door onze communicatie digitaal te maken veel gewonnen in opslagruimte, verplaatsing, het bewerken van de informatie, snelheid van werken, in anders werken en communiceren.… Een radiozender in de lucht houden kostte in het pre-digitale tijdperk veel dieselolie, voor papier moesten productiebossen worden opgezet, telefoneren naar Australië was een dure aangelegenheid, er kwam veel menskracht kijken bij de verwerking van informatie, nu zijn er duizenden internetradiostations, we kopen en verkopen via internetsites, we kunnen snel communiceren met zowat iedereen in de wereld. 

Digitalisering telt vele zegeningen en heeft ons vele voordelen opgeleverd. Het levert veel nieuwe kansen en mogelijkheden. Hier doen wij niets aan af.
De enorme voordelen van digitalisering hebben echter ook een keerzijde. Hoewel digitaal verkeer veel fysiek verkeer bespaart, zijn we hierdoor ook anders gaan communiceren: we beperken ons niet tot een lange brief eens in de zes weken, maar zijn constant in verbinding met anderen. Eigenlijk geven we elkaar constant stroomstootjes, aandachtsimpulsen. Dit alles leidt tot veel dataverkeer. Als we een document opzoeken op het internet via een zoekmachine, wordt vanuit onze zoekopdracht een heel netwerk van acties opgestart om dat ene document te kunnen vinden. Daarvoor wordt elektrische stroom gebruikt. Doordat we de gemakken van digitalisering hebben leren kennen en er steeds meer toepassingsmogelijkheden komen, leidt digitalisering tot een explosieve groei van data centers, en een explosief stroomverbruik. We gaan immers anders met informatie om. Waar we ooit als informatiespecialisten te maken hadden met een schaars goed –die ene brief die binnenkwam en moest worden bewaakt om te vermijden dat hij onbehandeld in de onderste la van een bureau verdween- is er nu een overvloed aan data. Schoten we ooit op vakantie één fotorolletje vol, tegenwoordig delen we de foto’s die we maken met iedereen in de bus en hebben we al snel duizend foto’s, waar we nauwelijks meer naar omkijken, maar die we wel bewaren; liefst in de cloud, want dan zijn de foto’s veilig. Dit gebeurt niet alleen in ons privéleven, maar ook bij onze werkgevers is dit het geval. Ik denk maar aan de foto’s van dat leuke personeelsfeestje die vele malen verweesd voorkomen op persoonlijke schijven.

Ook de opslag, verplaatsing, bewerking en analyse van deze digitale informatie kost energie. Datacenters zorgen voor de opslag van onze informatie, koelen de servers die anders oververhit raken, zorgen voor het transport. Elke keer wanneer we een zoekmachine gebruiken, wordt een proces in werking gesteld dat energie kost. Een enkele zoekactie is verwaarloosbaar, maar het gaat om miljarden zoekoperaties per dag, gedaan door miljoenen mensen op miljoenen machines: telefoons, laptops, tablets, noem maar op.

De energie die dit alles vraagt, moet ook weer ergens opgewekt worden. Datacenters werken eraan om volledig energieneutraal te werken, maar ook aan energieneutraliteit kleven nog veel vragen; we gaan er hier niet dieper op in. Tot nu toe verlopen de informatiestroompjes vanuit het datacenter naar de klant via talloze kabels, leidingen, zenders en ontvangers. Die kosten allemaal stroom. En stroom heeft als afvalproduct CO2. Naast de dramatische groei van datacenters, met alles wat erbij komt om de gewenste informatie bij je thuis te brengen, is er een indrukwekkende toename van afvalstoffen, en laten we daar de CO2 uithalen, want een windmolen die buiten gebruik raakt levert uiteraard ook afvalstoffen op, net als versleten of achterhaalde randapparatuur, servers, routers, bekabeling en noem maar op: alles moet worden hergebruikt in een circulaire maatschappij. 

De Nederlandse datacentersector voorziet acute capaciteitsproblemen in de stroominfrastructuur. De datacenters, verenigd in de Dutch Data Center Association, willen dat de minister een noodplan opstelt. De datacenters zijn bang dat de infrastructuur de komende groei in het dataverbruik niet aankan.

Rond Amsterdam mogen geen datacenters meer gebouwd worden op dit moment. Maar de datacenters zijn niet het enige probleem. Het lijkt wel alsof de hele wereld overschakelt op schone, groene stroom. Dit betekent dat er een grote schaarste zal ontstaan: ook het plaatsen van windmolens en zonnepanelen heeft een beperkte capaciteit. En we willen de stroom voor veel doeleinden gebruiken: om auto’s te laten rijden, voor het vracht en vliegverkeer, voor onze tandenborstels, bladblazers, grasmaaiers, noem maar op.

De grote datacenters van Microsoft en Google in Nederland betrekken hun stroom deels van windmolenparken. Volgens de DDA gebruikt 80 procent van zijn deelnemers uitsluitend groene stroom en hergebruikt 46 procent restwarmte. Maar bij een onderzoek onder veertig datacenters gaven 25 centra aan dat ze verwachten dat ze de komende drie jaar grote problemen zullen ondervinden bij het verkrijgen van voldoende elektriciteit.

Datacenters rond Amsterdam kennen een verbruik dat vergelijkbaar is met 15 procent van het elektriciteitsverbruik van alle woningen in de stad bij elkaar. En natuurlijk kost het tijd voordat de nieuwe elektriciteit kan worden opgewekt: het bouwen van een datacentrum duurt ongeveer een jaar, terwijl het uitbreiden van het elektriciteitsnetwerk vijf tot zeven jaar duurt. Het probleem is dus niet zo maar opgelost door een besluit te nemen.

Stoot u persoonlijk nou CO2 uit als u op het internet een filmpje bekijkt van hoe twee katten slapen in de schoenen van een mens? Laten we eens kijken hoe dat in zijn werk gaat. U wilt een mailtje versturen. Dan moet uw telefoon, laptop of tablet geladen zijn met stroom. Wanneer u voor het mailtje informatie raadpleegt die in een server ligt opgeslagen, wordt die voor u opgehaald, ook dat kost elektriciteit.  Ik wist ook niet dat sommige smartphones ‘achter de schermen’ meer elektriciteit verbruiken dan een koelkast, omdat er ook stroom nodig is om te surfen over het internet, of om iets te downloaden. Daarvoor moeten routers en servers worden geactiveerd en al gaat het razendsnel: door de enorme omvang van het dataverkeer staan de servers roodgloeiend, als ze niet gekoeld zouden worden.

Daarbij is uw slimme telefoon vaak een heleboel overbodige dingen aan het doen door de applicaties die op de achtergrond draaien, die zorgen dat u na een paar uur al zegt: hoe kan dat nou, ik had hem toch opgeladen? Hoe meer apps er werken, des te meer stroom je verbruikt.

Informatie- en communicatietechnologie vragen vandaag de dag al 1500 terawattuur, dat is 10% van de wereldwijde elektriciteitsproductie. In Nederland was dit tot voor kort 7%, wat even groot is als de bijdrage van windmolens in de stroomvoorziening. 

Er zijn al wel enkele kengetallen die ik nu gebruik ter illustratie, ik heb ze niet geverifieerd.
- de omvang van een doorsnee foto is tussen de 2 en 4 MB. Doorgaans heb je toch wel enkele duizenden foto’s in een persoonlijke collectie. 1000 foto’s stoten dus 20 kilo CO2 uit, dat is evenveel als een jonge boom neutraliseert in het eerste jaar dat deze is geplant.
- hoeveel e-mails verstuurt u per jaar? Zelf had ik over 2018 25.000 bewaarde e-mails; ik gooi tweederde van wat ik ontvang meteen weg, maar bewaar zakelijke relevante emails vijf jaar, dat zijn er dus al 125.000 oftewel 3 Gigabyte of 0,003 Terabyte. Het bewaren van 5 jaar e-mail kost me 0,015 maal 2 ton CO2 uitstoot oftewel 30 kilo CO2. Dat is anderhalf boompje te planten om dit te compenseren.

Dat valt nog mee. Maar als we alle ambtenaren in Nederland zouden rekenen, dat zijn er 900.000, die allemaal 15 Gb bewaren, dan hebben we samen al snel zo een 13,5 miljoen GB, en dat is dan weer 13.500 terabyte.
Dat zijn dan weer 675 bomen per jaar, alleen voor de e-mail.

Maar laten we dit eens in een breder perspectief bekijken…. Wat kun je eigenlijk opslaan op 1 Terabyte? Nu is de rekeneenheid momenteel al 2 TB. Om de kosten hoef je het niet te laten: die bedragen 10 euro per maand.
Als het artikel in Stanford Magazine waar is, dan is dus 1000 gigabytes, oftewel 1 TB, verantwoordelijk voor de uitstoot van 2 ton CO2. En een pas geplante boom neemt 20 kilo CO2 op in een jaar. Dus moet je, om 1 TB aan gegevensopslag te compenseren vanuit milieuoverwegingen, 100 bomen planten per jaar.

In 2015 kwam het Databerg Report uit van Veritas. Daaruit komen cijfers over hoe organisaties met data omgaan. Elke organisatie bewaart veel te veel informatie, die niet meer nodig is, maar waarvoor we bang zijn om die weg te gooien, of gewoonweg niet de tijd hebben, of niet de tijd nemen om allerlei oorzaken. We hebben hele schijven vol duplicaten, die ook weer te vinden zijn op persoonlijke schijven (want stel dat iemand het weggooit, dan heb ik het toch nog) of in mailboxen (want dat zoekt zo gemakkelijk op). Dit rapport werd in 2019 aangepast aan de tegenwoordige omstandigheden. Laten we nu eens aannemen dat de cijfers ook voor onze organisaties zouden gelden; dat doen ze niet automatisch want het is een onderzoek onder merendeels Amerikaanse en Aziatische bedrijven.

Dit jaar in 2019 weinig veranderd. Er is gemiddeld in bedrijven 41% ROT data, dat is dubbele overbodige en irrelevante, onnodige data. Daar zouden we dus vanaf moeten.
Belangrijk voor de informatieprofessional is ook de dark data: dit zijn de vergeten bestanden en informatie die op allerlei plaatsen in de organisatie is opgeslagen, maar waarvan niemand meer weet dat ze er zijn, laat staan wat de waarde ervan is. Het wordt vaak gebruikt als synoniem voor eenmalig gebruikte of aangemaakte informatie. Een voorbeeld is alles wat via zipfiles wordt verstuurd: de file komt aan in de organisatie, wordt uitgepakt, maar blijft staan en een jaar later weet niemand meer wat er in zit: dat zie je pas weer bij het openen.

Als je kijkt hoe groot het percentage dark data in organisaties is, dan moet dat ons toch wel onvoorstelbaar voorkomen. Het is informatie waarvan niemand meer de waarde kent. En komt er een nieuwe vraag om informatie, dan maken we die opnieuw aan; we weten dan niet meer dat we de gegevens ooit al hebben geproduceerd.

Dit maakt dat het begrip eDiscovery is opgekomen. Hiermee wordt bedoeld het voor juridische doeleinden doorzoeken van digitale data. Dit zijn doorgaans zeer moeizame processen, waarbij het wel nodig is dat éne e-mailtje, berichtje of rekeningetje te vinden. Ik hoef verder geen namen te noemen maar het zoeken naar dat éne bonnetje heeft heel Nederland in beroering gebracht destijds.
En hoe slechter georganiseerd de data is, des te langer duurt het zoekproces. 

Overheden doen het over het algemeen niet slecht, omdat zij regelmatig bezocht worden door de archiefinspecteur die wanneer nodig een rode kaart uitdeelt. Maar toch heeft die archiefinspecteur nog niet genoeg weet van wat zich in de krochten van de servers bevindt. En dat lukt ook maar met moeite, omdat, als je servers wilt bekijken, je daarvoor rechten moet hebben en ICT-afdelingen zijn daar heel strikt in, vanuit meerdere gezichtspunten. Het is voor een informatiespecialist al heel moeilijk om toegang te krijgen tot een afdelingsschijf. Daar is wel een trucje voor: ken een informatiecoach toe aan een specifieke afdeling en maak deze verantwoordelijk voor het schoon houden van de digitale informatie. Het is een begin.

Maar ook hier weer: we houden veel te veel data bij, en er zou eens flink gesnoeid moeten worden. En daarvoor hebben we nu, naast de doelbinding binnen de AVG,  een nieuw motief: het verminderen van de CO2-uitstoot. Voor een gemeente die zich fairtradegemeente noemt, en die bewust ecologisch bezig is, zou dit een uitdaging moeten vormen!
Laat de cijfers nog eens tot u doordringen. Als er 41% dubbele, irrelevante, onnodige data is, 47% ‘vergeten’ data waarvan we niet meer weten waar die zich bevindt en wat de waarde ervan is, en slechts 12% ‘clean’, schone data…. Hoeveel ruimte kunnen we dan besparen. En hoeveel uitstoot kunnen we voorkomen!

DAV in België biedt gemeenten een aantrekkelijk, integraal aanbod aan. Daarvoor betalen de gemeenten een vast jaarlijks abonnementsbedrag en een vergoeding voor de technische aansluitingskosten. Maar laten we eens rekenen.

300 Belgische gemeenten x 5 TB per jaar = 1500 TB x 2.000 kg CO2-uitstoot= 3 miljoen kilo CO2-uitstoot, wat staat voor de jaarlijkse aanplant van 150.000 bomen die nodig is om deze digitale informatievoorziening vanuit milieuoogpunt te compenseren.

Voor Nederland ontbreekt de gezamenlijke voorziening, Regionaal historische centra gaan hierin waarschijnlijk voorzien, al is momenteel niets zeker nu gemeenten bezig zijn met Common Ground, bewaring van informatie aan de bron. Eén ding is zeker: er komt geen landelijke voorziening vanwege het Nationaal Archief.

Kijken we naar de CO2-uitstoot, en gaan we die compenseren bij de aanname van de te veel bewaarde gegevens, dan moeten we 400.000 bomen aanplanten.
Dit kunnen we dus besparen door eerder data te verwijderen!
Dat doet meteen de vraag rijzen: hoeveel bomen staan er eigenlijk in Nederland? Dit is onlangs uitgezocht in een studie door Nature. "In Nederland is het areaal aan bos zo rond de 360 hectare, met ongeveer 4.000 tot 5.000 bomen per hectare", berekent Nabuurs. "Dan kom je uit op zo'n 162 miljoen bomen.“ . Dit scheelt dus een bos van 100 hectare per jaar. Dat zijn 200 voetbalvelden. (waarschijnlijk zijn in het artikel van BNR drie nullen weggevallen, anders klopt de totaalsom niet). 

We moeten ook kijken naar ons selectiebeleid. Te vaak hoor ik zeggen: bewaar die informatie maar, opslag kost niets meer tegenwoordig. Dit is dus pertinent niet waar; de fout die we maken is dat we de kosten van opslag uitsluitend rekenen als de externe schijf die we bij de MediaMarkt kopen en die inderdaad nog geen 50 euro kost. Opslag in de cloud is echter vele malen duurder en dat vertaalt zich dus niet in de consumentenprijs van een tientje per maand, die we zojuist hebben zien voorbijkomen.

Moeten we dan allemaal maar een schijf bij de MediaMarkt halen? Of moeten we ook hier afstappen van het ‘one size fits all’-principe dat alle informatie over één kam scheert? Zelf denk ik het laatste.

Dan doet zich meteen de vraag voor: hoe kunnen we als informatiespecialisten hieraan bijdragen?
-         We kunnen een programma starten, met medestanders in de organisatie, om datahygiëne in te voeren. We hebben naast de AVG, de selectielijst, het voorkomen van datameren of databergen  nu weer een motief erbij om archiefselectie uit te voeren en te zorgen dat we slechts die gegevens bewaren die we ook echt voor de bedrijfsvoering nodig hebben: 
                                                     het k l i m a a t m o t i e f. 
-         Dit betekent dat we in kaart gaan brengen hoeveel data we hebben, waar die zich bevindt en hoe die zich dubbelt. We houden daarbij de mailboxen en persoonlijke schijven nog even buiten schot, al zouden we wel willen weten hoeveel data zich daarop bevindt: u zult versteld staan van de groei van e-mailboxen en persoonlijke schijven. Als je Office365 gaat gebruiken als organisatie werk je al in de cloud, en heeft elke medewerker om te beginnen al 1 TB aan gegevensopslagruimte. Daarin kun je een kleine universiteitsbibliotheek kwijt! Er is dus geen enkele reden om data weg te gooien, want ruimte kost zogezegd niets, zo zegt de leverancier, en de klant praat hem  opgelucht na. Inmiddels weet u al wel beter hoop ik.
-         Informatiecoaches instellen in de organisatie. Ga in gesprek met de afdelingen en wijs aan elke afdeling een informatiecoach toe, die de afdeling met raad en daad bijstaat in het op orde houden van de digitale informatie op schijven, in procesapplicaties en in andere systemen. Kijk verder dan uw zaaksysteem: de belangrijke informatie bevindt zich vaak ergens anders en u heeft er geen grip op, met soms noodlottige gevolgen van dien: u kunt hierdoor belangrijke bewijsstukken kwijt raken.
-         Blijf in gesprek met de organisatie, via de informatiecoaches maar ook via het management, om data te verwijderen die niet meer nodig is.
-         Zoek naar samenwerkingsstructuren, zodat verdubbeling van informatie niet nodig is, maar mensen werken met een gezamenlijk dossier. Dit kan in een zaaksysteem, maar even goed in een specifieke applicatie, Microsoft Teams, SharePoint of een gelijkaardige samenwerkingsomgeving. Ik heb zelfs mensen zien samenwerken in een gezamenlijke postbus.
-         Systemen, specifieke bedrijfsapplicaties, hebben doorgaans wel de mogelijkheid om gegevens in op te nemen, maar niet om ze te vernietigen. Hier hebben leveranciers nog een hele weg te gaan. Blijf bij hen via gebruikersgroepen benadrukken dat dit, ook in het kader van de Algemene Verordening Gegevensbescherming, dringend noodzakelijk is om te realiseren.
-         Je moet ergens beginnen. Met de RMTool zijn snelle winsten te behalen en als je wilt weten hoe, bezoek dan de sessie van Mark Rijpkema. Wij beginnen meestal met de ZIP-files, maar er zijn nog meer mogelijkheden. Je kunt dossiers inperken en daardoor ook hanteerbaarder maken, het aantal fouten terugbrengen bij de vraag welke versie van het document nu het enig juiste was…

Daarbij zijn er nog enkele hygiënische maatregelen die u kunt treffen waar het uw persoonlijk internetgebruik betreft. We hebben ze voor u op een rijtje gezet.
-         Mail minder
-         Maak bestanden minder zwaar, verzend liever een koppeling dan een document
-         Hou de prullenbak beheersbaar, maak leeg wanneer dit kan
-         Herzie regelmatig  uw abonnementen op nieuwsbrieven
-         Leg een favorietenlijst aan van veel gebruikte websites en gebruik die eerder dan een zoekmachine
-         Optimaliseer via apparaatonderhoud de opslag, het geheugen en de batterij van uw smartphone, die gaat dan veel langer mee!

Het zijn maar kleine maatregelen, die je wel in je werkroutines moet intrainen. Maar alle beetjes helpen. Dat alle automobilisten in Nederland honderd kilometer per uur gaan rijden overdag, dat we het veevoer van samenstelling gaan veranderen, en wie weet wat voor maatregelen nog treffen: het zijn alle kleine beetjes die samen een groot verschil kunnen maken.

Archiefselectie, we kunnen er niet omheen: het is dringend noodzakelijk, vooral in de digitale omgevingen waar we werken.
Samen maken we de wereld een beetje beter: ook als archivaris/informatiespecialist kunt u een bijdrage leveren!