Ethische principes en kunstmatige intelligentie

In de 11de aflevering van de reeks Bouwen aan duurzame steden: De bijdrage van digitale technologie pas ik de ethische principes uit aflevering 9 toe op ontwerp en gebruik van kunstmatige intelligentie.

Hieraan voorafgaand beschrijf ik in het kort wat kunstmatige intelligentie is. Aan bod komen de betekenis van onder andere big data, algoritmen en machineleren. Voor wie er meer van wil weten: Radical technologies van Adam Greenfield (2017) is een zeer leesbare inleiding, ook op technologieën als blockchain, augmented en virtual reality , Internet of Things en robotica, die in de volgende afleveringen aan de orde komen.

Kunstmatige intelligentie

Kunstmatige intelligentie kent waardevolle toepassingen maar ook grove vormen van misbruik.  Waardevol is bijvoorbeeld het gebruik van kunstmatige intelligentie bij de indeling van huizen en buurten, rekening houdend met gebruiksgemak, uitzicht en zonnelicht met AI-technologie van Spacemaker[1] of het maten van lawaai in het centrum van Genk met behulp van Nokia’s Scene Analytics-technologie[2]. Verwerpelijk is het discrimineren van bevolkingsgroepen door de politie in de VS met programma’s als PredPol en de manier waarop de Nederlandse overheid met de toekenning van toelagen is omgegaan.

Algoritmen

Dankzij kunstmatige intelligentie kan een computer zelfstandig patronen herkennen en op grond daarvan ‘beslissingen’ nemen. Op zichzelf is herkennen van patronen niets nieuws Dat kon allang met daartoe geschreven computerprogramma’s. Om bijvoorbeeld afbeeldingen van honden en katten te onderscheiden maakte een programmeur een beschrijving in ‘als….dan’-vorm van alle relevante kenmerken van honden en katten met behulp waarvan kon een computer beide diersoorten onderscheiden.  Het aantal fouten hing af van de gedetailleerdheid van het programma. Als het om meer soorten dieren gaat en om dieren die vanuit verschillende hoeken zijn gefotografeerd is het maken van zo’n programma erg ingewikkeld. In dat geval kan een computer getraind worden zelf relevante patronen te onderscheiden. In dit geval spreken we van kunstmatige intelligentie. Overigens spelen mensen daarbij nog steeds een belangrijke rol. Deze bestaat in de eerste plaats uit het schrijven van een instructie – een algoritme – en vervolgens uit de samenstelling van een trainingset, een selectie van een grote aantal voorbeelden, bijvoorbeeld van dieren zijn die gelabeld als hond of kat en desnoods leeuw, tijger en meer. De computer gaat vervolgens ‘zelf’ op zoek naar bijbehorende kenmerken.  Als er nog te veel fouten voorkomen, worden nieuwe afbeeldingen toegevoegd. 

Deep learning

De manier waarop de dieren zijn afgebeeld kan eindeloos variëren, waarbij het niet meer zozeer om hun kenmerken gaat, maar om schaduwwerking, beweging, stand van de camera of de aard van de beweging. De grootste uitdaging is om de computer ook daar rekening mee te leren houden. Dat gebeurt door de imitatie van de neurale netwerken. Beeldherkenning gebeurt daarbij net als in onze hersenen dankzij het onderscheiden van lagen, variërend van het onderscheiden van simpele lijnen, patronen, kleuren tot verschillen in scherpte.  Vanwege deze gelaagdheid wordt gesproken van ‘deep learning’. Hierbij is uiteraard sprake van grote datasets en veel rekenkracht, maar het is ook een arbeidsintensief proces.

Zelflerende computers

Leren toepassen van algoritmen onder begeleiding, levert betrouwbare resultaten op en de instructeur kan ook na veel iteraties het resultaat nog steeds verklaren. Maar dat houdt op als er verschillende processen tegelijkertijd spelen, bijvoorbeeld als dieren elkaar aanvallen, het soms overleven en dan weer niet en de computer moet voorspellen welke dieren onder welke omstandigheden de grootste overlevingskans hebben. Denk ook aan de patronen die de computer van een auto moet kunnen onderscheiden om veilig zonder chauffeur de weg op te kunnen. Vanwege de vrijwel onbeperkte variatie, werkt begeleid leren dan niet meer.

In het geval van onbegeleid leren, wordt de computer gevoed met gegevens van vele miljoenen realistische situaties, in geval van auto’s van verkeerssituaties en de manier waarop de bestuurders daarop reageerden. Hier kan met recht van ‘big data’ en ‘machine leren’ worden gesproken, al worden deze termen vaak ook breder gebruikt.  Zo ‘leert’ de computer van de auto hoe en wanneer deze binnen de rijstroken moet blijven, mag passeren, hoe voetgangers, fietsen of welk ‘object’ dan ook, ontweken kan worden, wat stoptekens zijn en verkeersborden betekenen en welke de daarbij behorende actie is. Tesla’s geven nog steeds al deze gegevens door aan een datacenter, dat er patronen uit destilleert waarmee de ‘autopilots’ van alle Tesla’s geregeld worden geüpdatet.  Op den duur zou elke Tesla, waar ook ter wereld, elk denkbaar patroon moeten herkennen, daar correct nop moeten reageren en zo het hoogst mogelijke niveau van veiligheid kunnen garanderen. Zover is het nog (lang?) niet en Tesla’s ‘autopilot’ mag daarom niet zonder de aanwezigheid van een chauffeur ’in control’ worden gebruikt. Niemand weet op basis van welke criteria de algoritmen van een Tesla werken, uiteraard wel als ze niet werken. 

Zelflerende computers worden ook ingezet als het gaat om de voorspelling van (belasting)fraude, de kans dan bepaalde personen ‘in de fout’ gaan of plaatsen waar op een bepaald moment de kans op een misdaad het grootst is. Maar ook bij de beoordeling van sollicitanten en de toewijzen van woningen.  Voor deze doelen wordt de waarde van kunstmatige intelligentie overschat[3]. In al deze gevallen is de wijze waarop de computer ‘besluiten’ neemt een ‘blackbox’. Mede om die reden is het moeilijk zo niet onmogelijk om achteraf eventuele fouten op te sporen en recht te zetten.  Dit is een van de problemen bij de beruchte toelagenaffaire.

De cybernetische cirkel

Algoritmische besluitvorming is een onderdeel van een nieuwe digitale golf, gekenmerkt door een cybernetische cirkel van meten (data verzamelen), profileren (data analyseren) en interveniëren (toepassen van data). Op zich komen deze aspecten terug in elk besluitvormingsproces, maar daarbij maken de betrokkenen, politici, volksvertegenwoordigers stapsgewijs bewuste keuzen, terwijl nu het hele proces een blackbox is. 

De rol van ethische principes

Ondertussen groeit de bezorgdheid over het negeren van nagenoeg alle ethische principes die in aflevering 9 zijn genoemd, door de toepassing van kunstmatige intelligentie: Schending van de privacy, discriminatie, gebrek aan transparantie en machtsmisbruik met als gevolg groot (deels onbedoeld) leed, risico’s voor de beveiliging van kritieke infrastructuur, afbrokkeling van menselijk denkvermogen en ondermijning van het vertrouwen in de samenleving. Het is daarom noodzakelijk om richtlijnen te formuleren die de toepassing van kunstmatige intelligentie weer in lijn brengen met de genoemde ethische principes. 

Hiertoe is een belangwekkende aanzet gegeven in de publicatie van het Institute of Electric and Electronic Engineers: Ethically Aligned Design: A Vision for Prioritizing Human Well-being with Autonomous and Intelligent Systems[4]. Ook het Rathenau instituut[5] heeft in diverse publicaties een aantal richtlijnen gepubliceerd.

De belangrijkste richtlijnen die uit deze en andere publicaties kunnen worden gedestilleerd, zijn:

  1. Verantwoordelijkheid voor de impact van het gebruik van kunstmatige intelligentie leggen bij zowel degenen die besluiten nemen over de toepassing ervan (politiek, leiding van organisatie of bedrijven) als de ontwikkelaars. Deze verantwoordelijkheid betreft zowel de gebruikte systemen als de kwaliteit, nauwkeurigheid, volledigheid en representativiteit van de data(set).
  2. Voorkomen dat ontwerpers (onbewust) hun eigen normen gebruiken bij de instructie van leerprocessen. Teams met een diversiteit aan achtergronden zijn een goed middel om dit te voorkomen.
  3. Kunnen herleiden van ‘beslissingen’ door computersystemen op de gehanteerde algoritmen, de werking daarvan begrijpen en deze kunnen uitleggen.
  4. Wetenschappelijk kunnen onderbouwen van het model dat aan de algoritme en aan de keuze van de data ten grondslag ligt.
  5. Handmatig verifiëren van ‘beslissingen’ die negatief uitpakken voor de betrokkene. 
  6. Uitsluiten van alle vormen van bias in de inhoud van datasets, de toepassing van algoritmen en het hanteren van uitkomsten[6].
  7. Verantwoording afleggen over de wettelijke grondslag van de combinatie van datasets.
  8. Vaststellen of de berekening beoogt valse positieven dan wel valse negatieven te minimaliseren.
  9. Terugkoppelen naar opdrachtgevers door auteurs van algoritmen als deze in het bronnenmateriaal gebrek aan eenduidigheid aantreffen.
  10. Hanteren van de beginselen van proportionaliteit en subsidiariteit, wat betekent van geval tot geval vaststellen of de baten van gebruik van kunstmatige intelligentie opwegen tegen de risico’s[7].
  11. Verbieden van toepassingen van kunstmatige intelligentie die een groot risico vormen voor schending van ethische principes, zoals gezichtsherkenning, persuasieve technieken en deep-fake technieken[8].
  12. Intrekken van wettelijke bepalingen als blijkt dat deze vanwege hun complexiteit of vaagheid niet op transparante wijze gehandhaafd kunnen worden.  

De derde, de vierde en de vijfde richtlijn moeten in samenhang worden gezien.  Ik leg hieronder uit waarom.

De wetenschappelijke fundering van algoritmische besluitvorming

Bij het gebruik van zelflerende computers zijn het de computers zelf die de algoritmen aanpassen en uitbreiden en gegevens uit uiteenlopende datasets combineren.  Het gevolg kan zijn dat de uiteindelijke ‘beslissingen’ die de computer neemt niet uitgelegd kunnen worden. Dit is uitsluitend aanvaardbaar, nadat gebleken is dat deze beslissingen ‘foutloos’ zijn, bijvoorbeeld omdat, in het geval van ‘zelfsturende’ auto’s, deze vele malen veiliger blijken te rijden dan auto’s met chauffeur.

In de toelagen affaire was hier geen sprake van. Daar zou de vijfde richtlijn uitkomst hebben kunnen bieden.  Met behulp van wetenschappelijk ontwerpgericht onderzoek kan worden onderzocht, uit welke stappen en welke regels een beslissingsproces bestaat om te bepalen wie terecht een toelage krijgt en wie eventueel ten onrechte bezwaar maakt tegen de afwijzing van een verzoek. Aan de hand van zo’n beslisboom kan door een steekproef met voldoende omvang de overeenkomst met de ‘beslissingen’ van de computer worden vastgesteld. Als dit inderdaad in nagenoeg alle gevallen zo is, dan mogen de criteria die in de handmatige berekening zijn gehanteerd worden gebruikt om uit te leggen wat zich in de ‘blackbox’ van de computer heeft afgespeeld. Als er veel en grote afwijkingen zijn, dan moet de computerberekening worden verworpen.

Door toepassing van zelflerende algoritmen kunnen onvermoede verbanden worden ontdekt tussen verschijnselen. Dat kan van grote betekenis zijn. Er is dan altijd sprake van statistische relaties en niet van causale.  

Op basis van deze verbanden kunnen geen maatregelen worden gerechtvaardigd, wel kunnen ze vertrekpunt voor verder onderzoek. 

Governance

In de VS is het gebruik van algoritmen inmiddels in een kwaad daglicht komen te staan, vooral door de ongewenste gevolgen van toepassing door de politie, waarover aflevering 16 gaat.  De problemen daarbij gaan veel verder dan het optreden van ‘bias’. De stad New York heeft daarom een algoritme manager aangesteld, die onderzoekt of de gebruikte algoritmen voldoen aan ethische en wettelijke regels. In steeds meer gemeenten vervult een ethische commissie deze rol.

Op bestuurlijk vlak zijn zowel op Europees niveau als binnen Nederland al stappen gezet om uitwassen van algoritmische besluitvorming tegen te gaan.  

De Algemene Verordening Gegevensbescherming (AVG), die is in 2018 in werking getreden is heeft de bescherming van de privacy aanzienlijk verbeterd. In april 2019 publiceerde de Europese High Level Expert Group on AI ethische richtlijnen voor de toepassing van kunstmatige intelligentie In februari 2020 heeft ook de Europese Commissie zulke richtlijnen vastgesteld onder meer in het White Paper On Artificial Intelligence en een AI-verordening. Verder stelde de regering onder meer vast de nationale digitaliseringsstrategie, het Strategisch Actieplan AI en de beleidsbrief AI, mensenrechten en publieke waarden[9].

Ik realiseer me dat het binden van overheden en hun uitvoeringsorganen aan ethische principes koren op de molen is van degenen die deze principes aan de laars lappen. Daarom blijft de zoektocht naar legitieme methoden om misdaad, corruptie en malversaties met behulp van moderne technieken op te sporen, brede steun verdienen.

Er is nog heel wat werk te verzetten om de kracht van kunstmatige intelligentie voor dit doel op gewetensvolle wijze te gebruiken.


[1] https://stadszaken.nl/artikel/3961/rekenkracht-ai-maakt-gebiedsontwikkeling-beter?utm_source=Mailing+Lijst&utm_medium=email&utm_campaign=24-12-2021_Grote+verdeeldheid+over+Omgevingswet

[2] https://www.smartcitiesworld.net/news/belgian-city-uses-artificial-intelligence-to-tackle-noise-pollution-7243?utm_source=newsletter&utm_medium=email&utm_campaign=Weekly%20Newsletter

[3] https://www.dropbox.com/s/22ekhzws9gpb4nd/Rapport_De_stand_van_digitaal_Nederland_Rathenau_Instituut.pdf?dl=0

[4] https://www.dropbox.com/s/508gjrmdaexj563/2020_029_Digitale_technologie_Eng.docx?dl=0

[5] https://www.dropbox.com/s/hdx3gwjx1rni3on/Rathenau-Grip_op_algoritmische_besluitvorming_overheid_Rathenau_Instituut.pdf?dl=0

[6] https://medium.com/@BloombergCities/the-promise-and-peril-of-algorithms-in-local-government-f1a2964769f2

[7] https://www.dropbox.com/s/xe962n2m7ik6gt2/Rathenau-Zeven_aandachtspunten_voor_de_AI-verordening_Bericht_aan_het_Parlement_Rathenau_Instituut.pdf?dl=0

[8] https://www.dropbox.com/s/q2zji5s60y989ea/Rathenau-Verantwoord_Innoveren_met_AI_Rathenau_Instituut.pdf?dl=0

[9] https://www.dropbox.com/s/22ekhzws9gpb4nd/Rapport_De_stand_van_digitaal_Nederland_Rathenau_Instituut.pdf?dl=0

Toegankelijkheid, software, digitale infrastructuur en data: De roep om ethiek

De 10de aflevering in de reeks Bouwen aan duurzame steden – De bijdrage van digitale technologie gaat over de betekenis van ethische principes voor vier belangrijke pijlers van digitalisering: toegankelijkheid, programmatuur, infrastructuur en data.

In de vorige aflevering kwam een aantal uitgangspunten (richtlijnen en ethische principes) voor digitale technologie aan de orde. Uit het rapport van het Rathenau Instituut[1] Opwaarderen – Borgen van publieke waarden in de digitale samenleving blijkt dat overheid, bedrijfsleven en samenleving deze nog onvoldoende hanteren. Hieronder sta ik stil wat deze principes en waarden betekenen voor vier fundamentele aspecten van digitalisering: toegankelijkheid, programmatuur, infrastructuur en data.  In de volgende twee afleveringen komen hun implicaties voor een zestal technologieën aan de orde. 

Toegankelijkheid

Toegankelijkheid verwijst naar de beschikbaarheid van snel Internet voor iedereen. Dit gaat verder dan alleen technische toegang.  Het houdt ook in dat een gemeente toeziet op de begrijpelijkheid van de eigen berichtgeving en dat gebruikers de aangeboden opties ook kunnen hanteren. Niet in de laatste plaats zou iedereen moeten beschikken over een werkende computer.

Gratis Internet voor alle inwoners is een waardevolle basisvoorziening, inclusief Wi-Fi in de publieke ruimte, mits goed beveiligd tegen indringers. Overlaten van een Wi-Fi voorziening aan private aanbieders, zoals de LinkNYC reclamezuilen in New York, die ook in andere steden opduiken, is een slechte zaak. Bedrijven als Sidewalk Labs verleiden gemeenten door deze zuilen gratis te plaatsen. Ze zijn uitgerust met sensoren die een enorme hoeveelheid gegevens verzamelen via elk apparaat dat verbinding maakt met hun Wi-Fi-netwerk: Niet alleen de locatie en het besturingssysteem, maar ook het MAC-adres. Met behulp van analysetechnieken kan daarmee het loop-, kijk- en koopgedrag van burgers worden gereconstrueerd. Gecombineerd met andere openbare gegevens van Facebook of Google leveren ze inzicht in persoonlijke interesse, seksuele geaardheid, ras en politieke overtuiging van de betrokkenen.

Het enorme internet dat alles en iedereen verbindt, roept ook schrikbeelden op, die te maken hebben met waarborgen van privacy en in relatie daarmee uiteenlopende vormen van misbruik, tot het hacken van apparatuur die je hartslag regelt toe. Daarom wordt er breed gezocht naar alternatieven.

Wereldwijd komen P2P buurtinitiatieven voor om een besloten eigen netwerk aan te leggen. Veel daarvan maken deel uit van The Things Network[2]. In plaats van Wi-Fi, gebruikt dit netwerk een protocol genaamd LoRaWAN. Door robuuste end-to-end-codering hoeven gebruikers zich geen zorgen te maken over beveiligde draadloze hotspots, mobiele data-abonnementen of haperende Wi-Fi-connectiviteit. Het Things-netwerk beheert duizenden gateways en biedt dekking aan miljoenen mensen en biedt een reeks open tools waarmee burgers en ondernemers IoT-applicaties kunnen bouwen tegen lage kosten, met maximale beveiliging en die makkelijk op te schalen zijn.

Programmatuur

Computerprogramma’s zorgen voor uiteenlopende toepassingen, variërend van tekstverwerking tot managementsystemen. Op zoek naar oplossingen die het best passen bij de richtlijnen en ethische principes uit de vorige aflevering, komen we al snel uit bij open-source software, in tegenstelling tot propriëtaire producten van commerciële aanbieders. Niet dat deze laatste bij voorbaat verwerpelijk zijn of dat ze altijd goedkoper zijn. Het belangrijkste waar je op moet letten is uitwisselbaarheid (interoperabiliteit) met producten van andere aanbieders om te voorkomen dat je er lastig vanaf komt (lock in). 

Open source software kan veel voordelen bieden ten opzichte van prioriëtaire oplossingen, zeker als gemeenten dit stimuleren. Barcelona loopt hierbij voorop[3]. De stad beoogt volledig zelfbeheer van haar ICT-diensten en radicale verbetering van digitale openbare dienstverlening voor de burgers, inclusief ‘privacy by design’ en databescherming dankzij het gebruik van blockchain. Dit resulteert in gegevenssoevereiniteit en in het gebruik van vrije software, open dataformats, open standaarden, interoperabiliteit en herbruikbare applicaties en diensten. 

Wie zich oriënteert op open source software kan niet om de Fiware-gemeenschap[4] heen, qua organisatie vergelijkbaar met Linux en bestaande uit bedrijven, startups en freelance ontwikkelaars en voortgekomen uit een initiatief van de EU. Fiware is een organisatie met als missie bouwen van open, en duurzame software rond publieke, royaltyvrije en implementatie gedreven standaarden

Infrastructuur

Computers zijn inmiddels niet meer de grootste groep onderdelen van de digitale infrastructuur. Hun aantal is overtroffen door zogenaamde ubiquitous sensor networks (USN), zoals slimme meters, CCTV, microfoons en sensoren. Sensornetwerken hebben de meest uiteenlopende taken, ze bewaken de omgeving (luchtkwaliteit, verkeersdichtheid, ongewenste bezoekers) en ze zitten in machines, treinen en auto’s en zelfs mensen en geven informatie over het functioneren van vitale onderdelen door. Mike Matson[5] berekende verder dat er in 2050 een stad van 2 miljoen inwoners wel een miljard sensoren zal zijn. Deze zijn verbonden door miljoenen kilometers glasvezelkabel of via Wi-Fi met elkaar, met datacenters, carrier hotels (dat zijn knooppunten waar particuliere netwerken samenkomen) om uiteindelijk het Internet te vormen.

Deze hiërarchisch georganiseerde verknoping staat op gespannen voet met de richtlijnen en ethische principes uit de vorige post. Internet criminelen krijgen vrij baan, bijvoorbeeld door het veroorzaken van denial of service (DoS) en dataleks kunnen grote gevolgen hebben. Bovendien loopt het energieverbruik gigantisch op, ook zonder blockchain. Het kan ook anders. Met edge computing[6] vindt de bewerking van de gegevens lokaal plaats en alleen resultaten worden op verzoek geüpload. Dit geldt voor sensoren, mobiele telefoons en mogelijk ook voor geautomatiseerde auto’s. Een mooi voorbeeld is het Array of things Initiative[7]. Uiteindelijk gaat dit 500 sensoren omvatten, die in overleg met de bevolking in Chicago worden opgehangen en data gaan verzamelen.  Deze data worden in elke sensor opgeslagen en kunnen indien nodig online worden geraadpleegd, waarbij steeds een aantal sensoren en een deel van de data betrokken is. 

Vergelijkbaar zijn federatieve datasystemen[8]. Hierbij worden data decentraal bewaard, maar geautoriseerde gebruikers kunnen dankzij gebruiksinterfaces wel van alle gegevens gebruik maken.

Data

Het besef dringt door dat het bij data niet alleen om de hoeveel gaat, maar ook om de kwaliteit van zowel de data zelf en de bewerking ervan. Ik stip een aantal aspecten aan

Toegang tot data

Als het om gegevens van personen gaat, dan zou de regel moeten zijn dat privégegevens alleen doorzoekbaar zijn na toestemming van de eigenaar. Om deze data te beschermen stelt het EU-project Decode voor eigenaars hun gegevens via blockchaintechnologie te laten beheren[9]. Veel steden hebben inmiddels privacyrichtlijnen, maar slechts een aantal voert privacy impact assessment uit als onderdeel van het beleid (p.18)[10]

Kwaliteit

Er komen steeds meer aanwijzingen dat veel data die voor kunstmatige intelligentie worden gebruikt als ‘leersets’ ondeugdelijk zijn.  Dat was al pijnlijk duidelijk geworden uit data voor gezichtsherkenning waarin minderheidsgroepen disproportioneel zijn vertegenwoordigd[11]. Nieuw onderzoek laat zien dat dit ook geldt op het gebied van de gezondheidszorg. Er is hier sprake van data cascades, een optelsom van achtereenvolgende fouten, waarvan de gevolgen pas na enige tijd duidelijk worden[12]. Data bleken niet relevant, onvolledig, onvergelijkbaar en zelfs gemanipuleerd[13]

Data commons

Voor wie specifieke data van groot belang zijn, en daarmee ook hun kwaliteit, zal zich extra daarvoor inzetten. Samen kunnen de betrokkenen dan een datacommon vormen. Commons are shared resources managed by empowered communities on the basis of mutually agreed and enforced rules[14]

Een mooi voorbeeld is de Data- en Kennishub Gezond Stedelijk Leven (p.152)[15], waarin overheden, bedrijven, milieugroepen en bewoners kennis verzamelen voor de ontwikkeling van een gezonde leefomgeving, met gebruikmaking van een federatief datasysteem. Het gaat hierbij niet alleen om data, maar ook om de terugkoppeling van het effect van maatregelen. 

Open data

Veel steden hanteren het ‘open by default’ principe en maken de meeste gegevens openbaar, al laat de gebruikersvriendelijkheid en doelmatigheid soms nog te wensen over. Er zijn verschillende datamanagementsystemen als open-source portal beschikbaar. Een van de meest vooraanstaande is CKAN, beheert door de Open Knowledge Foundation[16]. Het bevat middelen voor het beheren, publiceren, vinden, gebruiken en delen van gegevensverzamelingen. Het biedt een uitgebreide zoekfunctie en maakt het mogelijk om gegevens te bekijken in de vorm van kaarten, grafieken en tabellen. Er is een actieve gemeenschap van gebruikers, die het systeem verder ontwikkelt en lokaal aanpast. 

Om de gegevens daadwerkelijk toegankelijk te maken bieden sommige steden ook trainingen en workshops aan. Barcelona’s Open Data Challenge is een initiatief voor leerlingen uit het secundair onderwijs, dat hen wegwijs maakt in de enorme gegevensverzameling van de stad[17].

Veiligheid

Naarmate de omvang van de verzamelde data, de hoeveelheid ‘entry points’ en de verbondenheid op het Internet toeneemt, worden de veiligheidsrisico’s ook groter. Decentralisering, onder andere door middel van edgecomputingen federatieve opslag met blockchaintechnologie dragen zeker bij aan de veiligheid. Er is verder nog een lange weg te gaan. Slechts de helft van de steden heeft een seniorbeleidsmedewerker op dit gebied en technieken voor authenticatie, versleuteling en ondertekening die samen de basis vormen voor attribute-based identity worden lang niet altijd toegepast. Het gaat hierbij om identiteitsbepaling op basis van een aantal kenmerken van een gebruiker, zoals functie, locatie en afdeling[18]

Iets heel anders is Me and my shadow, een project dat gebruikers van het Internet leert hun eigen spoor te minimaliseren en daarmee hun vindbaarheid voor Internetcriminelen[19].

Er is nog een wereld te winnen voordat voldoende is voldaan aan de richtlijnen en ethische principes die in de vorige aflevering werden genoemd.

Het belangrijkste is wellicht een zekere relativering van begrippen als ‘big data’, ‘datagericht beleid’ en de omvang van datasets.

Het is raadzaam zich opnieuw te verdiepen in de grondslagen van wetenschappelijk onderzoek. Hierin staat voorop een goed geformuleerde vraagstelling, vervolgens de keuze van een hierbij passende onderzoeksmethode, bijvoorbeeld de formulering van hypothetische verbanden op basis van materiekennis, de beantwoording van de vraag welke gegevens hiervoor nodig zijn, de verzameling van deze gegevens en hun statistische bewerking om te zien in hoeverre de onderbouwde hypothetische verbanden aangetroffen worden. In de volgende aflevering komt onder andere machine leren aan de orde en dan zal blijken dat het bij de automatische verwerking van grote datasets vooral gaat om de ontdekking van statistische verbanden en dat kan nare consequenties hebben. 

Volg deze link als je snel een van de vorige afleveringen uit deze reeks wil vinden of wilt zien welke de volgende afleveringen zijn. Vol deze link voor de Engelstalige versie


[1] https://www.dropbox.com/s/qom95p4hwph1cie/Rathenau-Opwaarderen.pdf?dl=0

[2] https://www.thethingsnetwork.org/

[3] https://www.barcelona.cat/digitalstandards/

[4] https://www.fiware.org

[5] http://smallwarsjournal.com/jrnl/art/complex-cyber-terrain-in-hyper-connected-urban-areas

[6] https://searchdatacenter.techtarget.com/definition/edge-computing

[7] https://datasmart.ash.harvard.edu/news/article/a-guide-to-chicagos-array-of-things-initiative-1190

[8] https://statetechmagazine.com/article/2021/04/researchers-eye-machine-learning-secure-iot-data

[9] https://www.youtube.com/watch?time_continue=2&v=_-ooCbgIiyo&feature=emb_logo

[10] https://www.weforum.org/whitepapers/governing-smart-cities-policy-benchmarks-for-ethical-and-responsible-smart-city-development

[11] https://www.verdict.co.uk/ethnic-data-bias/

[12] https://storage.googleapis.com/pub-tools-public-publication-data/pdf/0d556e45afc54afeb2eb6b51a9bc1827b9961ff4.pdf

[13] https://www.theverge.com/2021/4/27/22403741/deepfake-geography-satellite-imagery-ai-generated-fakes-threat

[14] https://www.dropbox.com/s/wxf4c6x16hb2xdy/Waag-AMS-Strategy-for-urban-data.pdf?dl=0

[15] https://www.dropbox.com/s/qoqp17grtsfoh9u/future-city-magazine-2020-mr.pdf?dl=0

[16] https://ckan.org

[17] https://opendata-ajuntament.barcelona.cat/en/repte-barcelona-dades-obertes

[18] https://media.erepublic.com/document/CDG21_BRIEF_SailPoint_AWS_V.pdf

[19] https://tacticaltech.org/#/projects/me-and-my-shadow