Dit is een vervolg op deel 1. Een hele lap tekst, waarschijnlijk volslagen oninteressant voor de informatiespecialist van nu, maar toch jammer om dit allemaal zomaar ongebruikt in mijn kast te laten. Vandaar toch deze tekst gepubliceerd. We pakken de ontwikkelingen op aan het einde van de jaren dertig van de vorige eeuw.
Classificatietechnieken hadden zich verfijnd zoals we lazen
in de voorgaande bijdrage over het toegankelijk maken van documenten. Het
ontsluiten van informatie bleef echter een tijdrovende bezigheid. Wanneer na
afloop van de Tweede Wereldoorlog de Amerikaanse Liberty-schepen uit Duitsland
terugkeren vol wetenschappelijke informatie, verschijnt “As We May Think” in de
Atlantic Monthly, geschreven door Vannevar Bush. Hij constateert een explosie
in researchdocumentatie. De distributiemethoden hiervan zijn ontoereikend. Niet
bekende informatie blijft ongeëxploreerd. Zoals Bush stelt: “Het totaal aan
menselijke kennis neemt op onvoorstelbare wijze toe, en de middelen die we
gebruiken om onszelf er doorheen te worstelen zijn dezelfde als in de dagen van
de vierkant getuigde zeilschepen”.[1]
Bush komt tot het inzicht dat onze methoden om
wetenschappelijke informatie te verzenden en de resultaten te beoordelen niet
langer voldoen. Terwijl de vooruitgang en wetenschappelijke specialisatie
toeneemt, wordt de onderzoeker gehinderd door de bevindingen en conclusies van
duizenden collega’s, conclusies waarvoor hij geen tijd heeft om ze tot zich te
nemen en niet de tijd kan vinden om ze te doorgronden.[2] Er is
zoveel meer wetenschappelijke informatie dan wij kunnen bevatten en gebruiken.
Als voorbeeld noemt hij Mendell’s Wetten van de genetica. Een generatie lang
bleven deze onopgemerkt, omdat de publicatie niet werd gelezen door de weinigen
waarvoor de publicatie eigenlijk bestemd was en die de inhoud hadden kunnen
begrijpen. Bush stelt dat dergelijke rampen waarschijnlijk regelmatig
voorkomen. De techniek moet volgens hem versnelling bieden. Hij geeft als
voorbeeld de manier waarop in een supermarkt een aankoop snel wordt
afgewikkeld, noemt het aantal handelingen dat in verschillende werkgebieden al
mechanisch wordt verricht en is verwonderd dat de documentatie nog op zo een
archaïsche wijze wordt bewerkt en beheerd. Let wel: we schrijven 1939!
Er was van computers nog geen sprake; ten tijde van de
publicatie in 1945 was er één computer, de ENIAC, die werd gebruikt voor
ballistische berekeningen. Bush ziet mede om die reden de microfilm als het
medium van de toekomst. Hij voorspelt dat microfilmbeelden met het gebruik van
scherpere lenstechniek nog met een
factor 100 kunnen worden verkleind. Hij reduceert de totale omvang van
menselijke publicaties na verfilming tot de container van een verhuiswagen en
stelt verder dat compressie erg belangrijk is om te komen tot kostenbesparing.
De microfilmopname voor de Encyclopedia Brittannica zou niet meer dan een
stuiver kosten en het verzenden ervan een dollarcent. Een krant uitgeven in een
grote oplage zou per exemplaar minder dan een cent bedragen.
Hij combineert de vocorder, ontwikkeld door Bell
Laboratories, waarin via spraak de toetsen worden aangestuurd met de
stenografie en de Cyclops Camera: een camera, die op het voorhoofd wordt
gedragen als de spiegel van een arts en alles fotografeert wat de lezer een
fotografische reproductie waard vindt. Hij brengt deze vindingen samen in de
Memex, een gegevensmachine.
Bush vindt het een probleem dat onze taal niet specifiek is
ontwikkeld voor de nieuwe vormen van informatieopslag en de bijbehorende
mechanisatie. Hij gaat in op het proces van de selectie van informatie dat hij
vergelijkt met mechanische selectiemethoden uit die tijd, zoals de
telefooncentrale die uit miljoenen aansluitingen feilloos de juiste abonnee
weet te bereiken. Dit gebeurt door een uitgekiend selectiesysteem, waarbij
eerst een keuze wordt gemaakt door het eerste getal, vervolgens de subklasse
van het tweede getal en zo verder, totdat uiteindelijk via het laatste getal de
abonnee wordt bereikt. Het kost slechts een fractie van een seconde om deze
selectie te maken. Zo zouden zoeksystemen ook moeten werken.
Dat wij vastgelegde informatie vaak niet vinden komt door de
gekunstelde indexeringssystemen, zo stelt Bush. Alle gegevens zijn volgens een
alfabetisch of numeriek systeem opgeslagen en informatie wordt pas gevonden
wanneer we van hoofdklasse naar subklasse gaan. De informatie kan slechts op
één plaats aanwezig zijn, tenzij deze wordt gekopieerd in meerdere klassen.
Voor het zoeken moeten dus routines worden gebruikt waarlangs een zoekpad wordt
ontwikkeld en die regels zijn ingewikkeld. Is uiteindelijk het item gevonden,
dan moeten we weer naar het systeem om een nieuw zoekpad aan te leggen.
Bush geeft aan dat de menselijke geest niet zo werkt. De mens
associeert. Is eenmaal één item gevonden, dan springt de geest automatisch over
naar een ander item dat door een gedachten-associatie wordt gevormd. Deze
associatieve denkwijze is persoonlijk en wordt ook situationeel en historisch
bepaald. 20 jaar geleden luidde een associatief patroon bij voorbeeld:
KOE-MELK-ROOM-BOTER
Terwijl dit nu als volgt kan zijn:
KOE-BOE-MELKQUOTUM-BSE-MKZ-WEI-GRAS
Associatieve indexing
Dit betekent in de denktrant van Bush dat de manier waarop
iemand informatie selecteert associatief en vrij dient te zijn en dat er ruimte
moet zijn voor individuele processen.
Hoe is selectie via associatie te automatiseren vraagt Bush
zich af. Hij komt uit bij een toekomstgericht apparaat voor individueel
gebruik, een gemechaniseerd persoonlijk archief en bibliotheek. Hij noemt deze
foto-elektrische microfilmselectiemachine de Memex Dit is een hulpmiddel
waarin een individu al zijn of haar boeken, tijdschriften, dossiers en andere informatieobjecten
verkleind opslaat en dat gemechaniseerd is, zodat raadplegingen met duizelingwekkende
snelheid en grote flexibiliteit kunnen plaatsvinden. Het is een enorme
uitbreiding van het persoonlijke geheugen, te vergelijken met de huidige PC met
zijn OneNote, Sway, SharePoint, Verkenner, Outlook met agenda en takenoverzicht.
Alle documenten in de Memex zouden in microfilmvorm zijn verkregen of, wanneer
het persoonlijke documenten betreft, door de machine op microfilm worden gezet.
De Memex zou ook zoektechnieken gebruiken die waren gebaseerd op een nieuwe
manier van associatieve indexing, waardoor nieuwe vormen van multimedia
encyclopedieën zouden ontstaan, in de trant van Wikipedia. Het basisidee
hierbij is dat elk item waarnaar wordt gezocht automatisch en direct een ander item
oproept. Hierdoor ontstaan persoonlijke zoekpaden die ook weer in de machine
worden vastgelegd. Deze Memex is overigens nooit ontwikkeld.
Bush gaat ervan uit dat associatieve denkpatronen niet
voldoende zijn om de informatie terug te vinden. Hij stelt dit als volgt:
“Natuurlijk is het mogelijk om een informatieobject volgens de gangbare
ontsluitingssystematieken te lezen. Als de lezer een bepaald boek wil bekijken
dan typt hij de code in op het toetsenbord en de titelpagina van het boek
verschijnt, geprojecteerd op één van zijn schermen (viewing positions). De vaak
gebruikte codes zijn mnemotechnisch zodat hij slechts zelden zijn codeboek
hoeft te raadplegen.” Met andere
woorden: associatieve methoden en gestructureerde systemen vullen elkaar aan.
De
manier waarop volgens Bush de gebruiker associatieve indexering toepast geeft
optimale vrijheid. Hij beschrijft de manier waarop een associatieve wijze van
zoeken kan worden uitgevoerd en hoe een spoor kan worden aangelegd (wij noemen
dit een zoekpad, trail of path). Deze sporen blijven bewaard, zodat ze kunnen
worden hergebruikt, mits ze ook inderdaad geraadpleegd worden, anders vervagen
ze.
Bush voorziet dat nieuwe vormen van encyclopedieën zullen
ontstaan, die zijn voorzien van talloze gepreconditioneerde, vooraf bedachte, zoeksporen. Hieruit
ontstaat een nieuwe professie, die van de trail blazers, spoorleggers, die
tussen enorme hoeveelheden documenten verbanden aanbrengen.
De
nieuwe zoekstrategieën die Bush voorzag voor het toegankelijk maken van
informatieopslag en –retrieval zouden leiden tot totaal nieuwe kennis. In dit
opzicht trekt hij de lijn door, die Otlet heeft ingezet. Bush gaat er daarbij
wel van uit dat informatie al in enige vorm toegankelijk is gemaakt en dat de
nieuwe methode van zoeken complementair is aan de systemen die reeds bestaan.
Het inspirerende artikel van Bush heeft destijds veel
weerklank gekregen en deze ideeën zijn later regelmatig aangehaald door
anderen. Zij hadden echter het voordeel dat de informatie- en
communicatietechnologie zich gaandeweg steeds verder ontwikkelden en dat de
computer als snelle reken- en zoekmachine nieuwe mogelijkheden voor
tekstbehandeling bood. Met de computer kwamen de information retrieval systemen
op, waarmee onderzoekers uit de informatica, linguïstiek, cognitiewetenschappen
en psychologie proberen een zo groot mogelijk effect te bereiken op het
filteren van informatie.
Door information retrieval worden de traditionele
informatiedepots, zoals bibliotheek en archief herontdekt en wordt aan het
archief, voorheen gepositioneerd als eindstadium van het
informatieverwerkingsproces, een centrale plaats in de informatievoorziening
toegekend als Document Warehouse
functie.
Bush spreekt zich in zijn artikel niet uit hoe de indexering
van de documenten in zijn werk gaat. Dit kan op twee manieren:
1.
Via full text, waarbij de zoekmachine gewoon alle tekst
leest, meestal exclusief door de gebruiker aangegeven zoekwoorden.
2. Via key words
(sleutelwoorden, trefwoorden) wordt een gecontroleerde vocabulaire
samengesteld. De onderwerpen worden vooraf gedefinieerd. Dit is een zeer
arbeidsintensieve werkwijze.
Een moderne uitwerking van associatieve indexing vinden we in
de Aqua Browser, een systeem dat
informatie uit verschillende bronnen presenteert in de vorm van woordenwolken,
ook wel woordspinnen genoemd. Een ingevoerde zoekterm levert niet alleen termen
op die met de zoekvraag te maken hebben, maar ook termen die met de zoekterm kunnen worden geassocieerd. De informatie,
onverschillig op welk medium deze aanwezig is, wordt door zogenaamde Liquid
Filters uit de bronnen gehaald en door een Liquid Knowledge Builder gecached
(opgeslagen) in een IGOR database. De bronnen blijven daarbij ongemoeid, maar
kunnen wel regelmatig worden geraadpleegd op nieuwe gegevens.
De Liquid Knowledge Builder analyseert de informatie aan de
hand van ingebouwde woordenboeken, waarin ook classificaties van de organisatie
zelf, thesauri of woordsystemen kunnen worden opgenomen. Deze totale
woordenschat wordt via mathematische modellen, zoals woordfrequentie en
clustering, gepresenteerd in de vorm van een schema dat bestaat uit een
kernwoord met lijnen naar associaties en verbanden. Wordt een associatie
aangeklikt, dan wordt dit het kernwoord en verschijnen weer nieuwe associaties.
Een afgelegd zoekpad wordt onthouden zodat de vinder kan terugkeren op zijn
schreden.
Associatief zoeken is echter niet iets dat door systemen kan
worden afgedwongen, maar dat zich afspeelt in de menselijke geest. Associatief
zoeken heeft het bezwaar dat men gemakkelijk wordt afgeleid van het onderwerp,
iets wat op het Internet bij het gebruik van een willekeurige browser ook al
snel kan gebeuren.
Thesauri
Een thesaurus is een lijst van begripsaanduidingen,
descriptoren genoemd, met aanduiding van de onderlinge relaties die er tussen
deze begrippen zijn aangebracht. Deze relaties zijn van hiërarchische,
taalkundige en associatieve aard.
Een thesaurus hoort eigenlijk niet bij associatieve
indexeringstechnieken thuis, omdat het een strak georganiseerd systeem is van
vooraf afgesproken relaties. De thesaursus maakt het echter wel mogelijk om met
behulp van deze strikte termen associatief te zoeken. De thesaurus als
hulpmiddel voor het ontsluiten van documentaire informatie dateert van het
einde van de jaren vijftig. Als hulpmiddel hiertoe is het een geordende
verzameling van uit de natuurlijke taal gekozen termen, met vermelding van de
onderlinge inhoudelijke relaties, waarbij deze relaties in de vorm van termen
zijn vastgelegd. Een thesaurus is ingericht voor postcoördinatief gebruik. De
semantische relaties hebben dezelfde werking als een classificatie: ze geven
immers relaties aan, wat een classificatie ook doet.
Een voorbeeld mag verduidelijken wat onder pré- en
postcoördinatief wordt verstaan. Stel dat we een boek hebben over afkalvende
ijsbergen in het Zuidpoolgebied. Met behulp van de UDC zouden we dit dan een
classificatienummer geven onder 551.326(211-13). Het boek krijgt een
plaatsingsnummer (kast 12, plank 6 box 3 b.v.) We zouden een – al dan niet
elektronisch fiche - aanmaken en als ingang zou het classificatienummer dienen.
Aan de hand van dit nummer zouden we het boek weer kunnen terugvinden, maar
steeds moeten we bij zoekvragen onszelf de combinatie van de cijfers weer in
herinnering roepen. Dit noemen we précoördinatie: al tijdens de fase van
ontsluiting van het boek bepalen we waar en hoe we het kunnen terugvinden.
Anders wordt het wanneer we een woordsysteem zouden
gebruiken. Op dat moment geven we aan het document meerdere kenmerken mee, bij
voorbeeld: IJsbergen, Zuidpool, Broeikaseffect. Het boek krijgt hetzelfde
plaatsingsnummer. Wanneer we nu zoeken naar het boek dan kunnen we het
terugvinden door één of meerdere termen in te voeren. Dit heet postcoördinatie:
achteraf combineren we enkelvoudige termen tot een complex onderwerp. Hierbij
spelen twee elementen: de recall (het aantal documenten dat we terugkrijgen als
antwoord op een zoekvraag) en de precision (de mate waarin de zoekvraag aan
onze zoekopdracht voldoet).
Een thesaurus maakt gebruik van een vooraf bedacht stelsel
van begripsomschrijvingen. Hierdoor ontstaan relaties tussen de termen. Er zijn
drie soorten relaties:
1.
De equivalente- of
gelijkwaardigheidsrelatie: USE- Used For (UF) en ook: (UsA) Use And en UFA
(Used For And).
2. De hiërarchische relatie
BT (Broader Term, verwijst naar een hiërarchisch hoger niveau): NT (Narrower
Term, verwijst naar een hiërarchisch lager niveau).
3. De associatieve relatie:
RT (Related term).
Daarnaast zijn er de verklarende Scope Note (geeft een
definitie, of aanwijzingen voor het gebruik van de descriptor) en de History
Note (geeft bij voorbeeld de vroegere naam van de descriptor).[3]
Agents en zoekmachines
Het zoeken naar informatie kan handmatig gebeuren, maar kan
ook door tussenkomst van een zoekmachine of een automatische, intelligent agent
die is toegerust met artificiële intelligentie. De laatste is een robot, de
digitale butler van de toekomst, een programma dat automatisch bijvoorbeeld een
hypertext structuur van het web doorzoekt om documenten op te sporen die aan
bepaalde kenmerken voldoen. Ze worden ook wel mobile agents, webwoelers, web wanderers, webcrawlers of
web spiders genoemd. Sommige hebben niet bijster goede bedoelingen en heten
daarom worm of virus. Ze bezoeken sites en vragen om de documenten, waartoe de
zoeker ze opdracht heeft gegeven. Een agent is een entiteit die de mogelijkheid
heeft om bepaalde acties uit te voeren, de beschikking heeft over bepaalde
informatie en redenen heeft om zich op een bepaalde manier te gedragen.[4]
Er bestaan
agents voor diverse toepassingen. Zo worden onder andere onderscheiden: game agents, shopping agents, fun bots, news
bots, chatter bots, dataminig bots, knowledge bots, search bots, software bots,
stock bots en newsgroup bots.[5] Wij onderscheiden drie groepen:
1.
Autonomous agents: programma’s die tussen specifieke servers
reizen, waarbij zij zelf beslissingsbevoegdheid hebben over wat zij doen.
2.
Intelligent agents: zij helpen gebruikers met bijvoorbeeld de
keuze van een product, het invullen van een formulier of het vinden van dingen.
Ze hebben gewoonlijk weinig van doen met netwerken.
3.
Mobile agents: werkstroombeheer, waar bijvoorbeeld een agent
profielen met elkaar vergelijkt.
4.
User agents: zoeken netwerktaken uit voor een gebruiker.
Microsofts Internet Explorer is hiervan een voorbeeld.
Agents dienen een aantal eigenschappen te bezitten om
als zodanig erkend te worden. Deze zijn:
-
De agent moet reactief zijn, in staat
zijn om op veranderingen te reageren. Het feit dat er nieuwe informatie
beschikbaar is wordt aan de gebruiker doorgegeven.
-
Als nieuwe documenten aan een
verzameling toegevoegd worden of wijzigingen op bestaande documenten
plaatsvinden dient de agent dit autonoom te signaleren en verwerken. Menselijke
tussenkomst zou niet nodig moeten zijn. De agent herkent wijzigingen in de status
van de documentenverzameling en zal bijvoorbeeld zelf herindexeren.
-
De gebruiker moet kunnen aangeven in
welke richting de agent moet gaan zoeken. Vanaf dat moment moet een goede agent
in staat zijn om zich aan de opdracht te houden.
-
Verdere eigenschappen die een agent kan hebben zijn: communicatief,
lerend/adaptief, mobiel en flexibel.
Met name het zelflerend en adaptief vermogen zijn belangrijk. Uit de
bijbehorende documentatie van de agents wordt zelden precies duidelijk volgens
welk principe de agent werkt. De beschrijvingen over de achterliggende theorie
zijn uiterst summier. De agents die een redelijke omvangrijke functionaliteit
claimen, gebruiken meestal combinaties van de verschillende theoretische
modellen.
De intelligent agents zullen in de toekomst meer worden getraind om
bepaalde taken over te nemen van de gebruiker. Een intelligent gebruik van agents
wordt getoond in The Semantic Web, waarin een voorbeeld wordt gegeven hoe
agents door onderling te communiceren belangrijke zoekacties voor personen
kunnen uitvoeren en ook functies overnemen[6].
Kevin
Kelly beschrijft een wereld van technologische systemen, waarin agents met
elkaar communiceren en er steeds kleine stukjes “bot, software” op uit worden gestuurd om een
bepaalde boodschap voor ons te doen.[7]
Patty Maes van het Massachussets Institute of Technology (MIT), ontwikkelaar
van het succesvolle Firefly dat in 1999 werd overgenomen door Microsoft, zegt
het anders: “We proberen de mensen niet te helpen door ze te assisteren met één
enkele intelligent agent, maar met een heel leger”.[8]
De agent, die wordt ingezet voor het zoeken naar informatie, kan geleerd worden
om de zoekstrategie van iemand te volgen (vgl. wanneer u éénmaal een aankoop
doet bij Amazon.com dan geeft de agent nadien steeds recommendations die overigens een behoorlijk
wisselend gedrag kunnen vertonen). Dit brengt overigens ook risico’s met zich
mee. Heeft een machine zich eenmaal een bepaalde zoekstrategie van een
gebruiker eigen gemaakt, dan worden zijn toekomstige associatieve paden
eigenlijk al bij voorbaat bepaald. Intelligent agents worden ook ingezet als
zoekmachine, waarbij artificiële intelligentie het zoeken naar informatie
ondersteunt.
Van zoekmachines is inmiddels
bekend dat zij niet erg betrouwbaar zijn.
Wouter Meltrop en Hans van der Laan onderzochten het indexeergedrag (welke
elementen van een document indexeert een zoekmachine en hoe constant is dit
gedrag?) en het zoekgedrag (vindt of toont een zoekmachine alle documenten die
hij zou moeten vinden). Het onderzoek wijst het volgende uit:
-
Tussen verschillende zoekmachines
bestaan verschillen in aantallen gevonden documenten.
-
Grote zoekmachines vinden niet per
definitie meer documenten.
-
Alle zoekmachines samen bestrijken niet
het gehele web.
-
Veel zoekmachines vertonen
vergeetachtig gedrag (de ene keer vinden ze een bepaald document wel, de andere
keer weer niet).
-
Meer dan de helft van de onderzochte
zoekmachines vertoont inconsistent gedrag en maakt fouten.[9]
Een wel heel bijzonder idee voor een zoekmachine komt van
Eliot Christian. Hij ontwikkelde voor het United States Geological Survey in de
VS een Government Information Locator Service (GILS) en bepleit het instellen
van dit uniform verwijssysteem naar alle
informatie die er in de elektronische cyberspace te vinden is. Het is een
instrument om informatie toegankelijk te maken, zoals een televisiegids een
allocator is voor televisieprogramma’s, een atlas voor plaatsaanduidingen, de
telefoongids voor telefoonnummers. Een aantal basisprincipes voor de Global
Information Allocator worden als volgt beschreven:
-
Open standaards, waarop elk informatienetwerk kan aansluiten.
-
De betekenis van informatie moet worden behandeld vanuit
verschillende context.
-
Patronen moeten worden herkend in tekst, maar ook in foto’s,
video, vingerafdrukken en geluid.
-
Er moet worden samengewerkt met de “culture treasure houses”
van het heden: bibliotheken, musea en archieven, maar dan op mondiaal niveau.[10]
De GILS is inmiddels gevolgd door een ander initiatief, de
Washington States Government Information Locator Service (WAGILS). Het is een
aangepaste versie van de GILS die zeer succesvol is en al door meerdere staten
in de VS is ingevoerd. WAGILS blijkt een zeer krachtige zoekmachine te zijn die
alle gedrukte publicaties van de Amerikaanse regering toegankelijk houdt, de
Washington State Library extracts catalog en de pagina’s van het Government
agency web.[11]
Dit is niet het enige initiatief. Het “Invisible Web” wil websites diep
doorzoekbaar te maken via een metaniveau. Het initiatief kwam van de makers van
de Personal Librarian retrieval software, waarbij hun AT1-systeem automatisch
meta-indexen zou genereren uit de indexen van databases die doorgaans door
zoekmachines niet worden doorzocht. The Deep Web wordt het genoemd en het zou
bestaan uit triljarden documenten.
In deze trend passen controversiële standpunten; er is altijd een slinger
die zich beweegt tussen centralisatie en decentralisatie. Zo is er een beweging
die meent dat het gebruik van één standaardschema voor het toegankelijk maken
van alle informatie niet wenselijk is.
Het SCHEMAS-project is gericht op ondersteuning bij de keuze van een metadataschema, door IT- of informatieprofessionals. Metadata kunnen benaderd worden vanuit de semantiek (betekenis) en vanuit de syntax (codering). SCHEMAS richt zich op uitwisseling van informatie over de semantiek, met de nadruk op de keuze van elementen en definities. Via de SCHEMAS Standards Watch worden ook ontwikkelingen op gebied van de syntax en mark-uptalen, bijgehouden. SCHEMAS werkt aan een data-base van metadataschema’s die via het web doorzoekbaar is. Het is de bedoeling dat in deze database niet alleen gegevens over de beschikbare standaardschema’s beschikbaar komen, maar ook informatie over de toepassing binnen (lokale) projecten (application profiles). [12]
Het SCHEMAS-project is gericht op ondersteuning bij de keuze van een metadataschema, door IT- of informatieprofessionals. Metadata kunnen benaderd worden vanuit de semantiek (betekenis) en vanuit de syntax (codering). SCHEMAS richt zich op uitwisseling van informatie over de semantiek, met de nadruk op de keuze van elementen en definities. Via de SCHEMAS Standards Watch worden ook ontwikkelingen op gebied van de syntax en mark-uptalen, bijgehouden. SCHEMAS werkt aan een data-base van metadataschema’s die via het web doorzoekbaar is. Het is de bedoeling dat in deze database niet alleen gegevens over de beschikbare standaardschema’s beschikbaar komen, maar ook informatie over de toepassing binnen (lokale) projecten (application profiles). [12]
Naast het uitbreiden van het intelligentieniveau van agents wordt ook
aandacht besteed aan intelligentie in
documenten zelf. Dit kan gebeuren via hypertext (zie onder 2.4.4), maar ook via
documentstructuren, zoals HTML, SGML of XML (zie onder 2.4.5).
Hypertext
Digitaliteit maakt een vrije, persoonlijke herschikking van
informatie-objecten mogelijk, waarbij ook driedimensionale objecten kunnen
worden opgenomen. Het lezen van de tekst hoeft niet meer lineair te geschieden.
De lezer kiest een individueel leespad door een werk, maar kan ook zelf
commentaren toevoegen, met andere woorden: het document is modulair geworden.
Het is geworden tot wat Otlet wenste: een verzameling van tekstelementen, die
kunnen worden geïnterpreteerd op de waarde die zij toevoegen als nieuwe kennis.
Hypertext wordt onderscheiden in microtextsystemen (bestaande
uit één tekstdatabase) en macrotextsystemen (een tekst die verwijst naar
diverse andere informatie-objecten).
In traditionele vorm kennen we hypertext als de ‘zie’ en ‘zie
ook’ verwijzingen in bibliotheekcatalogi en archiefinventarissen.
De relatie in een elektronische omgeving wordt gelegd met
behulp van expliciet gelabelde links. Dat zijn uniek gedefinieerde, directe
connecties tussen modules of delen daarvan, die één of meerdere soorten
relaties aangeven. De relaties die in hyperlinks worden getoond leiden tot
specifieke klassen van metadata die de attributen van een link beschrijven. De
link beschrijft dus expliciet de relatie tussen informatieobjecten. Wanneer nu
deze link de bibliografische metadata van zijn auteur meedraagt, wordt het een
nieuw type informatieobject. Zo verkrijgt de link dezelfde status als de
informatieobjecten, waartussen zij een koppeling legt.
Het
hypermedia paradigma kijkt naar data als een netwerk van knopen, verbonden door
links. De knoop wordt beschouwd als een black box die met de buitenwereld
communiceert via deze links. Iedere knoop symboliseert een concept. Een link
betekent niet alleen een relatie tussen twee knopen, maar geeft ook de semantiek
aan van het navigatiepad. De hypermediaopbouw geeft de gebruiker een ongekende
vrijheid om door een document (of set documenten) te navigeren. De mogelijkheid
om andere documenten te bereiken berust echter op de uitgangspositie van de
gebruiker binnen het netwerk van knopen, wat we aanduiden met de “current
node”. Manipulatie van deze uitgangspositie brengt nieuwe links van
gerelateerde informatie aan het licht.
De nieuwe verkeersaanduidingen zijn traditioneel de metadata
die het type informatie in een bepaalde unit beschrijven. Er zijn meerdere klassen
metadata, die een volledig systeem van coördinaten vormen, wat bij voorbeeld
beschreven wordt in de Dublin Core Metadata Set. [13]
Een hypertextdocument kent geen logisch begin of eind. Een
gebruiker kan hierdoor gedesoriënteerd raken, “lost in hyperspace”. [14]
Het gevaar is aanwezig dat straks alles naar alles verwijst, waardoor een
zoeker naar bepaalde informatie in een “deadlockloop” terechtkomt. Daarom is
zoekgeleiding noodzakelijk en zijn afspraken nodig over de manier van linken
(bij voorbeeld: gelinkte tekst moet altijd deel uitmaken van het hoofdbestand,
waaraan gekoppeld wordt). Hierdoor wordt voorkomen dat de hyperlinkketting
verbroken wordt wanneer webpagina’s zijn
vervallen of worden gewijzigd. Op dat moment zou de informatie niet meer terug
te vinden zijn, indien uitsluitend wordt verwezen naar een website. Dit is één
van de veelvoorkomende problemen op het web: een link verdwijnt met een
gemiddelde snelheid van negentig dagen.
Om een goed hypertextdocument te maken dienen conventies te
worden afgesproken.
Allereerst dient een nieuwe granulariteit voor informatie en
zijn structuur te worden vastgesteld. Met granulariteit wordt bedoeld de mate
waarin de tekst wordt verfijnd en uit welke tekstelementen deze zal bestaan.
Joost G. Kircz en Frederique Harmsze zeggen hierover:
“Het ontwerp van een dergelijke structuur dient gebaseerd te
zijn op algemeen geaccepteerde ideeën over zowel de consistentie en integriteit
van wetenschappelijke communicatie, als over de analyse van standaard wetenschappelijke
geschriften. Op elk niveau van granulariteit bestaat een noodzaak van
duidelijkheid. Vooral in de elektronische modulaire omgeving, waar auteurs hun
eigen nieuwe modulen kunnen toevoegen aan teksten en hun commentaar aan
bestaand werk is het nodig dat nagegaan kan worden wie bepaalde opmerkingen
heeft geplaatst of toegevoegd.”
Hiermee komen we bij de basisidee van Otlet, die een boek of
ander wetenschappelijk informatie-object verdeelde in “tekstblokken” naar vier
criteria en deze –indien zij waardevol waren- toevoegde aan het
Wereldrepertorium, waarbij uitgangspunt was om nieuwe kennis toe te voegen aan
de bestaande. Een tweede citaat van Kircz en Harmsze:
“Op deze manier kunnen verschillende auteurs informatie
delen. Wanneer er nieuwe wetenschap wordt ontwikkeld hoeven uitsluitend die
modulen te worden geschreven waaruit nieuwe inzichten blijken. Daarnaast kan
commentaar toegevoegd worden als een afzonderlijke entiteit.” Ook geven zij aan
dat wetenschappelijke informatie in de toekomst een totaal andere vorm zal
hebben dan de lineaire documentstructuur van nu. Artikelen kunnen modulair
worden opgebouwd. Een aantal zaken dienen te worden gewaarborgd: de
authenticiteit van de informatie (de betrouwbaarheid qua inhoud, samenhang en
structuur); de authenticiteit van de auteur (elke module dient voorzien te
worden van metagegevens waaruit blijkt wie de auteur is, zodat de module met de
auteursreferenties kan worden geciteerd) en de certificatie: is de module via
peer review of als vrije productie tot stand gebracht[15]
Navigatie binnen teksten en in sets van teksten is een object
van onderzoek sinds de vijftiger jaren. Hypertext is een onderzoeksterrein dat
nog niet zo lang geleden is gestart. Bij de KU Leuven loopt o.a. het
MESH-project. Samen met het onderzoek aan de Universiteit van Amsterdam geeft
dit aan dat gezocht wordt naar nieuwe wegen om informatie, de “tekstblokken”,
te structureren. [16]
Tegelijkertijd moet worden geconstateerd dat de structuren die worden
voorgesteld zeer gedetailleerd zijn, bestaan uit een breed stelsel van nieuwe
conventies, die daardoor tevens als statisch en beklemmend worden ervaren.
Structurering en standaardisatie, uitgaande van wereldconventies is echter naar
mijn mening de enige mogelijkheid om te komen tot een uniforme en betrouwbare
ontsluiting van wetenschappelijke informatie.
Nog één systeem willen we bespreken: het Xanadu Hypertext
opslagsysteem van Ted Nelson.[17] Nelson zag Xanadu als een imaginair plan voor
een wereldwijd netwerk, bedacht om miljarden gebruikers tegelijkertijd gebruik
te laten maken van wereldliteratuur, afbeeldingen en data. Het Xanadu systeem
zou een universele gegevensstructuur moeten bieden, waaraan overige
gegevensstructuren kunnen worden gekoppeld. Volgens Nelson werd het Xanadu
Project een elektronische opslagplaats met snelle verbindingen voor de opslag
en publicatie van tekst, afbeeldingen en andere digitale informatie, waarbij
onbeperkt verbanden konden worden gelegd
tussen alle denkbare gegevenselementen. Alternatieve versies werden
aangegeven, evenals historische logfuncties.[18]
Conclusie
De overkoepelende naam voor woord- en classificatiesystemen
is indexsystemen. In meerdere onderzoeken wordt nagegaan in hoeverre
woordsystemen of classificatiesystemen voorkeur hebben in gebruik.[21] Eén
van de steeds terugkerende conclusies is, dat beide systemen elkaar aanvullen
als een alfabetisch register en een inhoudsopgave in een boek. Het toepassen
van classificatietechnieken, trefwoordsystemen en thesauri betekent echter wel
dat documenten nog steeds moeten worden geïndexeerd door personen. Het
ontsluiten van informatie is een zeer arbeidsintensief en tijdrovend proces.
Vandaar dat gezocht wordt naar mogelijkheden om dit proces te automatiseren.
Het zoeken naar informatie kan op verschillende manieren. Er
zijn voorbedachte structuren, die bijgehouden worden door vakspecialisten,
zoals de Universele Decimale Classificatie en thesauri. Daarnaast komen nieuwe
en steeds betere zoeksystemen op de markt, die de elektronische informatie
bevragen, categoriseren aan de hand van referentiewoorden en deze informatie
een kwaliteitsvolgorde, ‘ranking’ geven.
Om te komen tot een optimale toegankelijkheid van informatie
dient een combinatie van zoeksystemen en –machines te worden gebruikt. Hoe meer
zoeksystemen, des te groter de kans dat een bepaald informatieobject gevonden
wordt. Daarbij dient zoveel als mogelijk gebruik gemaakt te worden van
automatische zoektechnieken en dient de informatiespecialist zich erop te
concentreren om het maximale uit deze zoekmachines te halen. Het handmatig
ontsluiten van informatie dient waar mogelijk te worden vermeden, mede gezien
de grote arbeidsintensiteit die dit met zich meebrengt- maar ook de kans die er
blijft bestaan op het maken van fouten. Idealiter zou gebruik gemaakt kunnen
worden van enkele information agents, aangevuld met een associatief zoeksysteem
dat gebruik maakt van natuurlijke taal en via postcoördinatie begrippen met
elkaar combineert- en een zoekgeleiding die wordt aangebracht door
vakspecialisten. Dit betekent wel dat de informatie in principe digitaal
aanwezig moet zijn. In veel organisaties is dat al zo, in toenemende mate wordt
digitale informatie gezien als de originele, digital born documenten, die
uiteraard met de nodige zorg moeten worden omkleed. Wanneer de informatie digitaal is, wordt meta-search
een nieuwe, veelbelovende trend, waarbij een zoekopdracht tegelijkertijd via
meerdere zoekmachines wordt uitgevoerd.
Ook kunnen we constateren dat wetenschappelijke informatie in
de toekomst een totaal andere vorm zal hebben dan de lineaire documentstructuur
van nu. Artikelen kunnen modulair worden opgebouwd. Een aantal zaken dienen te
worden gewaarborgd: de authenticiteit van de informatie (de betrouwbaarheid qua
inhoud, samenhang en structuur); de authenticiteit van de auteur (elke module
dient voorzien te worden van metagegevens waaruit blijkt wie de auteur is,
zodat de module met de auteursreferenties kan worden geciteerd) en de
certificatie: is de module via peer review of als vrije productie tot stand
gebracht. We constateren daarbij dat de structuren om informatieobjecten en
documentmodulen toegankelijk te maken bestaan uit een breed stelsel van
conventies. Structurering en standaardisatie zijn naar onze mening noodzakelijk
om te komen tot een uniforme en betrouwbare ontsluiting van informatie, maar
wel met gebruikmaking van zoveel mogelijk geautomatiseerde zoekmachines.
Associatieve zoeksystemen vormen een nieuwe aanvulling op het vrije zoeken,
maar zijn naar onze mening minder geschikt voor concrete, doelgerichte
zoekacties, aangezien ze de zoeker afleiden van het uiteindelijke doel.
[1] Vannevar Bush, ‘As We May Think’ in: Atlantic
Monthly. (1945). 101 – 108. Het artikel werd geschreven in 1939, maar
door de oorlogsjaren verlaat gepubliceerd, nadat Bush het op onderdelen had
aangepast.
[3]
In Nederlandse thesauri worden de Engelstalige begrippen gebruikt. Ze zijn afkomstig uit de Guidelines for the
establishment and development of monolingual thesauri. Geneva: ISO, 1986 (ISO
2788).
[5]
S. Thaler, Databots. Zie de link onder
agents op deze pagina.
[6] Tim Berners-Lee, Weaving the Web:
The Original Design and Ultimate Destiny of the World Wide Web by Its Inventor.
(San Francisco 1999).
[7]
Kevin Kelly, Nieuwe regels voor
de nieuwe economie. 10 radicale ondernemingsstrategieën in een wereld van
netwerken. (Amsterdam 1999).
[8]
‘Belgische professor maakt naam met digitale butlers. Pattie Maes creëert eigen
vakgebied en is daarop de beste’ in: Automatisering Gids, 30 juli 1999
pag. 17. Een overzicht van de uitgevoerde en onder handen zijnde projecten
geeft een indrukwekkend beeld van de vele mogelijkheden die agents bieden.
[9]
Zie het onderzoek van Wouter Meltrop en Hans van der Laan c.s. ‘Evaluatie van
search engines’. Informatie
Professional 3 (1999) 18 – 23.
[10] Eliot Christian, ‘Towards a Global Information
Locator’. In: FID News Bulletin Vol. 45 Issue 10 (1995). 293 – 297.
[11] Robert C.Cary, MIT, ‘Metadata- What Is It? How Do I
Handle It?’ in: Proceedings ARMA International Congress in Cincinnati, October
17 – 20, 1999.
[12]Rachel Heery, ‘SCHEMAS: greep
krijgen op metadata’ in: Informatieprofessional. 6-7 (2001). Zie ook de website van het forum: http://www.schemas-forum.org
[13]
Zie de Dublin Metadata Core. Zie ook T. Murray,
C. Condit and E. Haugsjaa, A
preliminary framework for concept-based adaptive hypermedia. Nieuw
in dit verband is PRISM,
een raamwerk voor de uitwisseling en het bewaren van inhoud en metadata, een
collectie van elementen om de inhoud te beschrijven en een set van
gecontroleerde woordenboeken die van de waarden van deze elementen een lijst
maken. Deze conceptversie van de specificatie is geschreven door een werkgroep
van vertegenwoordigers van organisaties zoals o.a. Sotheby's,
Time, Cond Nast Publications, Adobe Systems, en Getty Images. Zij heeft als
doel het maken van inhoudsomschrijvingen te vereenvoudigen. PRISM zou dus een
nieuw standaard moeten worden, zoals de Dublin Core. Er zijn ook specifieke
toepassingen, zoals ISAD(G)
en de EAD,
Encoded Archival Description.
[15] J.G. Kircz, en F. Harmsze: Modular Scenarios in the
electronic age. Universiteit van Amsterdam, Conferentie
Informatiewetenschap 2000, ook te vinden onder http://www.wins.uva.nl/projects/commphys . Zie verder: Frédérique Harmsze en Maarten
van der Tol: Van lineaire naar modulaire artikelen, http://www.schience.uva.nl/projects/commphys/papers/viot.htm
en Joost Kircz: Naar een Nieuwe Modulariteit van Wetenschappelijke Informatie.
Bijdrage aan het symposium ter gelegenheid van de opening van de Walaeus
bibliotheek, Academisch Ziekenhuis Leiden, 28 maart 1976.
[16] W. Lemahieu, ‘MESH- An Object-Oriented Approach to
Hypermedia Modeling and Navigation’ in: CS-Report 00-20, Conferentie
Informatiewetenschap 2000, Proceedings edited by P. van der Vet en P. de
Bra. (Eindhoven 2000).
[17] Ted Nelson, ‘The Xanadu Paradigm’. (San Antonio 1987)
(geciteerd door W. Boyd Rayward in: ‘Visions of Xanadu’,
JASIS 45 (1994) 235 – 250.
[18]
Er zijn inmiddels in de loop der jaren een aantal omvangrijke digitaliseringsprojecten gaande met een
soortgelijke strekking. De eerste waren het Metamorfoze-project van de Koninklijke Bibliotheek, het European
Register of Microfilm Masters EROMM, dat al enkele miljoenen titels van boeken
en tijdschriften telt en is gevestigd in de Universiteit van Göttingen, het
Ijslandse project SagaNet (565.000 bladzijden te reproduceren, begonnen in juli
1997) en het langstlopende digitaliseringsproject in het Archivo General de Indias
(AGI) in Sevilla, Spanje, waar in 1989 werd begonnen en 100 miljoen bladzijden
moeten worden gedigitaliseerd. Men heeft gedurende het project al diverse
migraties meegemaakt, bij voorbeeld van WORM-disk naar CD-ROM.
[19] J. Haarman, en E. Peelen: improving the accessibility
of web sites by a higher ranking in search engines. Prima Vera Working Paper
99-21, Amsterdam, 1999.
[20] http://www.archive.org/xterabytes.html
[21] O.a. Karen Markey en Ann N. Demeyer. Findings of the
Dewey Decimal Classification on-line project, International Cataloguing
okt./dec. 1986, blz. 15 – 19. Voor mij was dit het artikel dat mijn nieuwsgierigheid naar de ontsluiting van informatie en de voor- en nadelen van pre-indexering versus post-zoekmachines wakker maakte.
Geen opmerkingen:
Een reactie posten