In oktober 2024 startte het Letterenhuis in samenwerking met ADVN, Amsab-ISG, MoMu en meemoo het project ‘Metadateren en Ontsluiten van Digitale Archieven met behulp van Large Language Models’ of kortweg MODAL. Large Language Models (LLM’s) zijn grootschalige taalmodellen die getraind zijn om zelf tekst te genereren door immense hoeveelheden tekstgegevens te verwerken. Het doel van MODAL is te onderzoeken wat deze vorm van generatieve artificiële intelligentie (GenAI) kan betekenen voor de cultureelerfgoedsector en de kennis hierover actief binnen die sector te delen.
Cultureel erfgoed kent in toenemende mate digitale vormen. De exponentiële toevloed van born-digital archief is op vlak van beheer, verwerking en ontsluiting een enorme uitdaging voor archivarissen en collectiebeheerders. Hierdoor blijven veel digitale archieven en collecties ontoegankelijk en onzichtbaar voor onderzoekers en het brede publiek. Met de komst van GenAI ontstaan er nieuwe mogelijkheden om erfgoed efficiënter en rijker te ontsluiten.
Met behulp van LLM’s zouden collectiebeheerders en archivarissen ongestructureerde, tekstuele data sneller kunnen verwerken - bijvoorbeeld door samenvattingen te laten maken, teksten naar vorm te classificeren of kernwoorden te genereren. De mogelijkheid om omvangrijke collecties op een meer gebruiksvriendelijke en doeltreffende manier te doorzoeken, zou baanbrekende kansen voor diverse gebruikers kunnen bieden. Binnen MODAL zullen er drie gebruikersscenario’s onderzocht worden: het doorzoekbaar maken van digitaal archief, het opsporen van gevoelige of problematische inhoud en het tekstueel doorzoekbaar maken van audiomateriaal.
In functie van deze drie use cases wordt binnen MODAL niet alleen een aantal tools ontwikkeld en getest, maar wordt vooral ook onderzocht hoe deze hulpprogramma’s geïmplementeerd kunnen worden in de werkprocessen van archivarissen en collectiebeheerders. Voor het Letterenhuis wordt er nagegaan hoe deze tools de verwerking en beschrijving van born digital archief, m.a.w. digitaal gemaakt archief van schrijvers en dichters uit onze collectie, kunnen ondersteunen/vergemakkelijken. Sinds januari 2025 is Datable, een adviesbedrijf gespecialiseerd in digitaal erfgoed, aan de slag met onderzoeksmateriaal dat aangeleverd werd door de verschillende projectpartners.
De ambitie van het MODAL-project is om enerzijds de onderzoeksresultaten breed te delen en anderzijds samenwerking en kennisuitwisseling rond het gebruik van LLM’s en GenAI in de cultureelerfgoedsector te stimuleren. Dat zal gebeuren door de ontwikkelde scripts uit te rollen als inzetbare toepassingen voor de sector en door het opstarten van een collegagroep.
Wil je op de hoogte blijven van het MODAL-project? Hou dan de website van ADVN in het oog.