Doorzoekbaarheid van documenten verbeteren met slimme technieken

De wereld van informatiebeheer verandert. Het Zeeuws Archief is, samen met de Provincie Zeeland, bezig om een tool ‘tekst mining’ te ontwikkelen. Tekst mining is een trend in de geautomatiseerde analyse van literaire teksten. Daarbij wordt van ongestructureerde data – geschreven tekst – gestructureerde data gemaakt waar inzichten en kennis uit gehaald kan worden. Om tekst mining in te zetten, moet de tekst eerst begrijpelijk gemaakt worden voor een computer.

Muriël Valckx (Zeeuws Archief) en Simon Pouwelse (Provincie Zeeland) tijdens het symposium ‘Informatiebeheer in een wereld van data’.

De afgelopen maanden is door trainee en data scientist Muriël Valckx gewerkt aan een machine learning model dat (sub)titels, steekwoorden en korte samenvattingen uit PDF-bestanden kan genereren. De tool is onlangs gepresenteerd tijdens het symposium ‘Informatiebeheer in een wereld van data’ georganiseerd door het Kennisnetwerk Informatie en Archief (KIA). De tool kan op een veilige manier waardevolle informatie filteren uit PDF-bestanden. Hierdoor kan metadata verrijkt worden en dat komt de doorzoekbaarheid van documenten ten goede.

Github

Momenteel wordt de tool doorontwikkeld. Zo wordt gewerkt aan een package voor een code, zodat deze voor toegankelijk wordt voor iedereen die geïnteresseerd is. Heb je interesse in de ontwikkelingen, volg dan het Zeeuws Archief op Github. Op dit platform zal de tool worden gedeeld.

Update februari 2024

De ArchivetextMiner tool staat inmiddels online! Bekijk de hieronder genoemde link. Op deze pagina staat ook een uitleg.

De online ArchivetextMiner tool.

De ArchivetextMiner tool staat online. Op de pagina is tevens een uitleg toegevoegd.

github.com

Meer informatie

Lees ook het bericht over dit project op de site van het Kennisnetwerk Informatie en Archief (KIA), de ontmoetingsplaats voor vakgenoten in de wereld van informatie en archief.

kia.pleio.nl