Webarchivering - Rijksarchief in België

Websites zijn één van de belangrijkste media van onze tijd. Zoals ander archief, moeten ze dus bewaard worden in functie van hun historische waarde op lange termijn.

Moet ik de websites van mijn organisatie bewaren en overbrengen?
Welke eigenschappen van de website moeten bewaard worden?
Welke manieren zijn er om een website te archiveren?
Hoe vaak moet een website gecapteerd worden?
Wie is verantwoordelijk?
Vraag of opmerking?

Moet ik de websites van mijn organisatie bewaren en overbrengen?

We moedigen archiefvormers aan om hun website regelmatig te capteren, en helpen je graag bij het kiezen van een aanpak en planning.

Project PROMISE

De Koninklijke Bibliotheek van België beoogt de creatie van een nationaal webarchief, met jaarlijkse captatie van onder meer alle .be-websites, dus ook de websites van Belgische overheidsinstanties (meer info).

Hiervan bestaat overigens nog maar een prototype. Bovendien zullen, door de brede scope van de onderneming, niet alle details van de websites gecapteerd kunnen worden. Het Rijksarchief evalueert daarom momenteel of een bijkomende strategie nodig is om overheidswebsites met voldoende kwaliteit en regelmaat vast te leggen.

In de toekomst zal in de selectielijsten worden vastgelegd welke websites hoe vaak gecapteerd en overgebracht moeten worden.

Welke eigenschappen van de website moeten bewaard worden?

Een website is een verzameling van teksten, databasegegevens, afbeeldingen en andere audiovisuele content, die met markuptaal als een collage aan elkaar geplakt worden. Veel van die inhoud wordt overigens al bewaard in je klassement of documentbeheersysteem, waar hij bovendien gemakkelijker te beheren is en dus thuishoort (zeker databases worden beter apart bewaard). Stel je daarom de vraag:

Welke informatie(objecten) voegt de website toe, inhoudelijk of door zijn structuur en werking, die niet in afzonderlijke bestanden bewaard wordt (/worden)?

Toegevoegde informatie kan zijn:

teksten die rechtstreeks in de html geschreven zijn, zonder dubbel in bijvoorbeeld pdf
afbeeldingen van een externe bron
effecten of animaties met een toegevoegde waarde (bijvoorbeeld die een relatie tussen objecten of informatie illustreert)
een zoekrobot, die noodzakelijk is om te begrijpen hoe mensen een website gebruik(t)en
gebruiker-gegenereerde inhoud, zoals berichten op een forum, ‘likes’, polls…
accountinformatie
…

Een archiveringsstrategie hoeft niet ingewikkeld te zijn, als hij maar de essentiële toegevoegde informatie veiligstelt (en zo min mogelijk informatie dupliceert die elders bewaard wordt). Een schermopname kan daarvoor volstaan. Wij helpen je graag beslissen welke onderdelen van je website een blijvende historische waarde hebben en wat de beste aanpak is.

Welke manieren zijn er om een website te archiveren?

Afhankelijk van welke zaken bewaard moeten worden, kan je kiezen voor één of meerdere van deze methodes:

Bewaren door middel van een schermopname

Afhankelijk van de behoeften kan nog gekozen worden voor screenshots of een video-opname. Voor beide bestaan gebruiksvriendelijke desktoptools en browserplugins.

De output is een afbeelding of videobestand. Kies best gelijk voor een duurzaam formaat.

Geschikt voor: websites waarvan vooral de ‘look en feel’ bewaard moet worden, omdat de inhoud al als aparte bestanden bewaard wordt.
Niet geschikt voor: websites met veel unieke content die nergens anders bewaard wordt, waarvan de kwaliteit gewaarborgd moet worden en/of die je wil kunnen doorzoeken, downloaden, afspelen…

Bewaren door ‘client-side scraping’

Hierbij gebruik je een browserplugin, bijvoorbeeld ArchiveWeb.page, om de website te capteren zoals bij een video-opname, behalve dat niet een beeld maar de pagina’s zelf worden opgeslagen. Je kan dus achteraf in de tekst zoeken, afbeeldingen kopiëren… alsof de website online zou zijn. Het is een relatief eenvoudige manier om toch veel eigenschappen van een website te capteren. Wel zullen enkel de links werken die tijdens de opname zijn aangeklikt, wat de methode arbeidsintensief maakt voor grote websites.

De output is een bestand met de extensie warc (of wacz) en kan op verschillende websites of met desktoptools geopend worden.

Geschikt voor: websites die je wil opslaan zoals gebruikers ze ervaren, met een loginpagina en/of dynamische elementen die gebruikersinput vragen en waar volautomatische crawlers niet omheen geraken.
Niet geschikt voor: websites met veel niveaus en links.

Bewaren door gebruik van een ‘webcrawler’

Webcrawlers zijn programma’s die een momentopname maken van een website. Ze zijn snel en geautomatiseerd, maar meestal niet goed in het capteren van dynamische elementen die user-input vragen. Gangbare webcrawlers zijn Heritrix, Browsertrix en HTTrack (minder geavanceerd maar gebruiksvriendelijker dan de andere dankzij de grafische gebruikersomgeving). Alle drie zijn vrij beschikbaar.

De output kan een bestand met de extensie warc (of arc) zijn, zoals bij Heritrix, of een verzameling van bestanden die de bronbestanden en hun samenhang weerspiegelen, zoals bij HTTrack.

Geschikt voor: het opslaan van één of meerdere websites zonder veel handmatig werk.
Niet geschikt voor: websites met veel dynamische content of waarvan een groot deel zich bijvoorbeeld achter een loginpagina bevindt.

Bewaring van de broncode

Bij deze methode ga je de website niet capteren van het internet, maar archiveer je het geheel van de bronbestanden, zoals je voor ander digitaal archief zou doen. Alleen de auteur van de website kan deze methode dus toepassen. Hij is echter niet geschikt om gebruikersinput op te slaan en de website kan maar geraadpleegd worden zolang de programmeertaal en bronbestanden leesbaar zijn.

Geschikt voor: complexe websites, met veel unieke content die nergens anders door de instelling bewaard wordt.
Niet geschikt voor: websites met veel externe afhankelijkheden (bijvoorbeeld die zich beroepen op externe databanken) of gebruiker-gegenereerde inhoud.

We bekijken graag samen welke optie geschikt is.

Hoe vaak moet een website gecapteerd worden?

Overheidswebsites met erfgoedwaarde zouden minstens om het jaar gecapteerd moeten worden, en voor en na elke ingrijpende verandering.

Wie is verantwoordelijk?

Een geschikte archiveringsmethode kan besproken worden onder de informatieverantwoordelijke(n), de beheerders van de websites die gearchiveerd moeten worden en het Rijksarchief.

Vraag of opmerking?

Contacteer ons.