Archives de l'État en Belgique

Notre mémoire à tous !

Menu

FAQ - sites internet

Texte petit  Texte normal  Texte grand

Qu’est-ce qu’un site web ?

Un site web est un ensemble de pages qui sont reliées entre elles.Chaque page offre des ressources diverses (texte, multimédia) que les utilisateurs peuvent visualiser, parfois télécharger et qui peuvent être interactives et dynamiques.

Quels sont les composants d’un site internet ?

  1. le code source : un développeur écrit des lignes de code pour programmer ou créer le site en utilisant des langages de programmation divers : HTML, XHTML2, SGML, etc. Les fichiers hébergés sur le site reposent aussi sur des langages comme HTML et PHP ;
  2. le lay-out : la mise en forme et la présentation que les utilisateurs voient quand ils visitent le site. Ce lay-out est défini en détail par un fichier spécifique appelé « feuille de style en cascade » (CSS - Cascading StyleSheets) ;
  3. le deep-web : toutes les ressources et pages web présentes sur le site ;
  4. les liens hypertexte : les liens entre les ressources et les pages  web du site ;
  5. l’URL (Uniform Resource Locator) : l’adresse web qui donne accès aux ressources et aux pages web du site;
  6. le navigateur web : qui donne accès aux URL (ex. Chrome, Internet Explorer…);
  7. le serveur web : le site web est hébergé sur un serveur en ligne ;
  8. le réseau Internet ou Intranet : le serveur web est accessible via un réseau Internet ou Intranet.

Les sites web doivent-ils être conservés par les administrations publiques (< cadre légal) ?

OUI : En tant que produit résultant d’une activité d’une administration publique, un site web peut être considéré comme une archive. L’administration concernée est responsable de la conservation à court/moyen terme, et ce pour toute cause qui pourrait engager sa responsabilité légale. Les Archives de l’Etat sont quant à elles responsables d’indiquer aux administrations publiques soumises à son contrôle quelles parties du site web devra faire l’objet d’un archivage à des fins patrimoniales (cf. tableau de tri ou instructions ci-dessous).

Les sites web doivent-ils être archivés intégralement ?

Les Archives de l’Etat définissent les critères de tri à appliquer. Généralement, un premier tri doit être effectué parmi les différents sites web produits par une administration publique : le site web institutionnel, les sites web transactionnels, les sites intranets, etc.

Ensuite, un second tri sera effectué sur les éléments de chaque site retenu pour l’archivage. Ce tri pourra consister en une préservation d’une partie de l’information et du lay-out, et non pas de tous les documents ni des aspects transactionnels présents sur un site (deep-web). L’objectif est donc de conserver à la fois le « look and feel » du site web mais également de pouvoir témoigner de son rôle comme canal de communication.

Comment organiser la conservation des sites web ?

Suivant la nature du site (degré de complexité, importance stratégique), il est souhaitable d’appliquer une, voire plusieurs, des méthodes suivantes :

  1. la conservation du code-source : pour les sites web statiques, cette méthode est relativement simple, mais n’est par contre pas adaptée aux sites web dynamiques. Pour ces derniers, en plus de conserver le code-source, il s’agira également d’appliquer les deux méthodes suivantes ;
     
  2. la conservation d’une photographie instantanée, d’une capture d’écran (snapshot) du site web : cette méthode requiert l’utilisation de logiciels appelés « aspirateurs de sites web » qui permettent de transformer des sites dynamiques en sites statiques.
    Parmi les logiciels les plus courants utilisés pour effectuer ce type de conservation, nous pouvons mentionner :
    • HTTrack : logiciel libre qui permet de télécharger le site du serveur d’Internet vers votre disque dur avec ses répertoires, images, fichiers, code-source en HTML et les liens entre tous ces éléments ; une fois téléchargé, vous pourrez naviguer librement à l'intérieur du site web, comme si vous étiez connectés.
    • Heritrix : logiciel libre aussi, c’est un robot d’indexation (« web crawler ») qui permet de stocker des ressources des sites web dans un fichier en format ARC ou en format WARC.
       
  3. la conservation par le biais d’un enregistrement d’une session de navigation : cette méthode consiste à créer une vue animée au format vidéo  d’une session web, c’est-à-dire d’une de vos visites du site web.

Nous vous conseillons de contacter les Archives de l’Etat pour choisir la meilleure méthode de capture et le meilleur format des éléments du site.

Pour de plus amples informations, consultez la rubrique relative à la conservation d’archives numériques.

www.belspo.be www.belgium.be e-Procurement