Numérisation — Wikipédia

La numérisation est la conversion des informations d'un support (texte, image, audio, vidéo) ou d'un signal électrique en données numériques que des dispositifs informatiques ou d'électronique numérique pourront traiter. Les données numériques se définissent comme une suite nombres qui représente des informations[1]. On utilise parfois le terme franglais digitalisation (digit signifiant chiffre en anglais).

La numérisation, dans le contexte de l'administration des archives, est la conversion en masse des documents en fichiers informatiques[2].

La numérisation construit une représentation discrète d'un objet, sous la forme d'une collection d'un nombre fini de signes pris dans un ensemble dénombrable de signes valides[3].

Numérisation des textes :

La numérisation d'un texte est sa transformation en une suite de caractères formant des mots existant dans la langue écrite, comme une dictée transforme les sons de la parole en une suite de mots existant dans le dictionnaire de la langue écrite.

Numérisation des images :

La numérisation d'une image la transforme en suite d'instructions permettant de la reconstituer. Ces instructions peuvent consister en un tableau des sensations visuelles pour chaque élément (pixels) ou avoir une organisation plus complexe (images comprimées, images vectorielles).

À moins que les données numériques ne soient produites directement par des humains (on parle alors de saisie de données), la numérisation comporte en général trois phases :

  1. Une phase d'échantillonnage où des dimensions de l'objet (par exemple, le temps, l'espace…) sont explorées à intervalles souvent réguliers ;
  2. Une phase de quantification, où la valeur du signal représentant l'objet aux points d'échantillonnage est arrondie à une valeur prise dans un ensemble fini ;
  3. Une phase d'encodage, qui fait correspondre à chacune de ces valeurs un code numérique (par exemple, binaire petit-boutien, code Grayetc.).

À ces trois phases succèdent souvent des opérations plus complexes permettant un encodage plus efficace. C'est notamment le cas pour la numérisation des images dans les appareils photographiques numériques et pour la numérisation des textes (reconnaissance optique de caractères).

Le processus de numérisation peut quelquefois prendre d'autres formes.

Numérisation de la température par un enregistreur de données :

La température varie lentement dans le temps. La numérisation crée un journal de son évolution :

  • projection de la température dans un espace discret : elle est arrondie à une valeur prise dans un ensemble fini (par exemple chaque dixième de degré Celsius de -20 à +50) ;
  • projection du temps dans un espace discret : il est arrondi à une unité (par exemple, la seconde) pour produire une date et heure ;

Chaque fois que l'arrondi de la température change, on enregistre la date et heure et soit la nouvelle température soit la variation.

L'enregistreur de données (data logger) effectue automatiquement ces opérations en convertissant d'abord les deux dimensions, la température et le temps, en signaux électriques. Il enregistre le résultat selon un code que d'autres dispositifs informatiques pourront exploiter.

Dans la plupart des cas, cependant, on utilise des échelons réguliers et on mesure une des grandeurs qui décrivent l'objet en incrémentant les autres. On obtient ainsi un nombre fini de données.

L'opération qui consiste à prélever une valeur pour chaque incrément d'une grandeur s'appelle échantillonnage. Dans l'échantillonnage spatial, on discrétise suivant une longueur, par exemple en prélevant une valeur de luminosité tous les dixièmes de millimètre, sur chaque axe spatial. Dans l'échantillonnage temporel, on va discrétiser le cours du temps, par exemple en prélevant une valeur à chaque microseconde.

L'opération qui consiste à arrondir une valeur à une autre, prise dans une liste finie, s'appelle la quantification.

Le résultat de cette numérisation est une suite de valeurs représentant la grandeur mesurée suivant les axes choisis, dans un ordre conventionnel qui permet de reconstituer toutes les dimensions de chaque élément de l'objet.

Choix des paramètres

[modifier | modifier le code]

Pour que les données numérisées représentent fidèlement les grandeurs initiales, on doit toujours faire des hypothèses sur le signal à représenter.

Lorsqu'on ne connaît que sa largeur de bande et son rapport signal sur bruit, la théorie de l'information détermine le débit numérique. Le théorème d'échantillonnage propose une fréquence d'échantillonnage minimale avec une quantification telle que le bruit de quantification soit d'un niveau comparable au bruit de fond. Le bruit peut être rendu indépendant du signal par décorrélation (dithering). Plusieurs combinaisons de fréquence et d'échelle de quantification peuvent décrire adéquatement le même signal.

Avec une connaissance plus précise des grandeurs à représenter, on peut utiliser moins d'échantillons grâce aux méthodes d'acquisition comprimée.

Formats de données

[modifier | modifier le code]

Le principe même de la numérisation implique que l'utilisateur (généralement, une machine) connaisse les conventions qui permettent de reconstituer l'objet représenté. On appelle ces conventions le format des données. La numérisation d'une information comprend de façon indissociable :

  1. Un format, qui est un algorithme permettant de reconstruire l'objet (par exemple, une image à l'écran), invariable pour toute une classe d'objets ;
  2. Des données, qui représentent ce qui fait la particularité d'un objet.

L'objet ne peut être reconstitué que si la machine informatique a en mémoire les deux composantes. Quand l'algorithme correspondant à un fichier ou à un flux de données manque à la machine, on ne peut utiliser les données et on parle de problème de compatibilité.

Les formats peuvent être simples, comme dans le cas fréquent d'un flux brut de numérisation d'un signal à une seule dimension où les échantillons se suivent sans discontinuer. Il suffit alors de connaître leur taille, leur encodage numérique et la cadence d'échantillonnage pour reconstituer le signal. Les formats peuvent être complexes, comme dans le cas de description vectorielle des documents.

Des techniques de compression de données permettent de réduire la taille des fichiers ou le débit des flux. Dans ce cas, la partie invariable de l'information (le format) grandit et devient plus complexe. Quand le document représenté par ces fichiers ou flux est destiné à être distribué, on recherche un format tel que le décodage, qui est effectué à chaque poste, soit moins complexe que l'encodage, qui n'est effectué qu'une fois.

Procédés de numérisation

[modifier | modifier le code]

Les procédés de numérisation diffèrent selon la nature physique de l'information à numériser.

Pour numériser une grandeur qui varie dans le temps, comme un son :

  1. Un transducteur la représente par un signal électrique ;
  2. Un signal d'horloge effectue la discrétisation du temps ;
  3. Un convertisseur analogique-numérique quantifie le signal à chaque impulsion d'horloge ;
  4. Un encodeur crée la liste de valeurs numériques qui représente le signal.

Pour numériser une image, on discrétise la hauteur et la largeur et on convertit, pour chaque point, les niveaux de luminosité, soit globalement, soit pour chaque couleur primaire. L'échantillonnage de l'espace s'effectue de trois manières différentes :

  • un appareil photographique numérique ou une caméra numérique utilisent un capteur CCD en forme de matrice à deux dimensions, avec un capteur par pixel. Le système transfère successivement les charges de chaque ligne, créant un signal électrique corrélé aux impulsions de transfert, et l'on peut ainsi quantifier le signal pour chaque élément capteur, et pour le temps dans le cas d'une prise de vues animées ;
  • un scanner utilise généralement un transducteur à transfert de charge linéaire, dont les capteurs sont espacés d'une distance correspondant à la résolution transversale maximale. Le système transfère les charges de la ligne comme dans le cas précédent, puis il actionne un moteur qui fait avancer la ligne de la distance correspondant à la résolution souhaitée ;
  • un scanner rotatif utilise un seul transducteur, qui avance lentement au-dessus de l'image montée sur un cylindre tournant. Le capteur, parcourant ainsi toute l'image, produit un signal électrique qui peut être converti en données numériques à chaque impulsion d'un signal corrélé à la rotation du cylindre.

Ces procédés valent pour la reproduction en noir et blanc. Pour la reproduction en couleurs, il faut des valeurs pour chacune des trois couleurs primaires. Soit on divise le faisceau lumineux de l'image en trois parties correspondant aux trois couleurs primaires, soit on intercale des filtres devant chaque capteur en alternant les couleurs, et on procède par interpolation, après la conversion numérique, pour évaluer la couleur à chaque pixel. En général, d'autres processus compensent ensuite les insuffisances de l'image brute.

La numérisation d'une image qui varie dans le temps associe les deux familles de procédés. Pour numériser une image animée (vidéo), une caméra numérique, un caméscope numérique, une webcam, échantillonnent le temps et numérisent une image à chaque fois (par exemple, avec une image toutes les 40 millisecondes). Le flux de données subit ensuite un processus de réduction de débit.

On peut aussi numériser un signal vidéo analogique, soit en produisant une conversion brute de ce signal électrique, soit en reconstituant tout ou partie de l'information de discrétisation du temps à partir des signaux de synchronisation verticale (trames) et de l'espace à partir des signaux de synchronisation horizontale (lignes).

Pour numériser un texte, soit un opérateur humain effectue la saisie du texte, soit on numérise le document comme une image en appliquant à ce premier ensemble de données un programme de reconnaissance optique de caractères éventuellement complété par des vérifications automatiques ou manuelles.

Objectifs de la numérisation

[modifier | modifier le code]

Les systèmes informatiques permettent :

  • d'emmagasiner de grandes quantités d'information sur des volumes de faibles dimensions : mémoire flash, disque dur, support optique, etc. ;
  • de dupliquer exactement et facilement les informations numériques et cela pour un moindre coût ;
  • de distribuer largement les informations grâce aux réseaux informatiques et notamment grâce à Internet ;
  • de créer des informations de synthèse, telles que les statistiques et les index, qui impliquent une grande quantité de calculs auxquels on n'envisagerait pas d'employer des humains.

La transmission de données numériques traitées pour obtenir une occupation maximale du spectre disponibles nécessite sur les canaux de transmission une bande passante moindre que leur contrepartie analogique.

En contrepartie, les informations négligées ou perdues au moment de la numérisation ou à l'occasion de calculs ou de recodage sont perdues pour les utilisateurs ultérieurs.

Numérisation d'un signal électrique

[modifier | modifier le code]
Convertisseur Analogique Numérique et Convertisseur Numérique Analogique

Des composants spécialisés assurent la conversion dans un système numérique du signal analogique qu'ont produit initialement des transducteurs (cellule photosensible, thermomètre, microphone, récepteur radio…).

Une chaîne de conversion A/N (analogique vers numérique) peut se décomposer en fonctions et les circuits en éléments :

  1. Une source de signal d'horloge, qui effectue la discrétisation temporelle ;
  2. Une ou plusieurs sources analogiques ;
  3. Un filtre pour éviter le repliement de spectre ;
  4. Dans certains cas un échantillonneur-bloqueur (Sample and Hold ou S/H) ;
  5. Un convertisseur analogique-numérique (Analog/Digital Converter ou ADC) qui effectue la quantification ;
  6. Un codeur (ou modulateur).

La précision de la numérisation dépend de la qualité de la quantification du signal et de la stabilité de l'horloge.

Numérisation et archivage

[modifier | modifier le code]
Centre de numérisation de la bibliothèque de Dresde
Centre de numérisation de la bibliothèque de Dresde

Corollaires des nombreux chantiers de numérisation, l’archivage de contenus électroniques repose sur un ensemble d’actions, d’outils et de méthodes mis en œuvre pour réunir, identifier, sélectionner, classer et conserver des contenus électroniques sur un support sécurisé, dans le but de les exploiter et de les rendre accessibles dans le temps. L’archivage est à distinguer du stockage et de la sauvegarde.

Les objectifs des chantiers associant numérisation et archivage sont nombreux. Dans les domaines de la gestion électronique des documents et des sciences de l'information et des bibliothèques, ils remplissent plusieurs fonctions :

  • préserver et protéger des documents contre les risques d'altération (l’acidité par exemple, qui détruit lentement le papier) ;
  • archiver des documents originaux en vue d'un gain de place, et les dupliquer sans risque de dégradation pour les mettre à disposition du public ;
  • permettre au public de consulter et d'accéder à des documents anciens et/ou rares ;
  • aider et susciter la recherche, faciliter l'indexation de textes et de documents multimédias, valoriser un fonds documentaire ;
  • donner accès à la connaissance à distance dans une perspective de communication (bibliothèques électroniques en ligne, projet « Bibusages » sur Internet, etc.).

La numérisation est l'un des aspects de ce que l'on appelle quelquefois de façon impropre la dématérialisation. C'est indéniablement l'un des passages obligés de tout projet visant à optimiser la gestion des documents et courriers entrants, encore fortement reçus au format papier par les entreprises et les administrations.

Une intensification des besoins en archivage de contenus numériques

[modifier | modifier le code]

L’explosion du volume de données électroniques a inévitablement poussé les organisations à prendre en compte le contenu électronique dans l’intégralité de son cycle de vie, jusqu’à son archivage, voire sa destruction.

Les entreprises et les administrations françaises doivent par ailleurs intégrer la notion de vocation probatoire à leurs projets d’archivage afin d’apporter la preuve de l’intégrité dans le temps de certains contenus électroniques et l’authenticité de leur origine (conformément aux exigences imposées par un cadre légal ou à des réglementations relatives à certains métiers ou secteurs d’activité, par exemple)[4]. Les documents électroniques concernés en priorité par l’archivage à vocation probatoire sont ainsi les factures, clients ou fournisseurs, les bulletins de paie ou les correspondances électroniques.

Numérisation et archivage du patrimoine culturel

[modifier | modifier le code]
Livre ancien sur un numériseur.
Numériseur de livres

Des opérations de numérisation de différents éléments du patrimoine culturel ont été lancées en très grand nombre, à partir des années 2000, dans le monde entier. Parmi celles-ci, on distingue plusieurs chantiers de très grande ampleur.

« Open Content Alliance » (OCA)

[modifier | modifier le code]

Le consortium OCA est une association américaine qui regroupe des entreprises privées telles Yahoo !, Adobe, HP, Internet Archive[5], des bibliothèques (BU Californie, BU Toronto), des centres d’archives et des éditeurs. Le , Microsoft a rejoint ce groupe.

L'OCA a pour objectif de numériser et de mettre en ligne une banque de données accessible à tous, pérenne et multilingue (banque de données composée de documents multimédias). Cependant, elle prend uniquement en compte les fonds patrimoniaux libres de droits à la différence de Google Recherche de livres. Aucune numérisation ne sera faite sans la permission des ayants droit. Ces derniers peuvent contribuer au projet en définissant l’étendue de la diffusion avec d’éventuelles restrictions.

Google Recherche de livres

[modifier | modifier le code]

Annoncé le par les cofondateurs de la société Google, le programme « Google Print » est chargé de numériser 15 millions d’ouvrages, ce qui représente 4,5 milliards de pages en 6 ans selon Jean-Noël Jeanneney, alors président de la Bibliothèque nationale de France. Cinq bibliothèques ont donné leur accord pour numériser leurs fonds : les bibliothèques de l'université Harvard, de l'université du Michigan et de l'université Stanford, la New York Public Library et la Bodleian Library de l'université d'Oxford. Google Print est officiellement lancé en novembre 2005 avec un ensemble de livres numérisés du domaine public et issus des partenaires du projet. Il est rebaptisé à la mi-novembre « Google Books Search » (« Google Recherche de livres » en français). De nouveaux accords ont été passés entre Google et d'autres universités pour enrichir cette bibliothèque numérique.

La Bibliothèque Numérique Européenne

[modifier | modifier le code]

Le , le président de la Bibliothèque nationale de France, Jean-Noël Jeanneney, lance dans le quotidien Le Monde un appel pour réagir à l'initiative de Google. Fin avril 2005, les bibliothèques nationales de 19 pays puis six chefs d’État et de gouvernement européens appellent à une coopération européenne pour la création d’une bibliothèque numérique européenne (Europeana). Un an plus tard s'ouvre The European Library, le portail multilingue de la BNE.

En 2016, Europeana donne accès à 53 millions de documents numérisés provenant de 3 300 institutions Européennes[6]. L'année suivante, une étude demandée par la Commission européenne montre que Europeana est consulté 700 000 fois par mois[7].

Sur les autres projets Wikimedia :

Bibliographie

[modifier | modifier le code]

Ouvrages généraux

[modifier | modifier le code]
Rapports officiels
[modifier | modifier le code]
Littérature professionnelle
[modifier | modifier le code]
Perspectives européennes
[modifier | modifier le code]

Chaîne de numérisation

[modifier | modifier le code]
Études concernant l’ensemble de la chaîne
[modifier | modifier le code]
  • Le site de la BNF
  • Ministère de la Culture et de la Communication, Écrire un cahier des charges de numérisation et de conversion en mode texte de collections de presse, 2010, 28 p., annexes, 29 p. (en ligne)
  • Ministère de la Culture et de la Communication, Écrire un cahier des charges de numérisation (documents reliés, manuscrits, plans, dessins, photographies, microformes), 2008, 62 p.
  • Le Borgne (Christelle), Réflexion sur la stratégie de constitution et diffusion d'un corpus d'enregistrement sonore extrait des archives de la BPI, Mémoire d’étude dans le cadre du diplôme de conservateur des bibliothèques, ENSSIB, (lire en ligne)
  • Balley (Noëlle), « Mise en ligne des fonds patrimoniaux », BBF, 2008, n° 3, p. 103.
  • Brisac (Anne-Laure), « Numérisation du patrimoine des bibliothèques et moteurs de recherche », BBF, 2010, n° 3, p. 78-79.
  • Gagnon (Jacinthe), La numérisation des bibliothèques et ses conséquences sur le droit d’auteur, Québec, école nationale d’administration publique, (lire en ligne)
Numérisation et conservation
[modifier | modifier le code]
  • Ministère de la Culture et de la communication, Conservation à long terme des documents numérisés, 2008, 18 p.
  • Banat-Berger (Françoise), Duplouy (Laurent), Huc (Claude), L'archivage numérique à long terme : les débuts de la maturité ?, Paris, La Documentation française, 2009.

Articles connexes

[modifier | modifier le code]

Liens externes

[modifier | modifier le code]

Notes et références

[modifier | modifier le code]
  1. Commission générale de terminologie et de néologie, « numérique », .
  2. « Numérisation des bibliothèques / L'image numérique : acquisition ».
  3. Commission électrotechnique internationale : Electropedia 10-12-06.
  4. 289bis du code général des impôts et loi de simplification et de clarification du droit et d’allègement des procédures promulguée le 13 mai 2009
  5. Service qui assure l'archivage du Web depuis 1996.
  6. « Europeana - Le patrimoine de l'Europe en ligne », sur bnf.fr
  7. Analyse du 17 octobre 2017 au 14 janvier 2018, (en) « Europeana - a European cultural heritage platform for all », sur ec.europa.eu, (consulté le )