Repeupler Paris

4 millions d’adresses extraites d’annuaires des adresses de Paris entre 1839 et 1922

Quels étaient les métiers exercés dans le quartier Richelieu il y a 200 ans ? En utilisant d’anciens annuaires, almanachs du commerces et autres anciens répertoires d’adresses, il est possible de repeupler le quartier avec ses anciens habitants.

De telles ressources sont disponibles sur Gallica, la bibliothèque numérique de la BNF. Grâce à une constance de la mise en page par les éditeurs à travers la période étudiée, il a été possible en quelques mois d’extraire 4 millions d’adresses de 56 annuaires, ce qui représente environ 27’000 pages scannées.

Extraire le texte des annuaires scannés

La structure par colonne des annuaires doit être décomposée afin d’en lire le texte.

Les annuaires sélectionnés pour faire partie du corpus possèdent tous la même structure en 3 colonnes. Afin d’effectuer un OCR sur les scans, il a fallu les séparer pour faire de chaque colonne une image unique. Cette segmentation des images a été faite avec l’outil dhSegment et la structure régulière du corpus a permis d’utiliser le même modèle sur tous les documents. Ainsi les 27’000 pages ont été segmentées sur la base d’un modèle de 90 pages segmentées à la main.

Bien que Gallica propose déjà un OCR (les annuaires étaient également disponibles en ligne au format texte), il a été décidé pour ce travail d’utiliser l’OCR de Google Cloud Vision qui donnait de meilleurs résultats, notamment sur la lecture des chiffres – et donc des numéros de rues.

Différentes étapes pour différents niveaux de précision

Une fois l’OCR obtenu, différentes étapes de nettoyage ont servi à extraire les adresses du quartier.

En partant de 4.4 millions d’adresses ayant la forme Nom, métier, Rue, numéro, un premier sous-ensemble correspondant aux rues du quartier Richelieu a été extrait. Cette extraction est basée sur une correspondance entre le texte de l’OCR et une liste des rues du quartier servant de référence, avec une tolérance de pas plus d’un caractère de différence sur le nom de la rue (par ex. Beaujolais pour la galerie de Beaujolais ou le passage de Beaujolais).

détection du nom exact (ici Beaujolais) avec un caractère de différence

Suivant la même méthode de correspondance des mots à 1 caractère près, une sélection plus précise des rues a été faite en regardant cette fois le type de rue (par ex. galerie pour la galerie de Beaujolais ou passage pour le passage de Beaujolais). Cependant les annuaires comportent beaucoup d’abréviations différentes pour les types de rues. Il a donc été nécessaire d’explorer les données et lister à la main les abréviations possibles pour les remplacer par les mots entiers.

exemples d’abréviations pour Faubourg

La plupart des commerçants exercent plusieurs années d’affilée au même endroit. En rassemblant les lignes qui ont une même combinaison Nom + métier  + adresse on obtient des données représentant des personnes uniques sur une durée, et non plus sur une seule année.

Le relieur Andrieux était présent dans 23 annuaires de 1839 à 1871.
On remplace ces 23 lignes par une seule, et la période d’exercice par [année minimum ; année maximum].



On passe ainsi de 200’000 adresses ayant des redondances à 75’000 personnes uniques ayant exercé dans le quartier Richelieu de 1839 à 1922.

Explorez les données

Les 75’000 adresses finalement obtenues peuvent être replacées sur une carte de Paris. Ces données peuvent servir de support pour différentes études géo-historiques. Quelques exemples de cartes sont disponibles ici.

%d bloggers like this:
search previous next tag category expand menu location phone mail time cart zoom edit close