Documents administratifs, rapports, bilans, présentations, etc. Les entreprises ont souvent à leur disposition de nombreux documents PDFs riches en données. Souvent inexploités, non structurés et volumineux, ils peuvent contenir du texte, des images et des tableaux, le tout avec des mises en page différentes… Une multiplicité qui va compliquer leur analyse et l’extraction d’informations.

L’extraction automatique, proposée par Menaps, d’un document PDF peut être décomposée en une séquence d’étapes appelées pipeline. Il faut développer et mettre en place des processus de collecte, d’organisation, de stockage, d’accessibilité et d’exploitation. Dans ce contexte, la mission des Data Engineers au sein des équipes Menaps est de créer cette pipeline.

Ingestion

La première étape consiste à se connecter aux bases de données sources contenant les documents pour les récupérer automatiquement. Cette étape permet d’éviter une récupération manuelle, répétitive et pénible des documents. Pour cela, nous pouvons utiliser, par exemple, des robots qui simuleront l’extraction humaine pour l’automatiser (Robotic Process Automation).

Transformation

Une fois les documents disponibles, il faut les convertir en une représentation textuelle pour pouvoir récupérer les informations et les exploiter. Nous allons extraire les tableaux avec la bibliothèque Python Camelot, les images et le texte avec Poppler. Les étapes suivantes consistent à parser, nettoyer, manipuler, croiser et structurer les données pour qu’elles puissent être utilisées dans des applications analytiques individuelles.

Stockage de données

Afin de rendre les données disponibles et exploitables par les data analysts et data scientists, nous mettons en place des bases de données SQL et NoSQL avec les données extraites et transformées. Finalement, nous développons des APIs pour leur simplifier l’accès à ces données.

La conception de pipelines permettant d’extraire automatiquement des données d’un document PDF est une étape indispensable pour rendre disponible des données, à priori, inexploitables. Elle permettra aux data scientists et data analysts de Menaps de bénéficier de données structurées pour démarrer leurs analyses descriptives, prédictives ou prescriptives.

Julien LOUTON – Data Engineer Menaps