Jenseitz des PDF

pd3f ist eine Open-Source-PDF-Text-Extraktion-Pipeline.

pd3f rekonstruiert den ursprünglichen Fließtext eines Dokuments mithilfe von maschinellem Lernen.

pd3 ist zum selbst hosten auf einem Server, funktioniert aber auch lokal auf dem Rechner.

pd3f befindet sich noch im Versuchsstadium, daher bitte mit Vorsicht verwenden.

Jetzt ausprobieren Beispiele ansehen

Features

Gründe, warum pd3f für Sie ist

Vollständige Pipeline

Auf Scans (Bildern) wird automatisch Text erkannt

Lokal oder entfernt

Läuft auf dem eigenen Computer oder auf dem Server

Einfach aufzusetzen

Durch Docker ist die Installation simpel

Übersicht

Eine längere Einführung zu pd3f gibt es in einem Blog-Post auf der Seite des Prototype Fund.

pd3f erkennt automatisiert Text auf gescannte PDFs mit OCRmyPDF (Tesseract) und extrahiert Tabellen mit Camelot und Tabula. Es baut auf der Ausgabe von Parsr auf. Parsr erkennt Hierarchien von Text und teilt den Text in Wörter, Zeilen und Absätze auf.

Obwohl Parsr etwas Struktur in die PDF-Datei bringt, ist der Text immer noch zerstümmelt, z. B. sind Wörter durch Bindestriche getrennt. Das zugrundeliegende Python-Paket pd3f-core versucht, den ursprünglichen Fließtext zu rekonstruieren, indem es Bindestriche, neue Zeilen und/oder Leerzeichen entfernt. Es verwendet maschinelles Lernen mit Sprachmodellen (Language Models), um zu erraten, wie der ursprüngliche Text aussah.

pd3f ist besonders nützlich für Sprachen mit langen Wörtern wie im Deutschem. Es wurde hauptsächlich entwickelt, um deutsche Briefe und offizielle Dokumente zu bearbeiten. Neben Deutsch unterstützt pd3f auch Englisch, Spanisch und Französisch. Weitere Sprachen werden später hinzugefügt.

pd3f enthält eine webbasierte GUI und einen Flask-basierten Microservice (API). Eine Demo finden Sie unter demo.pd3f.com.

Eine systematische Evaluierung von pd3f erfolgt im September 2020.

Online-Vortrag über pd3f (in Englisch)

Über das Projekt

pd3f ist ein Projekt von Johannes Filter und wurde vom Bundesministerium für Bildung und Forschung im Rahmen des Prototype Fund finanziert.

Johannes Filter ist ein unabhängiger Forscher, Softwareentwickler und Datenanalyst. Seine Arbeit konzentriert sich auf Mensch-Computer-Interaktion, maschinelles Lernen und Computerlinguistik. Website, Twitter

Impressum, Datenschutzerklärung

Das Vorhaben wurde mit Mitteln des Bundesministeriums für Bildung und Forschung unter dem Förderkennzeichen 01IS19S18 gefördert. Die Verantwortung für den Inhalt dieser Veröffentlichung liegt beim Autor.