pd3f ist eine Open-Source-PDF-Text-Extraktion-Pipeline.
pd3f rekonstruiert den ursprünglichen Fließtext eines Dokuments mithilfe von maschinellem Lernen.
pd3 ist zum selbst hosten auf einem Server, funktioniert aber auch lokal auf dem Rechner.
pd3f befindet sich noch im Versuchsstadium, daher bitte mit Vorsicht verwenden.
Gründe, warum pd3f für Sie ist
Auf Scans (Bildern) wird automatisch Text erkannt
Läuft auf dem eigenen Computer oder auf dem Server
Durch Docker ist die Installation simpel
Eine längere Einführung zu pd3f gibt es in einem Blog-Post auf der Seite des Prototype Fund.
pd3f erkennt automatisiert Text auf gescannte PDFs mit OCRmyPDF (Tesseract) und extrahiert Tabellen mit Camelot und Tabula. Es baut auf der Ausgabe von Parsr auf. Parsr erkennt Hierarchien von Text und teilt den Text in Wörter, Zeilen und Absätze auf.
Obwohl Parsr etwas Struktur in die PDF-Datei bringt, ist der Text immer noch zerstümmelt, z. B. sind Wörter durch Bindestriche getrennt. Das zugrundeliegende Python-Paket pd3f-core versucht, den ursprünglichen Fließtext zu rekonstruieren, indem es Bindestriche, neue Zeilen und/oder Leerzeichen entfernt. Es verwendet maschinelles Lernen mit Sprachmodellen (Language Models), um zu erraten, wie der ursprüngliche Text aussah.
pd3f ist besonders nützlich für Sprachen mit langen Wörtern wie im Deutschem. Es wurde hauptsächlich entwickelt, um deutsche Briefe und offizielle Dokumente zu bearbeiten. Neben Deutsch unterstützt pd3f auch Englisch, Spanisch und Französisch. Weitere Sprachen werden später hinzugefügt.
pd3f enthält eine webbasierte GUI und einen Flask-basierten Microservice (API). Eine Demo finden Sie unter demo.pd3f.com.
Eine systematische Evaluierung von pd3f erfolgt im September 2020.
pd3f ist ein Projekt von Johannes Filter und wurde vom Bundesministerium für Bildung und Forschung im Rahmen des Prototype Fund finanziert.
Johannes Filter ist ein unabhängiger Forscher, Softwareentwickler und Datenanalyst. Seine Arbeit konzentriert sich auf Mensch-Computer-Interaktion, maschinelles Lernen und Computerlinguistik. Website, Twitter
Impressum, Datenschutzerklärung
Das Vorhaben wurde mit Mitteln des Bundesministeriums für Bildung und Forschung unter dem Förderkennzeichen 01IS19S18 gefördert. Die Verantwortung für den Inhalt dieser Veröffentlichung liegt beim Autor.