21. Mai 2019 Börse Dresden

Skalierbare OCR Pipelines mit Python, Tensorflow und Tesseract

In diesem Vortrag machen wir einen Ausflug in die Welt der Texterkennung mit freier Software und gehen Stück für Stück durch die einzelnen Teilbereiche einer flexiblen und skalierbaren OCR Applikation.
In einer Live-Demo wird gezeigt wie Tesseract zur Texterkennung verwendet und die Qualität mit freien Frameworks wie openCV verbessert wird. Im Anschluss werden die Dokumente indiziert abgelegt.
Das alles mit nur wenigen Zeilen Code und ganze im Sinne des Interactive Programming mit Jupyter.

== Agenda inklusive Live-Coding ==
- Quirks und Pitfalls beim Erkennen von Dokumenten
- Möglichkeiten und Vorverarbeitung mit openCV
- Tesseract skalierbar Nutzen
- Ergebnisse quantifizieren, vergleichen und Aufwerten
- Texterkennung mit Tensorflow die über das MNIST Beispiel hinausgeht

Folien:

Beispielcode:
https://github.com/crazzle/devday-scalable-ocr

Wollen Sie Sponsoringpartner werden? Schauen Sie sich unsere Sponsoring Optionen an.

Jetzt Sponsor werden