Let Code Rule

Dresden, 24. April 2018

Mark Keinhörster

Mark Keinhörster

Mark Keinhörster arbeitet als Data Architect bei der Codecentric AG und ist im Big-Data Zoo zu Hause. Er bringt Erfahrungen in der Entwicklung von Hadoop und Apache Spark mit und beschäftigt sich außerdem mit Docker, Microservices und Cloud-Technologien.

In diesem Vortrag machen wir einen Ausflug in die Welt der Texterkennung mit freier Software und gehen Stück für Stück durch die einzelnen Teilbereiche einer flexiblen und skalierbaren OCR Applikation.
In einer Live-Demo wird gezeigt wie Tesseract zur Texterkennung verwendet und die Qualität mit freien Frameworks wie openCV verbessert wird. Im Anschluss werden die Dokumente indiziert abgelegt.
Das alles mit nur wenigen Zeilen Code und ganze im Sinne des Interactive Programming mit Jupyter.

== Agenda inklusive Live-Coding ==
- Quirks und Pitfalls beim Erkennen von Dokumenten
- Möglichkeiten und Vorverarbeitung mit openCV
- Tesseract skalierbar Nutzen
- Ergebnisse quantifizieren, vergleichen und Aufwerten
- Texterkennung mit Tensorflow die über das MNIST Beispiel hinausgeht