Die automatisierte Verarbeitung von Dokumenten fängt mit einer fundierten Digitalisierung an, bei der wir Sie ebenfalls beraten und begleiten können. Es ist aber auch möglich, bereits digital vorliegende Bestände zu bearbeiten. Dabei sind eine Reihe sehr verschiedener Arbeitsschritte möglich, die sich jeweils an den Anforderungen und Zielstellungen eines Projektes orientieren.
Optimierungen
- Freitstellen von Scan-Daten, sodass diese formatfüllend ohne weißen/schwarzen Rand sind
- Entfernung von Zierrahmen oder Zeit/Text-Overlays
- Sofern JPG-Daten als Rezeptions-Format gewünscht sind, können diese auf Qualität und geringen Speicherbedarf optimiert werden
- inhaltsbezogene und/oder geometrische Rotation zur Ausrichtung von Ansichten
Bild zu Text-Synthese (OCR, optical character recognition)
- Umwandlung von Scan-Daten oder Photos in für Computer lesbaren Text
- Druckschriften, Fraktur, Schreibmaschine uvm.
- die hierbei erreichbare Qualität unterliegt der zugrundeliegenden Bildauflösung
Klassifikation
- Layout-Erkennung von Druckvorlagen, wodurch sich verschiedene Dokument-Typen und Varianten unterscheiden lassen
- durch diese Methode sind auch Dokumente auszurichten, bei denen eine OCR-Erkennung nicht robust genug funktioniert, um basierend auf erkanntem Text die Orientierung des Dokuments vornehmen zu können
- zudem sind tatsächliche Dokument-Quantifizierungen möglich, wodurch historische Zusammenhänge dediziert ergründet werden können; die Möglichkeiten sind sehr vielfältig, wie etwa:
- die Dokumentfassungen welcher Druckerei liegen vor, wo wurden sie verwendet, was sind Evolutionen dieses Dokuments
- enthält ein Dokument eine photographische Ansicht (vgl. Passbild), vorgesehen (Ja/Nein), vorgefunden (Ja/Nein)
- enthalten Dokumente einen Eintrag/Unterschrift an einer bestimmten Stelle (Ja/Nein)
- obwohl gedruckt für Ort A, wo wurden die gleichen Dokumente noch verwendet?
- Dokument-Typ A, erste bekannte Verwendung, letzte bekannte Verwendung