Texterkennung und PDF/A-Erzeugung mit dem Microservice 'ocrservice'
Der Service 'ocrservice' erzeugt in Zusammenarbeit mit der Texterkennungssoftware ABBYY FineReader aus Bilddokumenten Textdokumente, die für die Volltextindexierung verwendet werden. Zusätzlich können mit ihm PDF-Dateien mit Hidden Text, verschiedene PDF/A-Formate und stark komprimierte PDFs erzeugt werden.
Konfiguration
Der Service 'ocrservice' arbeitet mit folgenden Standardeinstellungen:
PDF-Profil: Format | PDF/A1b |
PDF-Profil: Verfahren | Balanced |
Text-Profil | Vorgegeben: TextExport.ini |
Dateiübertragung zu yuuvis® RAD rendition-plus | Stream |
Anzahl der Kerne für ABBYY FineReader | 1 |
Über die Konfigurationsdatei ocr-prod.yml aus dem Verzeichnis \servicemanager\config\ können diese Einstellungen geändert werden.
Beispiel einer Konfiguration in der Datei ocr-prod.yml:
finereader: profile: pdfa: PDFA1bBalanced.ini text: TextExport.ini rest: transferPolicy: stream finereader.engine.numberOfCores: 1
Das Beispiel entspricht den Standardeinstellungen.
Angegeben werden müssen nur die Einstellungen, die von den Standardeinstellungen abweichen.

-
PDF-Profil einstellen
Zum Einstellen des PDF-Formats und des Verfahrens geben Sie der Eigenschaft finereader:profile:pdfa einen Wert, wobei sich der Wert aus Format, Verfahren und der Endung '.ini' zusammensetzt: <Format><Qualität>.ini
Folgende Formate können erzeugt werden:
Format Schreibweise PDF PDF PDF/A1a PDFA1a PDF/A1b PDFA1b PDF/A2a PDFA2a PDF/A2u PDFA2u PDF/A3a PDFA3a PDF/A3u PDFA3u Folgende Verfahren stehen zur Verfügung:
Verfahren Beschreibung MaxQuality Erzeugt Ergebnisse mit der besten Auflösung. Geschwindigkeit und Grad der Komprimierung sind zweitrangig. MaxSpeed Erzeugt Ergebnisse nach dem schnellsten Verfahren. Qualität und Grad der Komprimierung sind zweitrangig. MinSize Erzeugt Ergebnisse mit der geringsten Dateigröße. Geschwindigkeit und Qualität sind zweitrangig. Balanced Erzeugt Ergebnisse mit einem ausgewogenen Verhältnis von Qualität, Geschwindigkeit und Grad der Komprimierung. -
Text-Profil einstellen
Zurzeit gibt es ausschließlich das Text-Profil TextExport.ini zum Erzeugen von Texten.

Um festzulegen, wie die Dateien übertragen werden, geben Sie der Eigenschaft rest:transferPolicy einen Wert.
Dateiübertragung | Beschreibung |
---|---|
stream | Übertragung über einen HTTP-Stream |
fileref | Übertragung per Dateisystem-Referenz |
auto |
Die Übertragungsart wird automatisch gewählt. Dabei wird anhand der IP-Adresse des Endpoints von yuuvis® RAD rendition-plus festgestellt, ob yuuvis® RAD rendition-plus und der Service 'ocrservice' auf demselben Rechner laufen. Falls ja, so wird die Übertragung über Dateisystem-Referenzen realisiert, anderenfalls über einen HTTP-Stream. |

Die maximale Anzahl der Kerne, mit der ABBYY FineReader arbeiten kann, ist von der erworbenen Lizenz abhängig.
Eintrag: finereader.engine.numberOfCores: <Anzahl>