Service 'ocr'
Der Service 'ocr' erzeugt in Zusammenarbeit mit der OCR-Komponente aus Bilddokumenten Textdokumente, die für die Volltextindexierung verwendet werden. Zusätzlich können PDF-Dateien mit Hidden Text, verschiedene PDF-Formate und stark komprimierte PDFs erzeugt werden.
Als OCR-Komponente kann ABBYY FineReader oder Tesseract eingebunden werden.
Bei Neuinstallationen von enaio® ist als Standard Tesseract aktiviert.
Tesseract wird mit der Installation des Services 'ocr' installiert. ABBYY FineReader muss separat installiert werden.
Aktivieren einer OCR-Komponente
Bei Neuinstallationen von enaio® ist als Standard Tesseract über die Zuordnung des Profils tesseract in der Datei servicewatcher-sw.yml aus dem Verzeichnis \service-manager\config\ aktiviert.
Bei Updates und Aktualisierungen wird die bestehende Datei servicewatcher-sw.yml nicht geändert.
Beispiel:
- name: ocrservice
type: microservice
profiles: prod,cloud,blue,tesseract
instances: 1
memory: 512M
port: 7241-7250
path: ${appBase}/ocrservice/ocrservice-app.jar
Zum Aktivieren von ABBYY FineReader muss das Profil tesseract gelöscht werden.
Konfiguration - Tesseract
Konfigurationen von Tesseract erfolgen über eine Konfigurationsdatei ocr-prod.yml, die im Verzeichnis \service-manager\config\.
angelegt wird.
Beispiel:
engine:
parallelJobs: 2
tesseract:
pdfFormat: "PDF_A_1B"
Die Werte im Beispiel entsprechen den Standardwerten.
Parameter:
Parameter | Wert |
---|---|
engine.parallelJobs |
Die maximale Anzahl paralleler Jobs ist durch die Lizenz 'TES' vorgegeben. Standard: 2 Bei mehreren Installationen des Services 'ocr' wird die Anzahl auf die Installationen verteilt. |
tesseract.pdfFormat |
PDF-Format
|
Unterstützt werden folgende Sprachen: Deutsch, Englisch, Französisch, Italienisch, Spanisch.
Konfiguration - ABBYY FineReader
Der Service 'ocr' arbeitet mit folgenden Standardeinstellungen:
PDF-Profil: Format | PDF/A1b |
PDF-Profil: Verfahren | Balanced |
Text-Profil | Vorgegeben: TextExport.ini |
Dateiübertragung zu enaio® rendition-plus | Stream |
Anzahl der Kerne für ABBYY FineReader | 1 |
Über eine Konfigurationsdatei ocr-prod.yml im dem Verzeichnis \servicemanager\config\ können diese Einstellungen geändert werden.
Beispiel einer Konfiguration in der Datei ocr-prod.yml:
finereader:
profile:
pdfa: PDFA1bBalanced.ini
text: TextExport.ini
engine:
parallelJobs: 1
rest:
transferPolicy: stream
Das Beispiel entspricht den Standardeinstellungen.
Angegeben werden müssen nur die Einstellungen, die von den Standardeinstellungen abweichen.

-
PDF-Profil anpassen
Zum Anpassen des PDF-Formats und des Verfahrens geben Sie der Eigenschaft finereader:profile:pdfa einen Wert, wobei sich der Wert aus Format und Verfahren zusammensetzt: <Format><Verfahren>.ini
Folgende Formate können erzeugt werden:
Format Schreibweise PDF PDF PDF/A1a PDFA1a PDF/A1b PDFA1b PDF/A2a PDFA2a PDF/A2u PDFA2u PDF/A3a PDFA3a PDF/A3u PDFA3u Folgende Verfahren stehen zur Verfügung:
Verfahren Beschreibung MaxQuality Erzeugt Ergebnisse mit der besten Auflösung. Geschwindigkeit und Grad der Komprimierung sind zweitrangig. MaxSpeed Erzeugt Ergebnisse nach dem schnellsten Verfahren. Qualität und Grad der Komprimierung sind zweitrangig. MinSize Erzeugt Ergebnisse mit der geringsten Dateigröße. Geschwindigkeit und Qualität sind zweitrangig. Balanced Erzeugt Ergebnisse mit einem ausgewogenen Verhältnis von Qualität, Geschwindigkeit und Grad der Komprimierung. -
Text-Profil anpassen
Zurzeit steht ausschließlich das Text-Profil TextExport.ini zum Erzeugen von Texten zur Verfügung.

Um festzulegen, wie die Dateien übertragen werden, geben Sie der Eigenschaft rest:transferPolicy einen Wert.
Dateiübertragung | Beschreibung |
---|---|
stream | Übertragung über einen HTTP-Stream |
fileref | Übertragung per Dateisystem-Referenz |
auto |
Die Übertragungsart wird automatisch gewählt. Dabei wird anhand der IP-Adresse des Endpoints von enaio® rendition-plus festgestellt, ob enaio® rendition-plus und der Service 'ocr' auf demselben Rechner laufen. Falls ja, so wird die Übertragung über Dateisystem-Referenzen realisiert, anderenfalls über einen HTTP-Stream. |

Die maximale Anzahl der Kerne, mit der ABBYY FineReader parallele Jobs verarbeitet, ist von der erworbenen Lizenz abhängig.
Eintrag: finereader:engine:parallelJobs: <Anzahl>
Profildatei einbinden
Sie können das Profil anpassen oder eine eigene Profildatei mit weiteren Einstellungen erstellen und über die Konfigurationsdatei ocr-prod.yml einbinden.
Beispiel für das Einbinden:
finereader:
profile:
pdfa: 'file://d:/enaio/OCRconfig/custom_ocr.ini'
engine:
parallelJobs: 4
rest:
transferPolicy: 'auto'
Beispiel für eine Profildatei:
[PDFExportParams]
Scenario = PES_Balanced
PDFAComplianceMode = PCM_Pdfa_1b
[PrepareImageMode]
CorrectSkew = false
[PagePreprocessingParams]
CorrectOrientation=true
CorrectSkew=TSPV_No
CorrectGeometry=TSPV_No
[RecognizerParams]
TextLanguage = German,French,English
DetectLanguage = true
BalancedMode=true
[PageAnalysisParams]
DetectVerticalEuropeanText=true
[ObjectsExtractionParams]
DetectTextOnPictures=true
Informationen zu den Einstellungen finden Sie in den Dokumentationen von ABBYY FineReader.
Beispiele für Einstellungsbereiche:
[PDFExportParams] | Einstellung der Parameter für den Export von erkanntem Text in das PDF-Format. |
[PagePreprocessingParams] | Einstellung von Parametern für die Seitenvorverarbeitung. |
[PrepareImageMode] | Einstellung von Parametern für die Bildoptimierung vor der Verarbeitung. |
[RecognizerParams] | Einstellung von Erkennungsparametern wie Spracheinstellungen. |
[PageAnalysisParams] | Einstellung von Parametern für Layout-Analysen |
[ObjectsExtractionParams] | Einstellung von Parametern für die Extraktion von Objekten |