Service 'ocr'

enaio® 10.10 »

Der Service 'ocr' erzeugt in Zusammenarbeit mit der Texterkennungssoftware ABBYY FineReader aus Bilddokumenten Textdokumente, die für die Volltextindexierung verwendet werden. Zusätzlich können mit ihm PDF-Dateien mit Hidden Text, verschiedene PDF/A-Formate und stark komprimierte PDFs erzeugt werden.

Konfiguration

Der Service 'ocr' arbeitet mit folgenden Standardeinstellungen:

PDF-Profil: Format PDF/A1b
PDF-Profil: Verfahren Balanced
Text-Profil Vorgegeben: TextExport.ini
Dateiübertragung zu enaio® rendition-plus Stream
Anzahl der Kerne für ABBYY FineReader 1

Über die Konfigurationsdatei ocr-prod.yml aus dem Verzeichnis \servicemanager\config\ können diese Einstellungen geändert werden.

Beispiel einer Konfiguration in der Datei ocr-prod.yml:

finereader:
  profile:
    pdfa: PDFA1bBalanced.ini
    text: TextExport.ini
  engine:
    numberOfCores: 1
rest:
  transferPolicy: stream

Das Beispiel entspricht den Standardeinstellungen.

Angegeben werden müssen nur die Einstellungen, die von den Standardeinstellungen abweichen.

Profildatei einbinden

Sie können das Profil anpassen oder eine eigene Profildatei mit weiteren Einstellungen erstellen und über die Konfigurationsdatei ocr-prod.yml einbinden.

Beispiel für das Einbinden:

finereader: 
  profile:   
    pdfa: 'file://d:/enaio/OCRconfig/custom_ocr.ini'
engine:   
  numberOfCores: 4
rest:   
  transferPolicy: 'auto'  

Beispiel für eine Profildatei:

[PDFExportParams]
Scenario = PES_Balanced
PDFAComplianceMode = PCM_Pdfa_1b

[PrepareImageMode]
CorrectSkew = true

[PagePreprocessingParams]
CorrectOrientation=true
CorrectSkew=TSPV_No
CorrectGeometry=TSPV_No

[RecognizerParams]
TextLanguage = German,French,English
DetectLanguage = true
BalancedMode=true

[PageAnalysisParams]
DetectVerticalEuropeanText=true

[ObjectsExtractionParams]
DetectTextOnPictures=true

Informationen zu den Einstellungen finden Sie in den Dokumentationen von ABBYY FineReader.

Beispiele für Einstellungsbereiche:

[PDFExportParams] Einstellung der Parameter für den Export von erkanntem Text in das PDF-Format.
[PagePreprocessingParams]   Einstellung von Parametern für die Seitenvorverarbeitung.
[RecognizerParams] Einstellung von Erkennungsparametern wie Spracheinstellungen.
[PageAnalysisParams] Einstellung von Parametern für Layout-Analysen
[ObjectsExtractionParams] Einstellung von Parametern für die Extraktion von Objekten