Service 'ocr'

enaio® 11.10 »

Der Service 'ocr' erzeugt in Zusammenarbeit mit der OCR-Komponente aus Bilddokumenten Textdokumente, die für die Volltextindexierung verwendet werden. Zusätzlich können PDF-Dateien mit Hidden Text, verschiedene PDF-Formate und stark komprimierte PDFs erzeugt werden.

Als OCR-Komponente kann ABBYY FineReader oder Tesseract eingebunden werden.

Bei Neuinstallationen von enaio® ist als Standard Tesseract aktiviert.

Tesseract wird mit der Installation des Services 'ocr' installiert. ABBYY FineReader muss separat installiert werden.

Aktivieren einer OCR-Komponente

Bei Neuinstallationen von enaio® ist als Standard Tesseract über die Zuordnung des Profils tesseract in der Datei servicewatcher-sw.yml aus dem Verzeichnis \service-manager\config\ aktiviert.

Bei Updates und Aktualisierungen wird die bestehende Datei servicewatcher-sw.yml nicht geändert.

Beispiel:

- name: ocrservice
  type: microservice
  profiles: prod,cloud,blue,tesseract
  instances: 1
  memory: 512M
  port: 7241-7250
  path: ${appBase}/ocrservice/ocrservice-app.jar

Zum Aktivieren von ABBYY FineReader muss das Profil tesseract gelöscht werden.

Konfiguration - Tesseract

Konfigurationen von Tesseract erfolgen über eine Konfigurationsdatei ocr-prod.yml, die im Verzeichnis \service-manager\config\.

angelegt wird.

Beispiel:

engine:
  parallelJobs: 2
tesseract:
  pdfFormat: "PDF_A_1B"

Die Werte im Beispiel entsprechen den Standardwerten.

Parameter:

Parameter Wert
engine.parallelJobs

Die maximale Anzahl paralleler Jobs ist durch die Lizenz 'TES' vorgegeben.

Standard: 2

Bei mehreren Installationen des Services 'ocr' wird die Anzahl auf die Installationen verteilt.

tesseract.pdfFormat

PDF-Format

  • PDF

  • PDF_A_1B

    Standard

Unterstützt werden folgende Sprachen: Deutsch, Englisch, Französisch, Italienisch, Spanisch.

Konfiguration - ABBYY FineReader

Der Service 'ocr' arbeitet mit folgenden Standardeinstellungen:

PDF-Profil: Format PDF/A1b
PDF-Profil: Verfahren Balanced
Text-Profil Vorgegeben: TextExport.ini
Dateiübertragung zu enaio® rendition-plus Stream
Anzahl der Kerne für ABBYY FineReader 1

Über eine Konfigurationsdatei ocr-prod.yml im dem Verzeichnis \servicemanager\config\ können diese Einstellungen geändert werden.

Beispiel einer Konfiguration in der Datei ocr-prod.yml:

finereader:
  profile:
    pdfa: PDFA1bBalanced.ini
    text: TextExport.ini
  engine:
    parallelJobs: 1
rest:
  transferPolicy: stream

Das Beispiel entspricht den Standardeinstellungen.

Angegeben werden müssen nur die Einstellungen, die von den Standardeinstellungen abweichen.

Profildatei einbinden

Sie können das Profil anpassen oder eine eigene Profildatei mit weiteren Einstellungen erstellen und über die Konfigurationsdatei ocr-prod.yml einbinden.

Beispiel für das Einbinden:

finereader: 
  profile:   
    pdfa: 'file://d:/enaio/OCRconfig/custom_ocr.ini'
engine:   
  parallelJobs: 4
rest:   
  transferPolicy: 'auto'  

Beispiel für eine Profildatei:

[PDFExportParams]
Scenario = PES_Balanced
PDFAComplianceMode = PCM_Pdfa_1b

[PrepareImageMode]
CorrectSkew = false

[PagePreprocessingParams]
CorrectOrientation=true
CorrectSkew=TSPV_No
CorrectGeometry=TSPV_No

[RecognizerParams]
TextLanguage = German,French,English
DetectLanguage = true
BalancedMode=true

[PageAnalysisParams]
DetectVerticalEuropeanText=true

[ObjectsExtractionParams]
DetectTextOnPictures=true

Informationen zu den Einstellungen finden Sie in den Dokumentationen von ABBYY FineReader.

Beispiele für Einstellungsbereiche:

[PDFExportParams] Einstellung der Parameter für den Export von erkanntem Text in das PDF-Format.
[PagePreprocessingParams]   Einstellung von Parametern für die Seitenvorverarbeitung.
[PrepareImageMode] Einstellung von Parametern für die Bildoptimierung vor der Verarbeitung.
[RecognizerParams] Einstellung von Erkennungsparametern wie Spracheinstellungen.
[PageAnalysisParams] Einstellung von Parametern für Layout-Analysen
[ObjectsExtractionParams] Einstellung von Parametern für die Extraktion von Objekten