Texterkennung und PDF/A-Erzeugung mit ABBYY FineReader

yuuvis® RAD 10.x »

Der Service 'ocrservice' erzeugt in Zusammenarbeit mit einer Installation der Texterkennungssoftware ABBYY FineReader aus Bilddokumenten Textdokumente, die für die Volltextindexierung verwendet werden. Zusätzlich können PDF-Dateien mit Hidden Text, verschiedene PDF/A-Formate und stark komprimierte PDFs erzeugt werden.

Die Objekttypen benötigen die Eigenschaft 'Datei für die Volltextsuche indexieren'.

Statt ABBYY FineReader kann Tesseract als OCR-Komponente installiert und eingebunden werden.

Konfiguration

Der Service 'ocrservice' mit ABBYY FineReader arbeitet mit Einstellungen, die in die Konfigurationsdatei ocr-prod.yml aus dem Verzeichnis \servicemanager\config\ angegeben werden müssen.

Beispiel einer Konfiguration in der Datei ocr-prod.yml:

finereader:
  profile:
    pdfa: PDFA1bBalanced.ini
    text: TextExport.ini
  engine:
    numberOfCores: 1
rest:
  transferPolicy: stream

Die Parameter aus dem Beispiel haben folgende Funktion:

PDF-Profil: Format PDF/A1b
PDF-Profil: Verfahren Balanced
Text-Profil Vorgegeben: TextExport.ini
Dateiübertragung zu yuuvis® RAD rendition-plus Stream
Anzahl der Kerne für ABBYY FineReader 1

Falls Sie Objekte im Sinne der Langzeitarchivierung ablegen wollen und diese noch nicht im Format PDF/A vorliegen, ist es möglich, über den Service im Zusammenspiel mit ABBYY FineReader eine Datei im PDF/A-Format erstellen zu lassen und diese als neue Version zum Objekt zu speichern. Sprechen Sie dazu das Consulting-Team von OPTIMAL SYSTEMS an.

Profildatei einbinden

Sie können das Profil anpassen oder eine eigene Profildatei mit weiteren Einstellungen erstellen und über die Konfigurationsdatei ocr-prod.yml einbinden.

Beispiel für das Einbinden:

finereader: 
  profile:   
    pdfa: 'file://d:/yuuvis/OCRconfig/custom_ocr.ini'
  engine:   
    numberOfCores: 4
rest:   
  transferPolicy: 'auto'  

Beispiel für eine Profildatei:

[PDFExportParams]
Scenario = PES_Balanced
PDFAComplianceMode = PCM_Pdfa_1b

[PagePreprocessingParams]
CorrectOrientation=true
CorrectSkew=TSPV_No
CorrectGeometry=TSPV_No

[PrepareImageMode]
CorrectSkew = false

[RecognizerParams]
TextLanguage = German,French,English
DetectLanguage = true
BalancedMode=true

[PageAnalysisParams]
DetectVerticalEuropeanText=true

[ObjectsExtractionParams]
DetectTextOnPictures=true

Informationen zu den Einstellungen finden Sie in den Dokumentationen von ABBYY FineReader.

Beispiele für Einstellungsbereiche:

[PDFExportParams] Einstellung der Parameter für den Export von erkanntem Text in das PDF-Format.
[PagePreprocessingParams]   Einstellung von Parametern für die Seitenvorverarbeitung.
[PrepareImageMode] Einstellung von Parametern für die Bildoptimierung vor der Verarbeitung.
[RecognizerParams] Einstellung von Erkennungsparametern wie Spracheinstellungen.
[PageAnalysisParams] Einstellung von Parametern für Layout-Analysen
[ObjectsExtractionParams] Einstellung von Parametern für die Extraktion von Objekten