Texterkennung und PDF/A-Erzeugung mit ABBYY FineReader

yuuvis® RAD 10.x

Der Service 'ocrservice' erzeugt in Zusammenarbeit mit einer Installation der Texterkennungssoftware ABBYY FineReader aus Bilddokumenten Textdokumente, die für die Volltextindexierung verwendet werden. Zusätzlich können PDF-Dateien mit Hidden Text, verschiedene PDF/A-Formate und stark komprimierte PDFs erzeugt werden.

Die Objekttypen benötigen die Eigenschaft 'Datei für die Volltextsuche indexieren'.

Statt ABBYY FineReader kann Tesseract als OCR-Komponente installiert und eingebunden werden.

Konfiguration

Der Service 'ocrservice' mit ABBYY FineReader arbeitet mit Einstellungen, die in die Konfigurationsdatei ocr-prod.yml aus dem Verzeichnis \servicemanager\config\ angegeben werden müssen.

Beispiel einer Konfiguration in der Datei ocr-prod.yml:

finereader:
  profile:
    pdfa: PDFA1bBalanced.ini
    text: TextExport.ini
  engine:
    numberOfCores: 1
rest:
  transferPolicy: stream
                                                            

Die Parameter aus dem Beispiel haben folgende Funktion:

PDF-Profil: Format	PDF/A1b
PDF-Profil: Verfahren	Balanced
Text-Profil	Vorgegeben: TextExport.ini
Dateiübertragung zu yuuvis® RAD rendition-plus	Stream
Anzahl der Kerne für ABBYY FineReader	1

Profil anpassen

PDF-Profil anpassen

Zum Anpassen des PDF-Formats und des Verfahrens geben Sie der Eigenschaft finereader:profile:pdfa einen Wert, wobei sich der Wert aus Format und Verfahren zusammensetzt: <Format><Verfahren>.ini

Folgende Formate können erzeugt werden:

Format	Schreibweise
PDF	PDF
PDF/A1a	PDFA1a
PDF/A1b	PDFA1b
PDF/A2a	PDFA2a
PDF/A2u	PDFA2u
PDF/A3a	PDFA3a
PDF/A3u	PDFA3u

Folgende Verfahren stehen zur Verfügung:

Verfahren	Beschreibung
MaxQuality	Erzeugt Ergebnisse mit der besten Auflösung. Geschwindigkeit und Grad der Komprimierung sind zweitrangig.
MaxSpeed	Erzeugt Ergebnisse nach dem schnellsten Verfahren. Qualität und Grad der Komprimierung sind zweitrangig.
MinSize	Erzeugt Ergebnisse mit der geringsten Dateigröße. Geschwindigkeit und Qualität sind zweitrangig.
Balanced	Erzeugt Ergebnisse mit einem ausgewogenen Verhältnis von Qualität, Geschwindigkeit und Grad der Komprimierung.

Text-Profil anpassen

Zurzeit steht ausschließlich das Text-Profil TextExport.ini zum Erzeugen von Texten zur Verfügung.

Dateiübertragung festlegen

Um festzulegen, wie die Dateien übertragen werden, geben Sie der Eigenschaft rest:transferPolicy einen Wert.

Übertragungsarten
Dateiübertragung	Beschreibung
stream	Übertragung über einen HTTP-Stream
fileref	Übertragung per Dateisystem-Referenz
auto	Die Übertragungsart wird automatisch gewählt. Dabei wird anhand der IP-Adresse des Endpoints von yuuvis® RAD rendition-plus festgestellt, ob yuuvis® RAD rendition-plus und der Service 'ocrservice' auf demselben Rechner laufen. Falls ja, so wird die Übertragung über Dateisystem-Referenzen realisiert, anderenfalls über einen HTTP-Stream.

Falls Sie Objekte im Sinne der Langzeitarchivierung ablegen wollen und diese noch nicht im Format PDF/A vorliegen, ist es möglich, über den Service im Zusammenspiel mit ABBYY FineReader eine Datei im PDF/A-Format erstellen zu lassen und diese als neue Version zum Objekt zu speichern. Sprechen Sie dazu das Consulting-Team von OPTIMAL SYSTEMS an.

Profildatei einbinden

Sie können das Profil anpassen oder eine eigene Profildatei mit weiteren Einstellungen erstellen und über die Konfigurationsdatei ocr-prod.yml einbinden.

Beispiel für das Einbinden:

finereader: 
  profile:   
    pdfa: 'file://d:/yuuvis/OCRconfig/custom_ocr.ini'
  engine:   
    numberOfCores: 4
rest:   
  transferPolicy: 'auto'  
                                                            

Beispiel für eine Profildatei:

[PDFExportParams]
Scenario = PES_Balanced
PDFAComplianceMode = PCM_Pdfa_1b

[PagePreprocessingParams]
CorrectOrientation=true
CorrectSkew=TSPV_No
CorrectGeometry=TSPV_No

[PrepareImageMode]
CorrectSkew = false

[RecognizerParams]
TextLanguage = German,French,English
DetectLanguage = true
BalancedMode=true

[PageAnalysisParams]
DetectVerticalEuropeanText=true

[ObjectsExtractionParams]
DetectTextOnPictures=true
                                                            

Informationen zu den Einstellungen finden Sie in den Dokumentationen von ABBYY FineReader.

Beispiele für Einstellungsbereiche:

[PDFExportParams]	Einstellung der Parameter für den Export von erkanntem Text in das PDF-Format.
[PagePreprocessingParams]	Einstellung von Parametern für die Seitenvorverarbeitung.
[PrepareImageMode]	Einstellung von Parametern für die Bildoptimierung vor der Verarbeitung.
[RecognizerParams]	Einstellung von Erkennungsparametern wie Spracheinstellungen.
[PageAnalysisParams]	Einstellung von Parametern für Layout-Analysen
[ObjectsExtractionParams]	Einstellung von Parametern für die Extraktion von Objekten