OCR-Komponente installieren

yuuvis® RAD 10.x »

Der Microservice 'ocrservice' bindet eine OCR-Komponente ein, die aus Bilddokumenten Textdokumente für die Volltextindexierung und PDF-Dateien mit Hidden Text erzeugt. Die Objekttypen benötigen die Eigenschaft 'Datei für die Volltextsuche indexieren'.

Als OCR-Komponenten stehen Tesseract oder ABBYY FineReader zur Verfügung.

Vergleich FineReader / Tesseract
  FineReader Tesseract
Lizenz SMUA-Lizenz über OPTIMAL SYSTEMS

Lizenzfrei

Apache-Lizenz Version 2.0

Installation Installation über ein Setup als Bestandteil der Installationsdaten Bestandteil der yuuvis® RAD service-manager-Installation
Sprachen Für zusätzliche Sprachen können weitere Kosten entstehen Zusätzliche Sprachen ohne weitere Kosten
Unterstützte Bildformate FineReader-Dokumenation Tesseract-Dokumentation
PDF-Rendition mit Hidden Text  Ja Ja
PDF/A-Rendition Ja Nein
Barcode-Erkennung Ja Nein
Anzahl der Kerne Lizenzabhängig mit gegebenenfalls weiteren Kosten Nich lizenzabhängig und ohne weitere Kosten, Default: 4

Tesseract

Tesseract wird als Bestandteil von yuuvis® RAD service-manager installiert. Wenn die entsprechende Option aktiviert ist, dann wird Tesseract vorkonfiguriert.

Mit der Installation wird die Konfigurationsdatei <service-manager>\config\ocr–prod.yml angelegt. Die Datei enthält die Sprachen, die bei der Installation angegeben sind. Die Datei kann bearbeitet werden, um zusätzliche oder andere Sprachen einzubinden.

Beispiel:

tesseract:
  languages: deu,eng 

In der Konfigurationsdatei <service-manager>\config\servicewatcher-sw.yml wird der Service 'ocrservice' für Tesseract eingebunden:

- name: ocrservice
  type: microservice
  profiles: prod,cloud,red,tesseract
  instances: 1
  memory: 512M
  port: 7241-7250
  path: ${appBase}/ocrservice/ocrservice-app.jar
  env:
    ProgramData: null
    ALLUSERSPROFILE: null
    #OMP_THREAD_LIMIT: 4

In der Konfigurationsdatei route.properties aus dem Verzeichnis \rendition-plus\webapps\osrenditioncache\WEB-INF\classes\config\ muss die OCR-Engine aktiviert werden:

ocr-engine=finereader

Der Parameter finereader aktiviert allgemein eine OCR-Komponente, ABBYY FineReader oder Tesseract.

Sprache für Tesseract

Folgende Sprachen stehen für Tesseract zur Verfügung:

Kürzel Sprache
chi_sim Chinesisch (einfach)
chi_sim_vert Chinesisch vertikal (einfach)
deu Deutsch
eng Englisch
fra Französisch
ind Indonesisch
ita Italienisch
jpn Japanisch
jpn_vert Japanisch vertikal
kor Koreanisch
kor Korean vertical
msa Malaiisch
spa Spanisch
tha Thailändisch

Die Sprachdateien für diese Sprachen werden in das Verzeichnis \<service-manager>\data\tesseract_data installiert. Weitere Sprachen stehen als Download zur Verfügung und müssen in dieses Verzeichnis kopiert werden.

ABBYY FineReader

Für die Installation von ABBYY FineReader benötigen Sie eine Lizenzdatei, die Sie über OPTIMAL SYSTEMS erwerben und in die Verzeichnisse \bin und \bin64 der ABBYY FineReader-Installation einspielen.

ABBYY FineReader muss auf dem Rechner installiert werden, auf dem yuuvis® RAD service-manager mit den Services 'ocr', 'adminservice', 'discoveryservice' und 'renditionsidecar' installiert ist.

Die Installation von ABBYY FineReader erfolgt über das Programm setup.exe aus dem Installationsverzeichnis \finereader\. Folgen Sie den Installationsdialogen.

Nach der Installation können über die Konfigurationsdatei ocr-prod.yml aus dem Verzeichnis \<service-manager>\config\ Einstellungen für die PDF-Erstellung angepasst werden.

Einbinden in die Microservice-Infrastruktur

Schritte, mit denen Sie ABBYY FineReader einbinden:

  • In der Konfigurationsdatei servicewatcher-sw.yml aus dem Verzeichnis \<service-manager>\config\ die Anzahl der Instanzen eintragen:
  • - name: ocrservice
      type: microservice
      profiles: prod,cloud,red
      instances: 0
      memory: 128M
      port: 7241-7250
      path: ${appBase}/ocrservice/ocrservice-app.jar
      env:
        ProgramData: null
        ALLUSERSPROFILE: null

  • Wenn am Arbeitsplatz nicht ebenfalls yuuvis® RAD rendition-plus installiert ist , dann muss in der Konfigurationsdatei application-red.yml aus dem Verzeichnis \<service-manager>\config\ die IP von yuuvis® RAD rendition-plus eingetragen werden:
    yuuvis.rendition.server: <host>:8090
  • In der Konfigurationsdatei route.properties aus dem Verzeichnis \rendition-plus\webapps\osrenditioncache\WEB-INF\classes\config\ muss ABBYY FineReader als OCR-Komponente aktiviert werden:
    ocr-engine=finereader
  • Der Parameter finereader aktiviert allgemein eine OCR-Komponente, ABBYY FineReader oder Tesseract.

Deinstallation

Deinstallieren Sie ABBYY FineReader über die Windows Systemsteuerung.

Updates

Informationen zur Aktualisierung von Komponenten erhalten Sie über die Release-Informationen.