OCR-Komponente installieren
Der Microservice 'ocrservice' bindet eine OCR-Komponente ein, die aus Bilddokumenten Textdokumente für die Volltextindexierung und PDF-Dateien mit Hidden Text erzeugt. Die Objekttypen benötigen die Eigenschaft 'Datei für die Volltextsuche indexieren'.
Als OCR-Komponenten stehen Tesseract oder ABBYY FineReader zur Verfügung.
FineReader | Tesseract | |
---|---|---|
Lizenz | SMUA-Lizenz über OPTIMAL SYSTEMS |
Lizenzfrei Apache-Lizenz Version 2.0 |
Installation | Installation über ein Setup als Bestandteil der Installationsdaten | Bestandteil der yuuvis® RAD service-manager-Installation |
Sprachen | Für zusätzliche Sprachen können weitere Kosten entstehen | Zusätzliche Sprachen ohne weitere Kosten |
Unterstützte Bildformate | FineReader-Dokumenation | Tesseract-Dokumentation |
PDF-Rendition mit Hidden Text | Ja | Ja |
PDF/A-Rendition | Ja | Nein |
Barcode-Erkennung | Ja | Nein |
Anzahl der Kerne | Lizenzabhängig mit gegebenenfalls weiteren Kosten | Nich lizenzabhängig und ohne weitere Kosten, Default: 4 |
Tesseract
Tesseract wird als Bestandteil von yuuvis® RAD service-manager installiert. Wenn die entsprechende Option aktiviert ist, dann wird Tesseract vorkonfiguriert.
Mit der Installation wird die Konfigurationsdatei <service-manager>\config\ocr–prod.yml angelegt. Die Datei enthält die Sprachen, die bei der Installation angegeben sind. Die Datei kann bearbeitet werden, um zusätzliche oder andere Sprachen einzubinden.
Beispiel:
tesseract:
languages: deu,eng
In der Konfigurationsdatei <service-manager>\config\servicewatcher-sw.yml wird der Service 'ocrservice' für Tesseract eingebunden:
- name: ocrservice
type: microservice
profiles: prod,cloud,red,tesseract
instances: 1
memory: 512M
port: 7241-7250
path: ${appBase}/ocrservice/ocrservice-app.jar
env:
ProgramData: null
ALLUSERSPROFILE: null
#OMP_THREAD_LIMIT: 4
In der Konfigurationsdatei route.properties aus dem Verzeichnis \rendition-plus\webapps\osrenditioncache\WEB-INF\classes\config\ muss die OCR-Engine aktiviert werden:
ocr-engine=finereader
Der Parameter finereader aktiviert allgemein eine OCR-Komponente, ABBYY FineReader oder Tesseract.
Sprache für Tesseract
Folgende Sprachen stehen für Tesseract zur Verfügung:
Kürzel | Sprache |
---|---|
chi_sim | Chinesisch (einfach) |
chi_sim_vert | Chinesisch vertikal (einfach) |
deu | Deutsch |
eng | Englisch |
fra | Französisch |
ind | Indonesisch |
ita | Italienisch |
jpn | Japanisch |
jpn_vert | Japanisch vertikal |
kor | Koreanisch |
kor | Korean vertical |
msa | Malaiisch |
spa | Spanisch |
tha | Thailändisch |
Die Sprachdateien für diese Sprachen werden in das Verzeichnis \<service-manager>\data\tesseract_data installiert. Weitere Sprachen stehen als Download zur Verfügung und müssen in dieses Verzeichnis kopiert werden.
ABBYY FineReader
Für die Installation von ABBYY FineReader benötigen Sie eine Lizenzdatei, die Sie über OPTIMAL SYSTEMS erwerben und in die Verzeichnisse \bin und \bin64 der ABBYY FineReader-Installation einspielen.
ABBYY FineReader muss auf dem Rechner installiert werden, auf dem yuuvis® RAD service-manager mit den Services 'ocr', 'adminservice', 'discoveryservice' und 'renditionsidecar' installiert ist.
Die Installation von ABBYY FineReader erfolgt über das Programm setup.exe aus dem Installationsverzeichnis \finereader\. Folgen Sie den Installationsdialogen.
Nach der Installation können über die Konfigurationsdatei ocr-prod.yml aus dem Verzeichnis \<service-manager>\config\ Einstellungen für die PDF-Erstellung angepasst werden.
Einbinden in die Microservice-Infrastruktur
Schritte, mit denen Sie ABBYY FineReader einbinden:
- In der Konfigurationsdatei servicewatcher-sw.yml aus dem Verzeichnis \<service-manager>\config\ die Anzahl der Instanzen eintragen:
- Wenn am Arbeitsplatz nicht ebenfalls yuuvis® RAD rendition-plus installiert ist , dann muss in der Konfigurationsdatei application-red.yml aus dem Verzeichnis \<service-manager>\config\ die IP von yuuvis® RAD rendition-plus eingetragen werden:
yuuvis.rendition.server: <host>:8090 - In der Konfigurationsdatei route.properties aus dem Verzeichnis \rendition-plus\webapps\osrenditioncache\WEB-INF\classes\config\ muss ABBYY FineReader als OCR-Komponente aktiviert werden:
ocr-engine=finereader
- name: ocrservice
type: microservice
profiles: prod,cloud,red
instances: 0
memory: 128M
port: 7241-7250
path: ${appBase}/ocrservice/ocrservice-app.jar
env:
ProgramData: null
ALLUSERSPROFILE: null
Der Parameter finereader aktiviert allgemein eine OCR-Komponente, ABBYY FineReader oder Tesseract.
Deinstallation
Deinstallieren Sie ABBYY FineReader über die Windows Systemsteuerung.
Updates
Informationen zur Aktualisierung von Komponenten erhalten Sie über die Release-Informationen.