Classify

Zur Dokumentenklassifizierung wird von enaio® auf die Komponente „smart FIX“ von Insiders zurückgegriffen. Neben den vom Hersteller gesetzten Einschränkungen und Vorgaben haben sich folgende Empfehlungen bewährt:

smart FIX benötigt weitere Datenbanken auf einem MSSQL-Server, je nach eingehender Dokumentenmenge pro Tag ist das Sizing für diese unterschiedlich. Mindestens jedoch sollten 1 GB RAM und 1 CPU auf dem MSSQL-Server dafür vorgehalten werden. Die Klassifizierungskomponente selbst wird auf einem dedizierten Host eingesetzt und benötigt ebenso je nach Dokumentmenge Ressourcen. Als Richtwert kann angenommen werden, dass je DIN A4-Seite (150 dpi) bei einer 3GHz CPU 20 bis 30 Sekunden Extraktionszeit benötigt werden. Dies ist eine Worst-Case-Annahme, begründet durch das zu verarbeitende Scangut, dessen Qualität und der übrigen Auslastung der Infrastruktur. Meist erfolgt die Verarbeitung schneller. Der RAM-Verbrauch wird mit 1 GB pro CPU-Kern angegeben.

~20.000 Seiten im Monat könnten von 1 CPU verarbeitet werden.

Hintergrund: 20.000 Seiten / 20 Arbeitstage / 8 Stunden pro Arbeitstag / 60 Minuten ergibt 2,08 Seiten pro Minute, diese sind durch einen CPU-Kern zu bewältigen.

Obiges Beispiel setzt einen sehr gleichmäßigen Eingang an Dokumenten voraus. Sollten diese in Wochen- oder Monatsperioden stoßweise in das System gelangen ändern sich die Anforderungen je nach Anspruch an die Verarbeitungsgeschwindigkeit. Als weiteres Beispiel sei angenommen, die Belege eines Monats (20.000) sollen an einem Tag (8 h) verarbeitet werden.

Also: 20000 Seiten / 8 Stunden / 60 Minuten ergibt 41,7 Seiten pro Minute. Dies wiederum bedingt 20 CPU-Kerne für die Verarbeitung durch die Klassifizierung.

Der Schlüssel ist also die gewünschte Verarbeitungsgeschwindigkeit unter Berücksichtigung der Periodizität der Dokumenteingänge. Daraufhin muss die Skalierung erfolgen.