Konfiguracja ogólnego i miejscowego OCR

Aktualizacja9 maja 2024

Mechanizm ogólnego OCR w systemie AMODIT służy do odczytania zawartości załączanych do sprawy dokumentów (m.in. PDF). Tak odczytana zawartość jest następnie wykorzystywana przez indekser silnika wyszukiwania Lucene, używanego w AMODIT jako tzw. szybka wyszukiwarka.

Mechanizm miejscowego OCR służy do odczytywania danych bezpośrednio z podglądu dokumentu.

Po wykonaniu instalacji systemu AMODIT należy dorzucić dodatkowe pliki „treningowe” dla OCR w katalogu tymczasowym systemu AMODIT. W szczególności, gdy w logach systemu AMODIT rejestrowany jest komunikat błędu o takiej treści:

GetOCRFromPage failed, message: RunOCR failed, status is OCRDictionaryNotFound

Ścieżkę do fizycznej lokalizacji katalogu tymczasowego na serwerze, gdzie zainstalowany jest AMODIT, można znaleźć w ustawieniach systemowych w parametrze „Temporary Search Folder” (patrz punkt [4] na poniższym obrazku).

W pierwszej kolejności należy pobrać archiwum ZIP z plikami treningowymi: OCR.zip

Następnie należy go rozpakować w folderze tymczasowym AMODIT’a, tak aby pliki pol.traineddata i eng.traineddata były w podfolderze „ocr” (np.: d:\temp\ocr).

Dla innych języków można pobrać dane stąd tesseract_ocr_4x_language_pack.zip