Obsah
OCR Server (Optical Character Recognition)
V ÚCHP byl pořízen rozšiřující OCR systém pro barevnou kopírku v knihovně, převádějící naskenovaný dokument (ve formě bitmapového obrázku) do editovatelného textu ve vybraných formátech. V současnosti máme zvoleny výstupní formáty PDF, XLS, DOC, TXT a ePub. V naskenovaných PDF dokumentech lze prohledávat text, čísla a některé speciální znaky. Požádejte obsluhu kopírovacího stroje o dodání PDF dokumentů, zpracovaných pomocí OCR systému.
Pokud používáte svůj stolní skener, máte již mnoho naskenovaných dokumentů v PDF bez zpracování pomocí OCR, případně používáte mobil nebo tablet jako rychlý skener, můžete nechat zpracovat dokumenty dle níže uvedeného postupu a využít výhody tvorby svého digitálního archivu, ve kterém lze text vyhledávat.
Postup zpracování osobních skenů:
- Připojte si na svém PC s Windows adresář \\ocrserver.asuch.cas.cz\HotFolder (v Linuxu nebo Mac OSX pak smb://ocrserver.asuch.cas.cz/HotFolder)
- V připojeném adresáři si zvolíte vstupní adresář dle požadovaného výstupního formátu.
sPDF, excel, word, txt, epub
- Do zvoleného vstupního adresáře zkopírujete svůj naskenovaný dokument. Povolené formáty jsou PDF, JPG, TIF, GIF, PNG.
- Ve výstupním adresáři *Out najdete zpracované soubory. Zkopírujte si je na svůj disk a vymažte na serveru.
Detailní postup zpracování osobních skenů:
- Připojte si na svém PC s Windows adresář \\ocrserver.asuch.cas.cz\HotFolder (v Linuxu nebo Mac OSX pak smb://ocrserver.asuch.cas.cz/HotFolder)
- V připojeném adresáři si zvolíte vstupní adresář dle požadovaného výstupního formátu.
PDF - sPDF, XLS - excel, DOC - word, TXT- txt, ePub - epub
- Do zvoleného vstupního adresáře zkopírujete svůj naskenovaný dokument. Povolené formáty jsou PDF, JPG, TIF, GIF, PNG.
- Za malý okamžik zkopírovaný soubor ze vstupního adresáře zmizí, protože se dostal ke zpracování. Vlastní proces OCR trvá určitou dobu, závislou na počtu stránek vstupního souboru. Typicky zpracování 1 strany A4 převáděné do PDF trvá 30 vteřin. Výsledek po zpracování celého souboru se objeví v sousedním adresáři s příponou
Out
. Např. u PDF je vstupním adresářem/sPdf
a výstupním/sPdfOut
- Ve výstupním adresáři najdete 2 soubory. Jednak zpracovaný soubor s příponou dle zvoleného formátu např. PDF a druhý s příponou
.result.xml
, jenž obsahuje technické údaje o průběhu procesu. Můžete si jej prohlédnout ve webovém prohlížeči. Na konci tohoto souboru je užitečná informace o výsledku zpracování např.<Statistics TotalCharacters=„910“ UncertainCharacters=„49“ PagesArea=„1“
. Po překopírování souborů na svůj disk, soubory na serveru vymažte.
Technické informace
- Použitý software: ABBYY Recognition Server 3.5
- Doporučené rozlišení skenu: 200 dpi (u textů s malou velikostí 300 dpi)
- Podporované jazyky slovníků pro lepší výsledky OCR: čeština, angličtina, němčina, francouzština, španělština (Systém podporuje až 160 jazyků)
- Licencovaná kapacita systému: 5000 stránek/kalendářní měsíc (lze rozšířit)
V případě nejasností nebo problémů volejte Výpočetní středisko.