Digitalizace dokumentů a vytěžování dat

Digitalizace dokumentů přináší každé společnosti řadu výhod. Ať už je to úspora místa, úspora nákladů, stálá čitelnost dokumentů nebo třeva rychlá dohledatelnost.

Společnost Xerox vám se svými 30-letými zkušenostmi z celého světa dokáže navrhnout vhodné a úsporné řešení pro problematiku digitalizace dokumentů. Digitalizace a vytěžování dat  z dokumentů může být realizována formou dodávky zařízení a software nebo formou plného outsourcingu.

Standardně digitalizujeme dokumenty od formátu A8 až po formát A0+, stejně tak zpracováváme i vázané předlohy jako jsou knihy, smlouvy, historické dokumenty, archiválie apod.
Digitalizované dokumenty lze pak ukládat do libovolného standardizovaného formátu barevně, černobíle nebo ve stupních šedi. V případě požadavku je možno na obrazy aplikovat profesionální optimalizaci včetně komprese.

Vytěžování a indexace dat z dokumentů

Pro rychlé vyhledávání je nutné dokumenty označit tzv. indexy. Index je vlastně ukazatelem a jednoznačným identifikátorem dokumentu, dle kterého můžeme vyhledávat nebo filtrovat. Identifikátorem může být např. číslo smlouvy nebo zákazníka. U faktur to jsou např. hlavičkové údaje.
Při velkém objemu dokumentů tyto data vytěžujeme automatizovaně bez ohledu na vzhled jednotlivých dokumentů. Každý dokument tedy může vypadat naprosto odlišně.


Pro vytěžování dat z dokumentů používáme zejména tyto techniky:

BCR - Bar Code Recognition

Vytěžování čárového kódu 1D, 2D. V těchto čárových kódech je uložen nápis Xerox:

1D BarCodePDF 4172D BarCode

OCR - Optical Character Recognition 

Rozpoznávání a konverze tištěných znaků.

OCR Text


OMR - Optical Mark Recognition

Verifikace či rozpoznání, zda jsou vyplněna nebo zaškrtnuta vyhrazená políčka.

Chcete Xerox ? Check box


ICR - Intelligent Character Recognition

V tomto případě jde o rozpoznávání a konverzi ručně psaných znaků.

ICR Text


CHR - Cursive Handwritten Recognition

Rozpoznání a konverze psaného a spojeného písma.

Jakou digitalizaci a vytěžování dat z dokumentů provádíme?

  • faktury bez ohledu na různorodý vzhled faktur
  • formuláře ručně i tiskem vyplněné – hypotéky, platební příkazy, nové smlouvy, změny smluv, směnky, zákaznické karty a další
  • příchozí poštu
  • logistické dokumenty
  • žádanky
  • mapy, výkresy, plány apod.
  • polostrukturované i nestrukturované dokumenty včetně automatické klasifikace
  • knihy a vzácné archiválie
  • a další...

Vývoj aplikace HAVIT s.r.o. v Kentico CMS