Alla ämnen

+
Home > Zdrojov > PDF > znalosť optické rozpoznávanie znakov (OCR)

Znalosť optické rozpoznávanie znakov (OCR)

Čo je OCR?

Optické rozpoznávanie znakov, zvyčajne skrátene OCR je mechanické alebo elektronické preklad naskenovaných obrázkov textu rukou, na písacom stroji alebo tlačené do stroja-kódovaný text.

Prečo používať OCR?

OCR je široko používaný pre konverziu rôznych typov dokumentov, napríklad naskenované papierové dokumenty, PDF súbory alebo obrázky zachytené digitálnym fotoaparátom do editovateľné a prehľadávateľné údajov. V niektorých profesionálnych prostrediach (napr. knižnice, úrady), tisícky kníh a dokumentov pre zálohovanie a archiváciu pravidelne kontrolujú. Skener sa nájde fotografie papierové doklady, výsledkom image-založené naskenované dokumenty vo formáte PDF. Hlavným problémom sa, spracovanie a skladovanie takýchto veľkých objemov naskenovaných dokumentov je neschopnosť vyhľadávanie pre konkrétnu frázu alebo názov vnútri súboru. Tiež žiadny text môže byť zvýraznené, kopírovať alebo upraviť, pretože dokument obsahuje jeden veľký obrázok na rozdiel od jednotlivých znakov textu.

OCR Sample

Pred vykonaným rozpoznávania OCR celú oblasť na stránke je zvolená a zvýraznená a nie je žiaden text môžete vyhľadávať a upravovať.

Po vykonaní optického rozpoznávania znakov textu na stránke môžete vybrali s výberom nástroja, môžete hľadať a upraviť znak, slovo a odsekov ľahko.

Ako urobiť Wondershare PDF OCR nástrojov pomôže?

Wondershare PDF OCR nástrojov môže vám pomôže rozpoznať text z naskenované PDF rýchlo a presne a zachovať uznávané výsledky v niekoľkých editovateľných formátoch.

Wondershare PDF Editor Pro for Mac: s vynikajúci OCR presnosť a formát uchovávanie, umožňujú vyhľadávať, opravovať a kopírovať text v naskenovanom alebo image-založené PDF priamo na Mac. To tiež umožňuje exportovať naskenovaného PDF na formátovaný text vychádza Word, Excel, PowerPoint, EPUB, HTML a textové formáty.

Wondershare PDF Converter Pro: rozpoznanie textu z naskenovaného PDF s vynikajúci OCR presnosť a dokáže konvertovať viacero naskenovaných dokumentov PDF na text-založené Word, Excel, PowerPoint, EPUB, HTML a textové dokumenty v systéme Windows.


Wondershare PDF Converter Pro for Mac: rozpoznanie textu z naskenovaného PDF s vynikajúci OCR presnosť a dokáže konvertovať viacero naskenovaných dokumentov PDF na text-založené Word, Excel, PowerPoint, EPUB, HTML a textové dokumenty na Mac.

Ako zvýšiť kvalitu rozpoznávania OCR?

Kvalitu rozpoznávania OCR vo veľkej miere závisí od kvality obrazu, ktorý výrazne závisí od nastavení použitých počas dokumentu proces skenovania. S cieľom získať lepšiu kvalitu rozpoznávania OCR pre naskenované dokumenty, tu je niekoľko tipov pre skenovanie dokumentu:

Písmo je príliš malá
Pre optimálne výsledky rozpoznávania, skenovať dokumenty vytlačené veľmi malým písmom pri vyšších rozlíšeniach.
Požadované rozlíšenie môžete zadať rozlíšenie vlastnosti ScanSourceSettings objektu.


Zdrojový obrázok Odporúčané rozlíšenie
Reader 300 dpi pre typické texty (tlačené písmo veľkosti 10 pt alebo väčšie)
Reader 400-600 dpi pre texty vytlačené v menších písiem (9pt alebo menšie)

Nastavovanie jasu
Možno budete musieť upraviť nastavenia jasu, pri skenovanie v čiernobielom režime. Môžete zadať požadovaný jas jas vlastnosti ScanSourceSettings objektu. Stredná hodnota okolo 50% by malo stačiť vo väčšine prípadov.
Ak výsledný obrázok obsahuje priveľa "roztrhnutých" alebo "prilepené" spoločne listov, riešenie pomocou tabuľky nižšie.

Váš obrázok vyzerá takto Odporúčania
Good Quality Tento obraz je vhodný pre uznanie
Very Light
znaky sú "roztrhané" alebo veľmi svetlé
  • Znížiť jas obrazu tmavšie.
  • Skenovanie v odtieňoch sivej. Jas bude naladený automaticky.
  • Very Dark
    znaky sú veľmi skreslené, zlepené, alebo vyplniť
  • Zvýšiť jas obrázka jasnejšie
  • Skenovanie v odtieňoch sivej. Jas bude naladený automaticky.
  • Kvalita tlače
    Nekvalitné dokumenty s "hluk" (napr. náhodné tmavé bodky alebo škvrny), rozmazané nepravidelné písmená, alebo skosené linky a posunuté hranice tabuliek môžu vyžadovať špecifické nastavenia pre skenovanie. Napríklad tento fax a novín:

    Print Quality

    Nekvalitné dokumenty je najlepšie skenovať v odtieňoch sivej. Pri skenovaní v odtieňoch sivej, program automaticky vyberie optimálnu hodnotu jasu.
    Režim v odtieňoch sivej zachová viac informácií o listoch v naskenovanom texte dosiahnuť lepšie výsledky rozpoznávania pri rozpoznávaní dokumentov strednej až nízkej kvality.


    Súvisiace články

    Otázky týkajúce sa produktu? Hovoriť priamo na náš tím podpory >>

    Hore