Kako prepoznati PDF datoteko na spletu

Ne morete vedno odstraniti besedila iz datoteke PDF s pomočjo običajne metode kopiranja. Pogosto so strani takih dokumentov skenirane vsebine svojih papirjev. Če želite pretvoriti take datoteke v popolnoma urejene besedilne podatke, se posebni programi uporabljajo s funkcijo optičnega prepoznavanja znakov (OCR).

Takšne odločitve so zelo zapletene v prodaji in zato obstaja precejšen denar. Če bo potreba po prepoznavanju besedila s PDF redno nastala, bo povsem priporočljivo kupiti ustrezen program. Za redke primere bo ena od razpoložljivih spletnih storitev s podobnimi funkcijami bolj logična.

Kako prepoznati besedilo s PDF na spletu

Seveda je niz funkcij OCR Online Services, v primerjavi s polnopravnimi namiznimi rešitvami, bolj omejen. Vendar pa je mogoče delati s takšnimi viri ali popolnoma brezplačno ali za simbolno pristojbino. Glavna stvar je, da se s svojo glavno nalogo, in sicer s priznanjem besedila, ustrezne spletne aplikacije se spopadejo tudi.

Metoda 1: abbyy finereader na spletu

Podjetje za razvijalce storitev je eden od voditeljev na področju optičnega prepoznavanja dokumentov. Abbyy Finereader za Windows in Mac je zmogljiva rešitev za pretvorbo PDF v besedilo in nadaljnje delo z njim.

Spletni analog programa, seveda, je slabše od tega s funkcionalnostjo. Kljub temu lahko storitev prepozna besedilo skeniranja in fotografij v več kot 190 jezikih. Podprta pretvorba datoteke PDF v besedo, Excel dokumente itd.

Spletna storitev Abbyy Finereader na spletu

Preden začnete delati z orodjem, ustvarite račun na spletnem mestu ali se prijavite s Facebookom, Google ali Microsoftovim računom.

Če želite iti v okno Dovoljenje, kliknite gumb »Prijava« v zgornji plošči menija.
Z zapisovanjem, uvozite želeni dokument PDF v FineReader, z gumbom »Prenesi datoteke«.

Nato kliknite »Izberi številke strani« in navedite želeno vrzel, da prepoznate besedilo.
Nato izberite jezike, ki so prisotne v dokumentu, format datoteke izida in kliknite na gumb "Prepoznajte".
Po obdelavi, katerih trajanje je v celoti odvisno od količine dokumenta, lahko prenesete datoteko z besedilom z besedilnimi podatki preprosto s klikom na njeno ime.

Ali ga izvozite na eno od razpoložljivih storitev v oblaku.

Storitev je verjetno najbolj natančen algoritmi za prepoznavanje besedila na slikah in datotekah PDF. Toda na žalost je njegova brezplačna uporaba omejena na pet predelanih strani na mesec. Delati z več obsežnimi dokumenti, boste morali kupiti letno naročnino.

Če pa je funkcija OCR potrebna precej redko, je Abbyy Finereader Online odlična možnost, da izvleče besedilo iz majhnih datotek PDF.

Metoda 2: Brezplačno Online OCR

Enostavno in priročno besedilo digitalizacije besedila. Brez registracije, vir vam omogoča, da prepoznate 15 polne pdf strani na uro. Brezplačni OCR OCR v celoti sodeluje z dokumenti v 46 jezikih in brez avtorizacije, ki podpirajo tri izvozni besedila - DOCX, XLSX in TXT.

Pri registraciji uporabnik dobi priložnost, da obdeluje večstranske dokumente, vendar je brezplačno število teh strani omejeno na 50 enot.

Online Service Free Online OCR

Prepoznati besedilo iz PDF kot "gosta", brez dovoljenja za vir, uporabite ustrezen obrazec na glavni strani spletnega mesta.

Izberite želeni dokument z gumbom Datoteka, podajte glavni jezik besedila, izhodni format, nato počakajte, da datoteko prenesete in kliknete pretvorbo.
Na koncu procesa digitalizacije kliknite »Prenesite izhodno datoteko«, da shranite končni dokument z besedilom na računalniku.

Za pooblaščene uporabnike je zaporedje ukrepov nekoliko drugačno.

Uporabite gumb "Registracija" ali "Login" v zgornjem meniju na plošči meni, da ustvarite brezplačen spletni račun OCR ali ga pojdite nanj.
Po odobritvi v komisiji za priznanje, ki držite tipko "CTRL", iz predlaganega seznama izberite največ dva jezika izvora.
Podajte nadaljnje parametre za ekstrakcijo besedila iz PDF in kliknite gumb Izberi datoteko, da prenesete dokument na storitev.

Potem, da nadaljujete s prepoznavanjem, kliknite »Pretvorba«.
Na koncu obdelave dokumenta kliknite na povezavo, imenovano izhodno datoteko v ustreznem stolpcu.

Rezultat priznanja se takoj shrani v pomnilnik računalnika.

Če je potrebno, odstranite besedilo iz majhnega dokumenta PDF, je lahko varno za uporabo zgoraj opisanega orodja. Za delo z obsežnimi datotekami boste morali kupiti dodatne znake v prostem Online OCR ali zategnite na drugo rešitev.

3. način: novous

Popolnoma brezplačna storitev OCR, ki vam omogoča, da izvlečete besedilo iz skoraj vseh grafičnih in elektronskih dokumentov, kot sta DJVU in PDF. Vir ne uvede omejitve glede velikosti in števila prepoznavnih datotek, ne zahteva registracije in ponuja široko paleto povezanih funkcij.

NewOcs podpira 106 jezikov in lahko pravilno obdelujejo celo nizko kakovostne preglede dokumentov. Možno je ročno izbrati območje za prepoznavanje besedila na strani datoteke.

Spletna storitev NewOCR.

Torej, lahko začnete delati z virom takoj, ne da bi bilo treba izvesti dodatna dejanja.

Na glavnem mestu je obrazec za uvoz dokumenta na spletno mesto. Če želite prenesti datoteko v NewOCR, uporabite gumb za izbiro datoteke v razdelku Izberi datoteko. Potem v polje "Jezik prepoznavanja", podajte enega ali več jezikov izvornega dokumenta, nato pa kliknite »Upload + OCR«.
Navedite želeno nastavitve prepoznavanja, izberite želeno stran, da pridobite besedilo in kliknite gumb OCR.
Pomaknite se po strani rahlo nižje in poiščite gumb »Download«.

Kliknite nanj in na spustnem seznamu izberite želeno obliko dokumenta za prenos. Po tem bo končana datoteka z ekstrahiranim besedilom prenesena v računalnik.

Orodje je priročno in dobro prepozna vse znake. Vendar pa je treba obdelavo vsake strani uvoženega dokumenta PDF sprožiti neodvisno in se prikaže v ločeni datoteki. Seveda lahko takoj kopirate rezultate prepoznavanja v odložišče in jih združite z drugimi.

Kljub temu, glede na zgoraj opisano odtenke, velike količine besedila, ki uporabljajo NewOCov, da izvlecite zelo težko. Z majhnimi datotekami, servisirajo "z bang."

Metoda 4: OCR.Space

Preprost in razumljiv vir za digitalizacijo besedila vam omogoča prepoznavanje dokumentov PDF in izhod rezultat v datoteki TXT. Število strani niso na voljo. Edina omejitev je velikost vhodnega dokumenta ne sme presegati 5 megabajtov.

Spletna storitev OCR.Space.

Ni vam treba registrirati za delo z orodjem.

Kliknite na zgornjo povezavo in prenesite dokument PDF na spletno mesto iz računalnika z gumbom »Izberi datoteko« ali iz omrežja s sklicevanjem.
V izbirnem seznamu jezika OCR izberite jezik uvoženega dokumenta.

Nato zaženite postopek prepoznavanja besedila s klikom na gumb "Start OCR!".
Na koncu obdelave datotek glejte Rezultat v polje OCR'ed rezultat in kliknite »Prenesi«, da prenesete končni dokument TXT.

Če potrebujete samo izvleček besedila iz PDF in hkrati končno oblikovanje, ni pomembno sploh, OCR.Space je dobra izbira. Edini, dokument mora biti "enogovorno", saj priznanje dveh ali več jezikov hkrati v storitvi ni zagotovljeno.

Preberite tudi: finereader complimentary analogi

Ocenjevanje spletnih instrumentov, predstavljenih v članku, je treba opozoriti, da je Finereader na spletu iz Abbyyja najbolj natančen in kvalitativno z OCR funkcijo. Če ste pomembni za vas, je najvišja deformacija prepoznavanja besedila, je najbolje, da razmislite posebej to možnost. Vendar pa bodo najverjetneje plačali zanj.

Če potrebujete digitalizacijo majhnih dokumentov in ste pripravljeni na pravilno pravilne napake v storitvah, je priporočljivo uporabiti novous, OCR.Space ali Free Online OCR.