Kako prepoznati PDF datoteko na spletu

Anonim

Kako prepoznati PDF datoteko na spletu

Ne morete vedno odstraniti besedila iz datoteke PDF s pomočjo običajne metode kopiranja. Pogosto so strani takih dokumentov skenirane vsebine svojih papirjev. Če želite pretvoriti take datoteke v popolnoma urejene besedilne podatke, se posebni programi uporabljajo s funkcijo optičnega prepoznavanja znakov (OCR).

Takšne odločitve so zelo zapletene v prodaji in zato obstaja precejšen denar. Če bo potreba po prepoznavanju besedila s PDF redno nastala, bo povsem priporočljivo kupiti ustrezen program. Za redke primere bo ena od razpoložljivih spletnih storitev s podobnimi funkcijami bolj logična.

Kako prepoznati besedilo s PDF na spletu

Seveda je niz funkcij OCR Online Services, v primerjavi s polnopravnimi namiznimi rešitvami, bolj omejen. Vendar pa je mogoče delati s takšnimi viri ali popolnoma brezplačno ali za simbolno pristojbino. Glavna stvar je, da se s svojo glavno nalogo, in sicer s priznanjem besedila, ustrezne spletne aplikacije se spopadejo tudi.

Metoda 1: abbyy finereader na spletu

Podjetje za razvijalce storitev je eden od voditeljev na področju optičnega prepoznavanja dokumentov. Abbyy Finereader za Windows in Mac je zmogljiva rešitev za pretvorbo PDF v besedilo in nadaljnje delo z njim.

Spletni analog programa, seveda, je slabše od tega s funkcionalnostjo. Kljub temu lahko storitev prepozna besedilo skeniranja in fotografij v več kot 190 jezikih. Podprta pretvorba datoteke PDF v besedo, Excel dokumente itd.

Spletna storitev Abbyy Finereader na spletu

  1. Preden začnete delati z orodjem, ustvarite račun na spletnem mestu ali se prijavite s Facebookom, Google ali Microsoftovim računom.

    Registracija v spletni storitvi Abbyy Finereader na spletu

    Če želite iti v okno Dovoljenje, kliknite gumb »Prijava« v zgornji plošči menija.

  2. Z zapisovanjem, uvozite želeni dokument PDF v FineReader, z gumbom »Prenesi datoteke«.

    Prepoznavanje besedila iz dokumenta PDF v spletni storitvi Abbyy Finereader na spletu

    Nato kliknite »Izberi številke strani« in navedite želeno vrzel, da prepoznate besedilo.

  3. Nato izberite jezike, ki so prisotne v dokumentu, format datoteke izida in kliknite na gumb "Prepoznajte".

    Začetek prepoznavanja besedila iz dokumenta PDF v Abbyy Finereader na spletu

  4. Po obdelavi, katerih trajanje je v celoti odvisno od količine dokumenta, lahko prenesete datoteko z besedilom z besedilnimi podatki preprosto s klikom na njeno ime.

    Prenos končnega dokumenta iz spletne storitve Abbyy Finereader na spletu

    Ali ga izvozite na eno od razpoložljivih storitev v oblaku.

Storitev je verjetno najbolj natančen algoritmi za prepoznavanje besedila na slikah in datotekah PDF. Toda na žalost je njegova brezplačna uporaba omejena na pet predelanih strani na mesec. Delati z več obsežnimi dokumenti, boste morali kupiti letno naročnino.

Če pa je funkcija OCR potrebna precej redko, je Abbyy Finereader Online odlična možnost, da izvleče besedilo iz majhnih datotek PDF.

Metoda 2: Brezplačno Online OCR

Enostavno in priročno besedilo digitalizacije besedila. Brez registracije, vir vam omogoča, da prepoznate 15 polne pdf strani na uro. Brezplačni OCR OCR v celoti sodeluje z dokumenti v 46 jezikih in brez avtorizacije, ki podpirajo tri izvozni besedila - DOCX, XLSX in TXT.

Pri registraciji uporabnik dobi priložnost, da obdeluje večstranske dokumente, vendar je brezplačno število teh strani omejeno na 50 enot.

Online Service Free Online OCR

  1. Prepoznati besedilo iz PDF kot "gosta", brez dovoljenja za vir, uporabite ustrezen obrazec na glavni strani spletnega mesta.

    Prepoznavanje PDF v Online Free Online OCR

    Izberite želeni dokument z gumbom Datoteka, podajte glavni jezik besedila, izhodni format, nato počakajte, da datoteko prenesete in kliknete pretvorbo.

  2. Na koncu procesa digitalizacije kliknite »Prenesite izhodno datoteko«, da shranite končni dokument z besedilom na računalniku.

    Nalaganje rezultatov prepoznavanja besedila s PDF iz Free Online OCR spletne storitve

Za pooblaščene uporabnike je zaporedje ukrepov nekoliko drugačno.

  1. Uporabite gumb "Registracija" ali "Login" v zgornjem meniju na plošči meni, da ustvarite brezplačen spletni račun OCR ali ga pojdite nanj.

    Ustvarjanje računa v Online Free Online OCR

  2. Po odobritvi v komisiji za priznanje, ki držite tipko "CTRL", iz predlaganega seznama izberite največ dva jezika izvora.

    Opredelitev jezikov izvornega dokumenta za prepoznavanje besedila v Free Online OCR

  3. Podajte nadaljnje parametre za ekstrakcijo besedila iz PDF in kliknite gumb Izberi datoteko, da prenesete dokument na storitev.

    Začetek prepoznavanja dokumentov PDF v spletnih storitvah Brezplačno OCR

    Potem, da nadaljujete s prepoznavanjem, kliknite »Pretvorba«.

  4. Na koncu obdelave dokumenta kliknite na povezavo, imenovano izhodno datoteko v ustreznem stolpcu.

    Prenos končne datoteke DOCX iz brezplačne spletne spletne storitve OCR

    Rezultat priznanja se takoj shrani v pomnilnik računalnika.

Če je potrebno, odstranite besedilo iz majhnega dokumenta PDF, je lahko varno za uporabo zgoraj opisanega orodja. Za delo z obsežnimi datotekami boste morali kupiti dodatne znake v prostem Online OCR ali zategnite na drugo rešitev.

3. način: novous

Popolnoma brezplačna storitev OCR, ki vam omogoča, da izvlečete besedilo iz skoraj vseh grafičnih in elektronskih dokumentov, kot sta DJVU in PDF. Vir ne uvede omejitve glede velikosti in števila prepoznavnih datotek, ne zahteva registracije in ponuja široko paleto povezanih funkcij.

NewOcs podpira 106 jezikov in lahko pravilno obdelujejo celo nizko kakovostne preglede dokumentov. Možno je ročno izbrati območje za prepoznavanje besedila na strani datoteke.

Spletna storitev NewOCR.

  1. Torej, lahko začnete delati z virom takoj, ne da bi bilo treba izvesti dodatna dejanja.

    Nalaganje datoteke PDF za prepoznavanje spletne storitve

    Na glavnem mestu je obrazec za uvoz dokumenta na spletno mesto. Če želite prenesti datoteko v NewOCR, uporabite gumb za izbiro datoteke v razdelku Izberi datoteko. Potem v polje "Jezik prepoznavanja", podajte enega ali več jezikov izvornega dokumenta, nato pa kliknite »Upload + OCR«.

  2. Navedite želeno nastavitve prepoznavanja, izberite želeno stran, da pridobite besedilo in kliknite gumb OCR.

    Nastavitev in začetek prepoznavanja besedila s PDF v spletni storitvi NewOCRO

  3. Pomaknite se po strani rahlo nižje in poiščite gumb »Download«.

    Prenesi se naučil v Besedilo NewOCR na računalniku

    Kliknite nanj in na spustnem seznamu izberite želeno obliko dokumenta za prenos. Po tem bo končana datoteka z ekstrahiranim besedilom prenesena v računalnik.

Orodje je priročno in dobro prepozna vse znake. Vendar pa je treba obdelavo vsake strani uvoženega dokumenta PDF sprožiti neodvisno in se prikaže v ločeni datoteki. Seveda lahko takoj kopirate rezultate prepoznavanja v odložišče in jih združite z drugimi.

Kljub temu, glede na zgoraj opisano odtenke, velike količine besedila, ki uporabljajo NewOCov, da izvlecite zelo težko. Z majhnimi datotekami, servisirajo "z bang."

Metoda 4: OCR.Space

Preprost in razumljiv vir za digitalizacijo besedila vam omogoča prepoznavanje dokumentov PDF in izhod rezultat v datoteki TXT. Število strani niso na voljo. Edina omejitev je velikost vhodnega dokumenta ne sme presegati 5 megabajtov.

Spletna storitev OCR.Space.

  1. Ni vam treba registrirati za delo z orodjem.

    Uvozi datoteko PDF v Online OCR.Space Service

    Kliknite na zgornjo povezavo in prenesite dokument PDF na spletno mesto iz računalnika z gumbom »Izberi datoteko« ali iz omrežja s sklicevanjem.

  2. V izbirnem seznamu jezika OCR izberite jezik uvoženega dokumenta.

    Vodenje procesa prepoznavanja dokumentov PDF v spletni storitvi OCR.Space

    Nato zaženite postopek prepoznavanja besedila s klikom na gumb "Start OCR!".

  3. Na koncu obdelave datotek glejte Rezultat v polje OCR'ed rezultat in kliknite »Prenesi«, da prenesete končni dokument TXT.

    Prenos rezultata prepoznavanja datoteke PDF iz spletne storitve OCR.Space

Če potrebujete samo izvleček besedila iz PDF in hkrati končno oblikovanje, ni pomembno sploh, OCR.Space je dobra izbira. Edini, dokument mora biti "enogovorno", saj priznanje dveh ali več jezikov hkrati v storitvi ni zagotovljeno.

Preberite tudi: finereader complimentary analogi

Ocenjevanje spletnih instrumentov, predstavljenih v članku, je treba opozoriti, da je Finereader na spletu iz Abbyyja najbolj natančen in kvalitativno z OCR funkcijo. Če ste pomembni za vas, je najvišja deformacija prepoznavanja besedila, je najbolje, da razmislite posebej to možnost. Vendar pa bodo najverjetneje plačali zanj.

Če potrebujete digitalizacijo majhnih dokumentov in ste pripravljeni na pravilno pravilne napake v storitvah, je priporočljivo uporabiti novous, OCR.Space ali Free Online OCR.

Preberi več