Kaip atpažinti PDF failą internete

Anonim

Kaip atpažinti PDF failą internete

Jūs ne visada galite pašalinti tekstą iš PDF failo naudodami įprastą kopijavimo metodą. Dažnai tokių dokumentų puslapiai yra nuskaitytas savo popieriaus parinkčių turinys. Jei norite konvertuoti tokius failus į visiškai redaguojamus tekstinius duomenis, specialios programos naudojamos naudojant optinio simbolių atpažinimo (OCR) funkciją.

Tokie sprendimai yra labai sudėtingi pardavimų ir todėl yra daug pinigų. Jei teksto pripažinimo su PDF turite reguliariai, tai bus gana patartina įsigyti atitinkamą programą. Retais atvejais viena iš galimų internetinių paslaugų su panašiomis funkcijomis bus logiškesnė.

Kaip atpažinti tekstą su PDF internetu

Žinoma, OCR internetinių paslaugų funkcijų rinkinys, palyginti su visavertiniais darbalaukio sprendimais, yra labiau ribota. Tačiau galima dirbti su tokiais ištekliais arba visiškai nemokamai arba už simbolinį mokestį. Svarbiausia yra tai, kad su savo pagrindine užduotimi, būtent su teksto pripažinimu, atitinkamos interneto programos taip pat bus susidoroti.

1 metodas: ABBYY FineReader internete

Paslaugų kūrėjo kompanija yra viena iš lyderių optinio pripažinimo dokumentų srityje. "ABBYY FineReader" "Windows" ir "Mac" yra galingas sprendimas konvertuoti PDF į tekstą ir toliau dirbti su juo.

Žinoma, žiniatinklio analogas, žinoma, yra prastesnis už funkcionalumą. Nepaisant to, paslauga gali atpažinti tekstą nuo nuskaito ir nuotraukų daugiau nei 190 kalbų. Palaikoma PDF failo konvertavimas į Word, Excel dokumentus ir kt.

Online Service ABBYY FineReader Online

  1. Prieš pradėdami dirbti su įrankiu, sukurkite paskyrą svetainėje arba prisijunkite su "Facebook", "Google" arba "Microsoft" paskyroje.

    Registracija internetinėje paslaugoje ABBYY FineReader internete

    Norėdami pereiti prie autorizacijos lango, viršutiniame meniu skydelyje spustelėkite mygtuką "Prisijungti".

  2. Prisijungdami, importuokite norimą PDF dokumentą "FineReader", naudodami mygtuką "Atsisiųsti failus".

    Teksto pripažinimas iš PDF dokumento internetinėje paslaugoje ABBYY FineReader internete

    Tada spustelėkite "Pasirinkti puslapių numerius" ir nurodykite norimą atotrūkį, kad atpažintumėte tekstą.

  3. Toliau pasirinkite dokumente esančias kalbas, rezultatų failo formatą ir spustelėkite mygtuką "Atpažinti".

    Teksto pripažinimo pradžia iš PDF dokumento ABBYY FineReader internete

  4. Po apdorojimo, kurių trukmė priklauso nuo dokumento sumos, galite atsisiųsti paruoštą failą su teksto duomenimis, tiesiog spustelėdami jo pavadinimą.

    Baigiamojo dokumento atsisiuntimas iš interneto paslaugos ABBYY FineReader internete

    Arba eksportuoti jį į vieną iš galimų debesų paslaugų.

Paslauga tikriausiai yra tiksliausi teksto atpažinimo algoritmai vaizdų ir PDF failų. Tačiau, deja, jo laisvas naudojimas yra apribotas iki penkių perdirbtų puslapių per mėnesį. Norėdami dirbti su didesniais dokumentais, turėsite įsigyti metinį prenumeratą.

Tačiau, jei OCR funkcija reikalinga gana retai, "ABBYY FineReader Online" yra puiki galimybė išgauti tekstą iš mažų PDF failų.

2 metodas: Nemokama Online OCR

Paprastas ir patogus teksto skaitmeninimas. Be poreikio registruotis, šaltinis leidžia jums atpažinti 15 pilnų PDF puslapių per valandą. Nemokama Online OCR visiškai veikia su dokumentais 46 kalbomis ir be leidimo Palaiko tris teksto eksportą - DOCX, XLSX ir TXT.

Registruodamiesi, vartotojas gauna galimybę apdoroti daugelio puslapių dokumentus, tačiau laisvas šių puslapių skaičius yra apribotas iki 50 vienetų.

Internetinė paslauga Nemokama Online OCR

  1. Norėdami atpažinti tekstą iš PDF kaip "svečiu", be leidimo dėl išteklių, naudokite atitinkamą formą pagrindiniame puslapyje svetainėje.

    PDF atpažinimas internete nemokamai internete OCR

    Pasirinkite norimą dokumentą naudodami failo mygtuką, nurodykite pagrindinę teksto kalbą, išvesties formatą, tada palaukite, kol failas atsisiųstų ir spustelėkite Konvertuoti.

  2. Skaitmeninimo proceso pabaigoje spustelėkite "Atsisiųsti išvesties failą", kad išsaugotumėte gatavą dokumentą su tekstu kompiuteryje.

    Įkeliant teksto atpažinimo rezultatus su PDF iš Free Online OCR internetinė paslauga

Įgaliuoju naudotojais veiksmų seka yra šiek tiek kitokia.

  1. Viršutiniame meniu skydelyje naudokite "Registruotis" arba "Prisijungti" mygtuką, atitinkamai sukurkite nemokamą internetinę OCR paskyrą arba eikite į jį.

    Sukurti paskyrą internete nemokamai internete OCR

  2. Po autorizacijos pripažinimo skydelyje, laikydami klavišą "Ctrl", pasirinkite iki dviejų kalbų šaltinio dokumento iš siūlomo sąrašo.

    Šaltinio dokumento kalbų apibrėžimas teksto atpažinimui nemokamai internete OCR

  3. Nurodykite papildomus teksto ištraukimo parametrus iš PDF ir spustelėkite mygtuką Pasirinkti failą, kad galėtumėte atsisiųsti dokumentą į paslaugą.

    PDF dokumento pripažinimo pradžia internetinėje paslaugoje Nemokama Online OCR

    Tada, jei norite tęsti pripažinimą, spustelėkite "Konvertuoti".

  4. Dokumento apdorojimo pabaigoje spustelėkite nuorodą, pavadintą "Išvesties failą atitinkamame stulpelyje.

    Baigtos docx failo atsisiuntimas iš nemokamo Online OCR internetinės paslaugos

    Pripažinimo rezultatas bus nedelsiant išsaugotas jūsų kompiuterio atmintyje.

Jei reikia, pašalinkite tekstą iš mažo PDF dokumento gali būti saugu pasinaudoti pirmiau aprašyto įrankio naudojimu. Norėdami dirbti su dideliais failais, turėsite įsigyti papildomų simbolių nemokamame internetiniame OCR arba kurorte į kitą sprendimą.

3 metodas: NewOcroc

Visiškai nemokama OCR paslauga, leidžianti išgauti tekstą iš beveik bet kokių grafinių ir elektroninių dokumentų, pvz., Djvu ir PDF. Ištekliai nenustato pripažintinų failų dydžio ir skaičiaus apribojimų, nereikalauja registracijos ir siūlo platų susijusių funkcijų spektrą.

NewOcs palaiko 106 kalbas ir gali teisingai apdoroti net žemos kokybės nuskaito dokumentus. Galima rankiniu būdu pasirinkti teksto atpažinimo zoną failo puslapyje.

Online Service NewOcr.

  1. Taigi, jūs galite pradėti dirbti su ištekliais nedelsiant, nereikia atlikti papildomų veiksmų.

    Kaip atpažinti PDF failą internete 7737_12

    Teisė pagrindiniame puslapyje yra dokumento importui į svetainę. Norėdami atsisiųsti failą NewOCR, naudokite pasirinkimo failo mygtuką pasirinkite failą skyriuje. Tada lauke "atpažinimo kalba (-ų)" nurodykite vieną ar daugiau šaltinių dokumentų kalbų, tada spustelėkite "Įkelti + OCR".

  2. Nurodykite pageidaujamus atpažinimo nustatymus, pasirinkite norimą puslapį, kad gautumėte tekstą ir spustelėkite mygtuką OCR.

    Kaip atpažinti PDF failą internete 7737_13

  3. Slinkite žemyn puslapyje šiek tiek mažesnis ir suraskite mygtuką "Atsisiųsti".

    Kaip atpažinti PDF failą internete 7737_14

    Spustelėkite jį ir išskleidžiamajame sąraše pasirinkite norimą dokumento formatą. Po to baigtas failas su ekstrahuotu tekstu bus atsisiųstas į jūsų kompiuterį.

Šis įrankis yra patogus ir gana gerai atpažįsta visus simbolius. Tačiau kiekvieno importuojamo PDF dokumento puslapio apdorojimas turi būti pradėtas atskirai ir rodomas atskirame faile. Žinoma, galite nedelsiant nukopijuoti pripažinimo rezultatus į iškarpinę ir sujungti juos su kitais.

Nepaisant to, atsižvelgiant į pirmiau aprašytą niuansą, dideli teksto kiekiai, naudojant NewOCR, kad išgautų labai sunku. Su mažais failais, paslauga susiduria su sprogimu. "

4 metodas: OCR.Space

Paprastas ir suprantamas teksto skaitmeninimo šaltinis leidžia atpažinti PDF dokumentus ir išvesties rezultatą txt faile. Nėra jokių apribojimų puslapių skaičius nėra numatyta. Vienintelis apribojimas yra įvesties dokumento dydis neturėtų viršyti 5 megabaitų.

Internetinė paslauga OCR.Space.

  1. Jums nereikia užsiregistruoti dirbant su įrankiu.

    Importuoti PDF failą internete OCR.Space Service

    Tiesiog spustelėkite aukščiau esančią nuorodą ir atsisiųskite PDF dokumentą į svetainę iš kompiuterio naudodami mygtuką "Pasirinkti failą" arba iš tinklo pagal nuorodą.

  2. Išskleidžiamajame sąraše "OCR" kalba pasirinkite importuojamo dokumento kalbą.

    PDF dokumentų atpažinimo proceso veikimas internetinėje paslaugoje OCR.Space

    Tada paleiskite teksto atpažinimo procesą spustelėję mygtuką "Pradėti OCR!".

  3. Failų apdorojimo pabaigoje žr. OCR'ed rezultatų lauko rezultatus ir spustelėkite "Atsisiųsti", kad galėtumėte atsisiųsti baigtą TXT dokumentą.

    PDF failo atpažinimo rezultato atsisiuntimas iš OCR.Space internetinės paslaugos

Jei tiesiog reikia išgauti tekstą iš PDF ir tuo pačiu metu galutinio formatavimo jis nėra svarbus, OCR.Space yra geras pasirinkimas. Vienintelis, dokumentas turi būti "vieno kalbėjimo", nes iš dviejų ar daugiau kalbų pripažinimas tuo pačiu metu paslaugoje nėra pateikta.

Taip pat perskaitykite: "FineReader" nemokami analogai

Vertinant straipsnyje pateiktus internetines priemones reikėtų pažymėti, kad FineReader internete iš ABBYY yra tiksliausia ir kokybiškai su OCR funkcija. Jei esate svarbus jums maksimali deformacija teksto pripažinimo, ji yra geriausia apsvarstyti konkrečiai šią parinktį. Bet jie greičiausiai užėmė už jį.

Jei jums reikia smulkių dokumentų skaitmeninimo ir esate pasiruošę teisingai teisingai atlikti paslaugų klaidas, patartina naudoti NewOcR.Space arba Nemokama Online OCR.

Skaityti daugiau