Hindi mo palaging alisin ang teksto mula sa PDF file gamit ang karaniwang paraan ng kopya. Kadalasan, ang mga pahina ng naturang mga dokumento ay ang mga na-scan na nilalaman ng kanilang mga pagpipilian sa papel. Upang i-convert ang naturang mga file sa ganap na mae-edit na data ng teksto, ang mga espesyal na programa ay ginagamit sa function ng Optical Character Recognition (OCR).
Ang mga naturang desisyon ay lubhang kumplikado sa mga benta at, samakatuwid, mayroong malaking pera. Kung ang pangangailangan para sa pagkilala ng teksto sa PDF ay regular mong lumabas, ito ay lubos na maipapayo upang bilhin ang naaangkop na programa. Para sa mga bihirang kaso, ang isa sa mga magagamit na serbisyong online na may katulad na mga tampok ay magiging mas lohikal.
Paano makilala ang teksto sa PDF online
Siyempre, ang isang hanay ng mga tampok ng OCR online na mga serbisyo, kumpara sa mga ganap na solusyon sa desktop, ay mas limitado. Ngunit posible na magtrabaho kasama ang mga mapagkukunan o ganap na libre o para sa isang simbolikong bayad. Ang pangunahing bagay ay ang pangunahing gawain nito, samakatuwid, sa pagkilala sa teksto, ang kaukulang mga aplikasyon sa web ay makayanan din.Paraan 1: Abbyy Finereader online
Ang kumpanya ng developer ng serbisyo ay isa sa mga lider sa larangan ng optical recognition ng mga dokumento. Ang ABBYY Finereader para sa Windows at Mac ay isang malakas na solusyon para sa pag-convert ng PDF sa teksto at higit pang gumagana dito.
Ang web analogue ng programa, siyempre, ay mas mababa sa ito sa pamamagitan ng pag-andar. Gayunpaman, makilala ng serbisyo ang teksto mula sa pag-scan at mga litrato sa higit sa 190 mga wika. Suportadong PDF file conversion sa Word, Excel Documents, atbp.
Online na serbisyo abbyy finereader online
- Bago ka magsimulang magtrabaho kasama ang isang tool, lumikha ng isang account sa site o mag-log in gamit ang Facebook, Google o Microsoft account.
Upang pumunta sa window ng awtorisasyon, i-click ang pindutang "Login" sa tuktok na panel ng menu.
- Sa pamamagitan ng pag-log in, i-import ang nais na dokumentong PDF sa Finereader, gamit ang pindutang "I-download ang Mga File".
Pagkatapos ay i-click ang "Piliin ang mga numero ng pahina" at tukuyin ang nais na puwang upang makilala ang teksto.
- Susunod, piliin ang mga wika na nasa dokumento, ang format ng resulta ng resulta at mag-click sa pindutang "Kilalanin".
- Pagkatapos ng pagproseso, ang tagal ng kung saan ay nakasalalay sa kabuuan sa halaga ng dokumento, maaari mong i-download ang isang handa na file na may data ng teksto sa pamamagitan lamang ng pag-click sa pangalan nito.
Alinman i-export ito sa isa sa mga magagamit na serbisyo sa ulap.
Ang serbisyo ay marahil ang pinaka-tumpak na algorithm ng pagkilala ng teksto sa mga larawan at mga PDF file. Ngunit, sa kasamaang palad, ang libreng paggamit nito ay limitado sa limang-proseso na pahina bawat buwan. Upang magtrabaho nang may mas malaking mga dokumento, kailangan mong bumili ng taunang subscription.
Gayunpaman, kung ang OCR function ay kinakailangan medyo bihira, Abbyy Finereader online ay isang mahusay na pagpipilian upang kunin ang teksto mula sa maliit na mga PDF file.
Paraan 2: Libreng Online OCR
Simple at maginhawang text digitizing text. Nang walang pangangailangan na magparehistro, ang mapagkukunan ay nagbibigay-daan sa iyo upang makilala ang 15 buong PDF na mga pahina kada oras. Libreng online OCR Ganap na gumagana sa mga dokumento sa 46 mga wika at walang awtorisasyon ay sumusuporta sa tatlong mga export ng teksto - DOCX, XLSX at TXT.
Kapag nagrerehistro, ang gumagamit ay nakakakuha ng pagkakataon na iproseso ang mga dokumento ng multi-pahina, gayunpaman, ang libreng bilang ng mga pahinang ito ay limitado sa 50 yunit.
Online na serbisyo Libreng Online OCR.
- Upang makilala ang teksto mula sa PDF bilang isang "Guest", nang walang pahintulot sa mapagkukunan, gamitin ang naaangkop na form sa pangunahing pahina ng site.
Piliin ang nais na dokumento gamit ang pindutan ng file, tukuyin ang pangunahing wika ng teksto, format ng output, pagkatapos ay maghintay para sa file upang i-download at i-click ang I-convert.
- Sa dulo ng proseso ng pag-digitize, i-click ang "I-download ang Output File" upang i-save ang natapos na dokumento gamit ang teksto sa computer.
Para sa mga awtorisadong gumagamit, ang pagkakasunud-sunod ng mga pagkilos ay medyo naiiba.
- Gamitin ang pindutan ng "Magrehistro" o "Login" sa tuktok na menu panel sa, ayon sa pagkakabanggit, lumikha ng isang libreng online na OCR account o pumunta dito.
- Pagkatapos ng awtorisasyon sa panel ng pagkilala, hawak ang "CTRL" key, piliin ang hanggang sa dalawang wika ng source document mula sa ipinanukalang listahan.
- Tukuyin ang karagdagang mga parameter ng pagkuha ng teksto mula sa PDF at i-click ang pindutan ng Piliin ang File upang i-download ang dokumento sa serbisyo.
Pagkatapos, upang magpatuloy sa pagkilala, i-click ang "I-convert".
- Sa dulo ng pagproseso ng dokumento, mag-click sa link na tinatawag na output file sa naaangkop na haligi.
Ang resulta ng pagkilala ay agad na mai-save sa memorya ng iyong computer.
Kung kinakailangan, alisin ang teksto mula sa isang maliit na dokumento ng PDF ay maaaring maging ligtas upang magamit ang paggamit ng tool na inilarawan sa itaas. Upang magtrabaho sa mga voluminous file, kailangan mong bumili ng karagdagang mga character sa libreng online OCR o resort sa isa pang solusyon.
Paraan 3: Newocr.
Ganap na libreng serbisyo ng OCR na nagbibigay-daan sa iyo upang kunin ang teksto mula sa halos anumang mga graphic at elektronikong dokumento tulad ng DJVU at PDF. Ang mapagkukunan ay hindi nagpapataw ng mga paghihigpit sa laki at bilang ng mga nakikilala na mga file, ay hindi nangangailangan ng pagpaparehistro at nag-aalok ng malawak na hanay ng mga kaugnay na function.
Sinusuportahan ng Newrought ang 106 mga wika at maaaring maayos na iproseso ang kahit na mababang-kalidad na pag-scan ng mga dokumento. Posible na manu-manong piliin ang lugar ng pagkilala ng teksto sa pahina ng file.
Online Service Newocr.
- Kaya, maaari kang magsimulang magtrabaho nang may mapagkukunan kaagad, nang hindi nangangailangan ng dagdag na pagkilos.
Tama sa pangunahing pahina mayroong isang form para sa pag-import ng isang dokumento sa site. Upang i-download ang file sa bagong, gamitin ang pindutan ng Piliin ang file sa Piliin ang seksyon ng iyong file. Pagkatapos ay sa patlang na "(mga) wika ng pagkilala", tukuyin ang isa o higit pang mga wika ng pinagmulan ng dokumento, at pagkatapos ay i-click ang "Upload + OCR".
- Tukuyin ang iyong ginustong mga setting ng pagkilala, piliin ang nais na pahina upang makuha ang teksto at mag-click sa pindutan ng OCR.
- Mag-scroll pababa sa pahina bahagyang mas mababa at hanapin ang "I-download" na pindutan.
Mag-click dito at sa drop-down na listahan, piliin ang ninanais na format ng dokumento upang i-download. Pagkatapos nito, maa-download ang tapos na file na may nakuha na teksto sa iyong computer.
Ang tool ay maginhawa at lubos na kinikilala ang lahat ng mga character. Gayunpaman, ang pagproseso ng bawat pahina ng na-import na dokumentong PDF ay dapat na mailunsad nang nakapag-iisa at ipinapakita sa isang hiwalay na file. Maaari mong, siyempre, agad na kopyahin ang mga resulta ng pagkilala sa clipboard at pagsamahin ang mga ito sa iba.
Gayunpaman, binigyan ang nayon na inilarawan sa itaas, malalaking volume ng teksto na gumagamit ng bagongokretong napakahirap. Gamit ang maliit na mga file, ang serbisyo ay nag-cop "na may putok."
Paraan 4: OCR.Space.
Ang isang simple at maliwanag na mapagkukunan para sa pag-digitize ng teksto ay nagbibigay-daan sa iyo upang makilala ang mga dokumentong PDF at i-output ang resulta sa txt file. Walang mga limitasyon sa bilang ng mga pahina ay hindi ibinigay. Ang tanging limitasyon ay ang sukat ng dokumento ng input ay hindi dapat lumagpas sa 5 megabytes.
Online na serbisyo ocr.space.
- Hindi mo kailangang magparehistro upang gumana sa tool.
I-click lamang ang link sa itaas at i-download ang dokumentong PDF sa site mula sa computer gamit ang pindutang "Piliin ang File" o mula sa network sa pamamagitan ng sanggunian.
- Sa listahan ng drop-down na listahan ng OCR, piliin ang wika ng na-import na dokumento.
Pagkatapos ay patakbuhin ang proseso ng pagkilala ng teksto sa pamamagitan ng pag-click sa pindutan ng "Start OCR!".
- Sa pagtatapos ng pagpoproseso ng file, tingnan ang resulta sa field ng resulta ng OCR'ed at i-click ang "I-download" upang i-download ang natapos na dokumento ng TXT.
Kung kailangan mo lamang i-extract ang teksto mula sa PDF at sa parehong oras ang huling pag-format ito ay hindi mahalaga sa lahat, OCR.Space ay isang mahusay na pagpipilian. Ang isa lamang, ang dokumento ay dapat na "single-speaking", dahil ang pagkilala ng dalawa o higit pang mga wika nang sabay-sabay sa serbisyo ay hindi ibinigay.
Basahin din: finereader komplimentaryong analogues.
Ang pagsusuri sa mga online na instrumento na ipinakita sa artikulo ay dapat na nabanggit na ang finereader online mula sa ABBYY ay pinaka-tumpak at may kakayahang mag-function ng OCR. Kung mahalaga ka para sa iyo ang pinakamataas na kapinsalaan ng pagkilala ng teksto, pinakamahusay na isaalang-alang ang partikular na pagpipiliang ito. Ngunit malamang na magbayad sila para sa kanya.
Kung kailangan mo ng digitization ng mga maliliit na dokumento at handa ka nang wastong tamang mga error sa serbisyo, maipapayo na gamitin ang mga bagong, ocr.space o libreng online na OCR.