Nola aitortu PDF fitxategia linean

Anonim

Nola aitortu PDF fitxategia linean

Ezin duzu testua PDF fitxategitik kendu beti kopia metodoa erabiliz. Sarritan, dokumentu horien orriak paperezko aukeren eskaneatutako edukiak dira. Fitxategiak testu-datu guztiz ederrak bihurtzeko, programa bereziak erabiltzen dira karaktere optikoen aitorpenarekin (OCR) funtzioarekin.

Erabakiak oso konplexuak dira salmentetan eta, beraz, diru asko dago. Testua aitortzeko pdfarekin aldian-aldian sortzen baduzu, nahiko komenigarria izango da programa egokia erostea. Kasu bakanetarako, antzeko ezaugarriak dituzten lineako zerbitzuetako bat logikoagoa izango da.

Nola aitortu testua PDFarekin linean

Jakina, OCR lineako zerbitzuen ezaugarri multzo bat, mahaigaineko soluzio osoekin alderatuta, mugatuagoa da. Baina posible da horrelako baliabideekin lan egitea edo guztiz doakoa edo kuota sinbolikoa lortzeko. Gauza nagusia da bere zeregin nagusiarekin, hots, testua aitortzearekin batera, dagokion web aplikazioek ere aurre egingo diete.

1. metodoa: Abbyy Finereader linean

Zerbitzuaren garatzaileen konpainia dokumentuen aitorpen optikoaren arloan liderretako bat da. Abbyy Finereader Windows eta Mac-rako irtenbide indartsua da PDF testu batera bihurtzeko eta horrekin lan egiteko.

Programaren web analogikoa, noski, baxuagoa da funtzionaltasunagatik. Hala ere, zerbitzuak 190 hizkuntzatan baino gehiagotan azterketak eta argazkietatik testua antzeman dezake. Onartutako PDF fitxategiaren bihurketa hitzera, excel dokumentuetara eta abar.

Lineako zerbitzua Abbyy Finereader konektatuta

  1. Tresna batekin lanean hasi aurretik, sortu kontu bat gunean edo hasi saioa Facebook, Google edo Microsoft kontuarekin.

    Abbyy Finereader lineako zerbitzuan izena ematea linean

    Baimenaren leihora joateko, egin klik "Sartu" botoian goiko menuko panelean.

  2. Sartu, inportatu nahi duzun PDF dokumentua Finereader-en, "Deskargatu fitxategiak" botoia erabiliz.

    Testua aitortzeko PDF dokumentua Abbyy Finereader lineako lineako zerbitzuan konektatuta

    Ondoren, egin klik "Hautatu orrialde zenbakiak" eta zehaztu nahi duzun hutsunea testua aitortzeko.

  3. Ondoren, hautatu dokumentuan dauden hizkuntzak, emaitza fitxategi formatua eta egin klik "Aintzat" botoian.

    Abbyy Finereader linean PDF dokumentuaren testuaren aitorpena hastea

  4. Prozesatu ondoren, horren iraupena dokumentu kopuruaren araberakoa da erabat, prestatutako fitxategia deskargatu dezakezu testu-datuekin, bere izenean klik eginez.

    Abbyy Finereader lineako zerbitzuari bukatutako dokumentua deskargatzen konektatuta

    Bai esportatu eskuragarri dagoen hodeiko zerbitzuetako batera.

Zerbitzua da seguruenik, irudien eta PDF fitxategien inguruko testu aitorpen algoritmo zehatzena. Baina, zoritxarrez, bere erabilera librea hilean bost prozesatutako orrialdeetara mugatzen da. Dokumentu bolumen handiagoekin lan egiteko, urteko harpidetza erosi beharko duzu.

Hala ere, OCR funtzioa nahiko gutxitan bada, Abbyy Finereader linean aukera bikaina da testua PDF fitxategi txikietatik ateratzeko.

2. metodoa: Doako lineako OCR

Testu digitalizatzaile sinplea eta erosoa. Izena eman beharrik gabe, baliabideak orduko 15 PDF orrialde osoak aitortzeko aukera ematen du. Lineako doako OCR-k 46 hizkuntzatan dokumentuekin funtzionatzen du eta baimenik gabe hiru testu esportazio onartzen ditu - DOCX, XLSX eta TXT.

Izena ematean, erabiltzaileak orrialde anitzeko dokumentuak prozesatzeko aukera lortzen du, ordea, orrialde hauen doako kopurua 50 unitateetara mugatuta dago.

Lineako zerbitzua doako lineako OCR

  1. PDF-tik "gonbidatu" gisa aitortzea, baliabidearen baimenik gabe, erabili gunearen orrialde nagusian.

    PDF aitorpena linean doako lineako OCR

    Aukeratu nahi duzun dokumentua fitxategiaren botoia erabiliz, zehaztu testuaren hizkuntza nagusia, irteera formatuan, eta, ondoren, itxaron fitxategia deskargatu eta egin klik Bihurketarako.

  2. Digitizazio prozesuaren amaieran, egin klik "Irteera fitxategia" amaitu dokumentua ordenagailuko testuarekin gordetzeko.

    Testuaren aitorpena kargatzen du PDF-rekin lineako OCR lineako zerbitzu librean

Baimendutako erabiltzaileentzat, ekintzen sekuentzia zertxobait desberdina da.

  1. Erabili "Erregistratu" edo "Sartu" botoia goiko menuko panelean, hurrenez hurren, sortu doako lineako OCR kontu bat edo joan.

    Lineako lineako OCR linean kontu bat sortzen

  2. Aitorpen panelean baimena eman ondoren, "Ctrl" tekla mantenduz, hautatu iturburu dokumentuaren bi hizkuntza proposatutako zerrendatik.

    Testua aitortzeko iturburu dokumentuaren hizkuntzen definizioa lineako OCR doan

  3. Zehaztu testu-erauzketa parametro gehiago PDF-tik eta egin klik Aukeratu Fitxategiaren botoian dokumentua zerbitzura deskargatzeko.

    PDF dokumentuaren aitorpena lineako zerbitzuan doan lineako OCR

    Ondoren, aitorpenarekin aurrera egin, egin klik "Bihur".

  4. Dokumentuaren prozesamenduaren amaieran, egin klik irteerako fitxategian izeneko estekan dagokion zutabean.

    Amaitutako docx fitxategia doako lineako OCR lineako zerbitzutik deskargatzea

    Aitorpenaren emaitza berehala gordeko da zure ordenagailuaren memorian.

Beharrezkoa bada, kendu PDF dokumentu txiki bateko testua goian deskribatutako tresnaren erabilerara joateko segurua izan daiteke. Fitxategi bolumenekin lan egiteko, karaktere osagarriak erosi beharko dituzu lineako OCR edo beste irtenbide batera joateko.

3. metodoa: NewoC

Guztiz doako OCR zerbitzua DJVU eta PDF bezalako dokumentu grafiko eta elektronikoetatik testua ateratzeko aukera ematen du. Baliabideak ez ditu murrizketarik ezartzen, tamaina handiko fitxategien eta kopuruari buruzko murrizketarik ezartzen, ez du erregistratzerik behar eta erlazionatutako funtzio ugari eskaintzen ditu.

Newoc-ek 106 hizkuntza onartzen ditu eta kalitate baxuko dokumentuen azterketak ere behar bezala prozesatu ditzake. Posible da testu-orrian testu aitorpen gunea eskuz aukeratzea.

Lineako zerbitzua NewoC

  1. Beraz, berehala hasi daiteke baliabide batekin lanean, ekintza gehigarriak egin beharrik gabe.

    PDF fitxategia kargatzen lineako zerbitzua NewoC

    Orrialde nagusian dokumentu bat gunera inportatzeko inprimakia dago. Fitxategia Newoc-en deskargatzeko, erabili Aukeratu fitxategiaren botoia Aukeratu zure fitxategi atalean. Ondoren, "aitorpen-hizkuntza (k) eremuan, zehaztu iturri bat edo gehiago dokumentu hizkuntza bat edo gehiago, eta egin klik" Kargatu + OCR ".

  2. Zehaztu hobetsitako aitorpen ezarpenak, hautatu nahi duzun orria testua berreskuratzeko eta egin klik OCR botoian.

    Testua aitortzea PDF-rekin ezarriz eta abiarazteko lineako zerbitzuarekin

  3. Mugitu orrialdera apur bat txikiagoa eta aurkitu "Deskargatu" botoia.

    Deskargatu NewoCr testuan ikasitakoa ordenagailuan

    Egin klik gainean eta goitibeherako zerrendan, hautatu deskargatu nahi duzun dokumentuaren nahi duzun formatua. Horren ondoren, ateratako testua duen fitxategia zure ordenagailura deskargatuko da.

Tresna komenigarria da eta nahiko ondo ezagutzen du pertsonaia guztiak. Hala ere, inportatutako PDF dokumentuaren orrialde bakoitzaren prozesamendua modu independentean jarri behar da martxan eta beste fitxategi batean bistaratzen da. Ezin duzu, noski, bereganatu errekonozimenduaren emaitzak arbelean eta konbinatu besteekin.

Hala ere, goian deskribatutako ñabardura ikusita, testu bolumen handiak, NewoCrek oso zailak ateratzeko. Fitxategi txikiekin, zerbitzua "bang batekin" kopiatzen da.

4. metodoa: OCR.Space

Testu digitalizaziorako baliabide sinple eta ulergarria PDF dokumentuak aitortzea eta emaitza txt fitxategian ateratzea ahalbidetzen du. Ez dira orrialde kopuruan mugarik ematen. Muga bakarra sarrerako dokumentuaren tamainak ez du 5 megabyte baino gehiago izan behar.

Lineako zerbitzua OCR.Space

  1. Ez duzu erregistratu behar tresnarekin lan egiteko.

    Inportatu PDF fitxategia OCR.Space zerbitzuan

    Egin klik goiko estekan eta deskargatu PDF dokumentua ordenagailutik ordenagailutik "Aukeratu fitxategia" botoia edo saretik erreferentzia bidez.

  2. Aukeratu OCR Hizkuntza goitibeherako zerrendan, hautatu inportatutako dokumentuaren hizkuntza.

    PDF dokumentuak aitortzeko prozesua exekutatzen OCR.Space lineako zerbitzuan

    Ondoren, exekutatu testua aitortzeko prozesua "Hasi OCR!" Botoian klik eginez.

  3. Fitxategiaren prozesamenduaren amaieran, ikusi emaitza OCR'ed Emaitza eremuan eta egin klik "Deskargatu" amaitu txt dokumentua deskargatzeko.

    OCR.Space lineako zerbitzuaren PDF fitxategiaren aitorpenaren emaitza deskargatzea

Testua PDFtik atera behar baduzu eta, aldi berean, azken formatua ez da batere garrantzitsua, OCR.Space aukera ona da. Bakarka, dokumentuak "hitzaldi bakarreko" izan behar du, zerbitzuan aldi berean bi hizkuntza edo gehiago aitortzea ez baita ematen.

Irakurri ere: Finereader analogiak osagarriak

Artikuluan aurkeztutako lineako tresnak ebaluatzea Kontuan izan behar da Finereader Abbyy-tik Finereader da OCR funtzioarekin zehatza eta kualitatiboena dela. Zuretzat garrantzitsua bazara, testuaren aitorpenaren gehieneko deformazioari dagokionez, onena da aukera hau zehazki kontuan hartzea. Baina ziurrenik ordainduko dute.

Dokumentu txikien digitalizazioa behar baduzu eta zerbitzu akatsak behar bezala zuzentzeko prest zaude, komeni da Newoc, OCR.Space edo doako OCR erabiltzea.

Irakurri gehiago