Slik gjenkjenner du PDF-fil på nettet

Anonim

Slik gjenkjenner du PDF-fil på nettet

Du kan ikke alltid fjerne teksten fra PDF-filen ved hjelp av den vanlige kopimetoden. Ofte er sidene i slike dokumenter det skannede innholdet i deres papiralternativer. For å konvertere slike filer til fullt redigerbare tekstdata, brukes spesielle programmer med OCR-funksjonen for optisk tegngjenkjenning (OCR).

Slike beslutninger er svært komplekse i salget, og derfor er det betydelige penger. Hvis behovet for tekstgjenkjenning med PDF du oppstår regelmessig, vil det være ganske tilrådelig å kjøpe det aktuelle programmet. For sjeldne tilfeller vil en av de tilgjengelige online-tjenestene med lignende funksjoner være mer logiske.

Slik gjenkjenner du tekst med PDF Online

Selvfølgelig er et sett med funksjoner i OCR-online-tjenester, sammenlignet med fullverdige skrivebordsløsninger, mer begrenset. Men det er mulig å jobbe med slike ressurser eller helt gratis eller for en symbolsk avgift. Det viktigste er at med hovedoppgaven, nemlig med anerkjennelsen av teksten, vil de tilsvarende webapplikasjonene også takle.

Metode 1: Abbyy FineReader Online

Servicen Developer Company er en av lederne innen optisk anerkjennelse av dokumenter. Abbyy FineReader for Windows og Mac er en kraftig løsning for å konvertere PDF til tekst og videre arbeid med den.

Webanalogen av programmet, selvfølgelig, er dårligere enn det med funksjonalitet. Likevel kan tjenesten gjenkjenne teksten fra skanninger og fotografier på mer enn 190 språk. Støttet PDF-filkonvertering til Word, Excel-dokumenter, etc.

Online Service Abbyy FineReader Online

  1. Før du begynner å jobbe med et verktøy, oppretter du en konto på nettstedet eller logg inn med Facebook, Google eller Microsoft-kontoen.

    Registrering i Online Service Abbyy FineReader Online

    Hvis du vil gå til autorisasjonsvinduet, klikker du på "Logg inn" -knappen i toppmenyen.

  2. Ved å logge inn, importer ønsket PDF-dokument i FineReader, ved hjelp av knappen "Last ned filer".

    Tekstgjenkjenning fra PDF-dokumentet i online-tjenesten Abbyy FineEader online

    Klikk deretter på "Velg sidenumre" og angi ønsket gap for å gjenkjenne tekst.

  3. Deretter velger du språkene som er tilstede i dokumentet, utfallsfilformatet og klikker på "gjenkjenne" -knappen.

    Start av tekstgjenkjenning fra PDF-dokument i Abbyy FineReader Online

  4. Etter behandling, avhenger varigheten helt avhengig av mengden dokument, kan du laste ned en ferdig fil med tekstdata ved ganske enkelt ved å klikke på navnet.

    Laster ned et ferdig dokument fra online-tjenesten Abbyy FineReader Online

    Enten eksporter den til en av de tilgjengelige Cloud Services.

Tjenesten er trolig den mest nøyaktige tekstgjenkjenningsalgoritmer på bilder og PDF-filer. Men dessverre er gratis bruk begrenset til fem-behandlede sider per måned. For å jobbe med flere voluminøse dokumenter, må du kjøpe et årlig abonnement.

Men hvis OCR-funksjonen er nødvendig, er ABBYY FineReader Online et utmerket alternativ for å trekke ut tekst fra små PDF-filer.

Metode 2: Gratis Online OCR

Enkel og praktisk tekst digitaliserende tekst. Uten behovet for å registrere, lar ressursen din gjenkjenne 15 fulle PDF-sider i timen. Gratis Online OCR fungerer fullt ut med dokumenter på 46 språk og uten autorisasjon støtter tre teksteksporter - DOCX, XLSX og TXT.

Når du registrerer, får brukeren muligheten til å behandle flersidige dokumenter, men det frie nummeret på disse sidene er begrenset til 50 enheter.

Online Service Gratis Online OCR

  1. For å gjenkjenne tekst fra PDF som en "gjest", uten autorisasjon på ressursen, bruk riktig skjema på nettsiden på nettstedet.

    PDF-anerkjennelse i online gratis online OCR

    Velg ønsket dokument ved hjelp av filknappen, angi hovedspråket i teksten, utdataformatet, og vent på at filen kan lastes ned og klikk på Konverter.

  2. På slutten av digitaliseringsprosessen klikker du på "Last ned utdatafil" for å lagre det ferdige dokumentet med teksten på datamaskinen.

    Laster tekstgjenkjenning Resultater med PDF fra GRATIS Online OCR Online Service

For de autoriserte brukerne er sekvensen av handlinger noe annerledes.

  1. Bruk "Registrer" eller "Logg inn" -knappen i TOP-menyen til henholdsvis, opprett en gratis Online OCR-konto eller gå til den.

    Opprette en konto i online gratis online OCR

  2. Etter autorisasjon i anerkjennelsespanelet, som holder "Ctrl" -tasten, velger du opptil to språk i kildedokumentet fra den foreslåtte listen.

    Definisjon av språkene i kildedokumentet for tekstgjenkjenning i gratis Online OCR

  3. Angi flere tekstutvinningsparametere fra PDF og klikk på Select File-knappen for å laste ned dokumentet til tjenesten.

    Start av PDF-dokumentgjenkjenning i Online Service Gratis Online OCR

    Så, for å fortsette med anerkjennelse, klikk på "Konverter".

  4. På slutten av behandlingen av dokumentet klikker du på koblingen som kalles utdatafilen i den aktuelle kolonnen.

    Laster ned den ferdige docx-filen fra den gratis online OCR-tjenesten

    Resultatet av anerkjennelse vil umiddelbart bli lagret i datamaskinens minne.

Hvis nødvendig, fjern tekst fra et lite PDF-dokument, kan være trygt å ty til bruk av verktøyet beskrevet ovenfor. For å jobbe med voluminøse filer, må du kjøpe flere tegn i gratis Online OCR eller feriested til en annen løsning.

Metode 3: Newocr

Full Free OCR-tjeneste som lar deg trekke ut tekst fra nesten alle grafiske og elektroniske dokumenter som DJVU og PDF. Resursen pålegg ikke begrensninger på størrelsen og antall gjenkjennelige filer, krever ikke registrering og tilbyr et bredt spekter av relaterte funksjoner.

NewocR støtter 106 språk og kan riktig behandle selv lavkvalitets skanning av dokumenter. Det er mulig å manuelt velge tekstgjenkjenningsområdet på filsiden.

Online Service Newocr.

  1. Så, du kan begynne å jobbe med en ressurs umiddelbart, uten at du trenger å utføre ekstra handlinger.

    Laster inn PDF-filen for å gjenkjenne Internett-tjenesten newocr

    Rett på hovedsiden er det et skjema for å importere et dokument til nettstedet. For å laste ned filen i newocr, bruk Select File-knappen i delen Velg fil. Deretter angir du et eller flere kildedokumentspråk, og klikker deretter på "Last opp + OCR".

  2. Angi dine foretrukne gjenkjenningsinnstillinger, velg ønsket side for å hente teksten og klikk på OCR-knappen.

    Sette opp og lansere tekstgjenkjenning med PDF i online service newocr

  3. Bla nedover siden litt lavere og finn "Last ned" -knappen.

    Last ned lært i nyoktekst på datamaskinen

    Klikk på det og i rullegardinlisten, velg ønsket format for dokumentet for å laste ned. Deretter lastes den ferdige filen med den ekstraherte teksten til datamaskinen.

Verktøyet er praktisk og ganske godt gjenkjenner alle tegnene. Behandlingen av hver side i det importerte PDF-dokumentet må imidlertid lanseres uavhengig og vises i en egen fil. Du kan selvfølgelig umiddelbart kopiere anerkjennelsen resultatene i utklippstavlen og kombinere dem med andre.

Likevel, gitt den ovenfor beskrevne nyanse, store volumer av tekst som bruker newokr å trekke ut veldig vanskelig. Med de små filene, håndterer tjenesten "med et bang."

Metode 4: OCR.Space

En enkel og forståelig ressurs for tekstdigitalisering lar deg gjenkjenne PDF-dokumenter og utdata resultatet i TXT-filen. Ingen grenser i antall sider er ikke oppgitt. Den eneste begrensningen er størrelsen på inngangsdokumentet bør ikke overstige 5 megabyte.

Online Service OCR.Space.

  1. Du trenger ikke å registrere deg for å jobbe med verktøyet.

    Importer PDF-fil i Online OCR.Space Service

    Bare klikk på lenken over og last ned PDF-dokumentet til nettstedet fra datamaskinen ved hjelp av "Velg fil" -knappen eller fra nettverket som referanse.

  2. I rullegardinlisten Velg OCR-språk velger du språket i det importerte dokumentet.

    Kjører PDF-dokumentgjenkjenningsprosessen i Online Service OCR.Space

    Kjør deretter tekstgjenkjenningsprosessen ved å klikke på "Start OCR!" -Knappen.

  3. På slutten av filbehandlingen, se resultatet i OCR'ed Resultat-feltet og klikk på "Last ned" for å laste ned det ferdige TXT-dokumentet.

    Nedlasting av resultatet av PDF-filgenkjenningen fra OCR.Space Online Service

Hvis du bare trenger å trekke ut tekst fra PDF og samtidig den endelige formateringen er det ikke viktig i det hele tatt, er OCR.Space et godt valg. Den eneste, dokumentet må være "single-taling", siden anerkjennelsen av to eller flere språk samtidig i tjenesten ikke er gitt.

Les også: FineEader gratis analoger

Evaluering av de elektroniske instrumentene som presenteres i artikkelen, skal bemerkes at FineReader online fra Abbyy er mest nøyaktig og kvalitativt med OCR-funksjonen. Hvis du er viktig for deg den maksimale deformiteten av tekstgjenkjenningen, er det best å vurdere spesielt dette alternativet. Men de vil mest sannsynlig betale for ham.

Hvis du trenger digitalisering av små dokumenter, og du er klar til å korrekt korrigere servicefeil, er det tilrådelig å bruke newocr, ocr.space eller gratis Online OCR.

Les mer