No sempre es pot treure el text de l'arxiu PDF utilitzant el mètode de còpia de costum. Sovint, les pàgines dels documents escanejats són els continguts de les seves opcions de paper. Per convertir aquests arxius a les dades de text totalment editable, programes especials s'utilitzen amb la funció de reconeixement òptic de caràcters (OCR).
Aquestes decisions són molt complexes en les vendes i, per tant, hi ha una considerable de diners. Si la necessitat de reconeixement de text amb PDF que sorgeixen amb regularitat, serà molt recomanable comprar el programa apropiat. Per als casos rars, un dels serveis en línia disponibles amb característiques similars seran més lògic.
Com reconèixer text amb format PDF en línia
Per descomptat, un conjunt de característiques dels serveis en línia de OCR, en comparació amb les solucions d'escriptori de ple dret, és més limitat. No obstant això, és possible treballar amb aquests recursos o completament gratis o per un preu simbòlic. El més important és que amb la seva tasca principal, és a dir, amb el reconeixement de el text, les aplicacions web corresponents faran front també.Mètode 1: FineReader Online
La companyia desenvolupador de serveis és un dels líders en el camp de l'reconeixement òptic de documents. FineReader per a Windows i Mac és una potent solució per a la conversió de PDF a text i seguir treballant amb ell.
El anàleg web de el programa, per descomptat, és inferior a ella per la funcionalitat. No obstant això, el servei pot reconèixer el text de les exploracions i fotografies en més de 190 idiomes. Amb el suport de conversió d'arxius PDF a Word, documents d'Excel, etc.
servei en línia en línia FineReader
- Abans de començar a treballar amb una eina, crear un compte en el lloc o iniciar sessió amb el compte de Facebook, Google o Microsoft.
Per anar a la finestra d'autorització, feu clic al botó "Iniciar sessió" al panell de menú superior.
- A l'iniciar la sessió, importar el document PDF que vulgueu a FineReader, usant el botó "Descarregar fitxers".
Després feu clic a "Seleccionar" Números de pàgina i especifiqui l'espai desitjat per reconèixer el text.
- A continuació, seleccionar els idiomes presents en el document, el format d'arxiu de resultats i feu clic al botó "Reconèixer".
- Després de l'processament, la durada depèn totalment de la quantitat de documents, pot descarregar un arxiu ja preparat amb dades de text, simplement fent clic en el seu nom.
O bé exportar-lo a un dels serveis en el núvol disponibles.
El servei és diferent, probablement, els algoritmes més precís per al reconeixement de text en imatges i PDF. Però, per desgràcia, el seu ús gratuït està limitat a cinc pàgines processades per mes. Per treballar amb documents llargs, hauria de comprar una subscripció anual.
No obstant això, si es necessita la funció OCR molt poques vegades, FineReader en línia - és una gran opció per extreure text d'arxius PDF petita.
Mètode 2: Free Online OCR
servei simple i convenient per a la digitalització de text. Sense la necessitat d'un registre de recursos permet reconèixer els 15 PDF pàgines completes per hora. Online OCR lliure per treballar amb els documents en 46 idiomes i és compatible amb tres format de text sense l'autorització d'exportació - DOCX, XLSX i TXT.
Durant el registre, l'usuari és capaç de manejar documents de múltiples pàgines, però, el nombre de pàgines lliures els més limitada a 50 unitats.
Servei en línia gratuït de OCR en línia
- Per reconèixer el text de PDF com "convidat", sense l'autorització de el recurs, utilitzeu el formulari corresponent a la pàgina principal.
Seleccioneu el document fent clic a "Arxiu", entrar a l'idioma principal de el format de sortida de text, i després esperar que l'arxiu que voleu descarregar i feu clic a "Converteix".
- A la fi de l'procés de digitalització, feu clic a "Descarregar l'arxiu de sortida" per a guardar el document acabat amb el text en l'equip.
Per als usuaris autoritzats de l'acció és seqüència lleugerament diferent.
- Utilitzeu el botó "Registre" o "Iniciar sessió" a la barra de menú superior per, respectivament, per crear un compte en línia OCR lliure o entrar-hi.
- Després d'entrar al panell de reconeixement, premeu la «CTRL», seleccionar fins a dos dels idiomes de documents originals de la llista.
- Especificar altres paràmetres d'extracció de text d'un PDF i feu clic a "Triar fitxer" per pujar el document a l'servei.
A continuació, procedir a el reconeixement, feu clic a "Converteix".
- D'acord amb el processament de documents s'ha completat, feu clic a l'enllaç amb el nom de l'arxiu de sortida a la columna corresponent.
resultat de el reconeixement s'emmagatzemarà immediatament a la memòria del seu ordinador.
Si cal, extreure text de el document PDF d'un petit pot recórrer de manera segura a l'ús de les eines anteriors. Per treballar bé amb arxius de grans dimensions han de comprar caràcters addicionals en OCR lliure en línia o el recurs més que una solució diferent.
Mètode 3: NewOCR
Completament lliure de OCR-servei que l'ajuda a extreure el text de pràcticament qualsevol gràfica i documents electrònics com DjVu i PDF. El recurs no imposa restriccions en la mida i nombre d'arxius recognoscibles, no requereix registre i ofereix una àmplia gamma de funcions relacionades.
NewOCR suporta 106 idiomes i és capaç de manejar correctament fins i tot exploracions de baixa qualitat dels documents. És possible seleccionar manualment l'àrea de reconèixer pàgina d'arxiu de text.
servei en línia NewOCR
- Per tant, arribar a treballar amb el recurs que pugui immediatament, sense haver de realitzar accions innecessàries.
A la dreta a la pàgina principal conté un formulari per importar el document a el lloc. Per carregar un arxiu a NewOCR, utilitzi el botó "Triar fitxer" a la secció «Seleccionar l'arxiu». Després, en el «llenguatge de Reconeixement (s)», especifiquen una o més llengües de l'original, i després premi «Pujar + OCR».
- Demanar als seus ajustos preferits de OCR, seleccioneu la pàgina desitjada per extreure el text i feu clic al botó «OCR».
- Desplaçament cap avall una mica més baix i l'aspecte per al botó «Descarregar».
Feu clic i la llista desplegable, seleccioneu el format de document desitjat per a la descàrrega. L'arxiu final amb el text extret es descarregarà a l'ordinador.
Eina molt útil i bastant un reconèixer qualitativament tots els personatges. No obstant això, el processament de cada pàgina del document PDF importada per funcionar de forma independent i el mostra en un arxiu separat. Pot, per descomptat, simplement copiar els resultats en el porta-retalls, i combinar-los amb altres.
No obstant això, donada l'excepció anterior, grans quantitats de text usant NewOCR molt difícil d'extreure. Amb arxius petits com capes pluvials servei "amb una explosió".
Mètode 4: OCR.Space
recurs senzill i intuïtiu per a la digitalització de text, pot reconèixer documents PDF i mostra els resultats en format txt-arxiu. No hi ha límits en el nombre de pàgines no es proporciona. L'única limitació - mida de el document d'entrada no ha de superar els 5 MB.
OCR.Space servei en línia
- Per registrar-se per treballar amb l'eina no és necessari.
Simplement feu clic a l'enllaç de dalt i descarregar el document PDF a el lloc des d'un ordinador utilitzant el botó "Seleccionar arxiu" o des de la xarxa - l'enllaç.
- En el desplegable «Seleccionar idioma de OCR» llista, seleccioneu l'idioma de el document importat.
A continuació, executeu el procés d'OCR fent clic al botó «Inici OCR!».
- Quan el processament d'arxius és xec complet el resultat en «Resultat OCR'ed» camp i feu clic en "Descarregar», a punt per descarregar TXT-document.
Si només ha de extreure text de format PDF, el format final no importa, OCR.Space - una bona opció. L'únic document que és "monolingüe", com a reconeixement de dos o més idiomes a el mateix temps, no proporciona el servei.
Veure també: Lliure anàlegs FineReader
L'avaluació de les eines en línia presentats en l'article, cal assenyalar que la major precisió i eficiència enfront de la funció OCR FineReader línia de ABBYY. Si és important per a vostè la màxima precisió de reconeixement de text, el millor és considerar aquesta opció en particular. Però pagar per això és probable que també tenen.
Si cal digitalització de documents petits i que estan disposats a errors autocorrecció per al servei, és recomanable utilitzar NewOCR, OCR.Space o en línia OCR lliure.