Cómo reconocer el archivo PDF en línea

No siempre puede eliminar el texto del archivo PDF utilizando el método de copia habitual. A menudo, las páginas de dichos documentos son los contenidos escaneados de sus opciones de papel. Para convertir dichos archivos a datos de texto completamente editables, se utilizan programas especiales con la función de reconocimiento de caracteres ópticos (OCR).

Tales decisiones son muy complejas en ventas y, por lo tanto, hay dinero considerable. Si la necesidad de reconocimiento de texto con PDF, usted surge regularmente, será bastante recomendable comprar el programa correspondiente. Para casos raros, uno de los servicios en línea disponibles con características similares será más lógico.

Cómo reconocer el texto con PDF en línea

Por supuesto, un conjunto de características de los servicios de OCR en línea, en comparación con las soluciones de escritorio completo, es más limitado. Pero es posible trabajar con tales recursos o completamente gratuito o por una tarifa simbólica. Lo principal es que con su tarea principal, a saber, con el reconocimiento del texto, las aplicaciones web correspondientes también se enfrentarán.

Método 1: Abbyy FineReader en línea

La compañía de desarrolladores de servicios es uno de los líderes en el campo del reconocimiento óptico de los documentos. FineReader Abbyy para Windows y Mac es una solución poderosa para convertir el PDF para enviar un mensaje de texto y trabajar más con él.

El análogo web del programa, por supuesto, es inferior a él por la funcionalidad. Sin embargo, el servicio puede reconocer el texto de las exploraciones y fotografías en más de 190 idiomas. Conversión de archivos PDF compatible con documentos de Word, Excel, etc.

Servicio en línea Abbyy FineReader en línea

Antes de comenzar a trabajar con una herramienta, cree una cuenta en el sitio o inicie sesión con la cuenta de Facebook, Google o Microsoft.

Para ir a la ventana de Autorización, haga clic en el botón "Iniciar sesión" en el panel Menú superior.
Al iniciar sesión, importe el documento PDF deseado en FineReader, utilizando el botón "Descargar archivos".

Luego haga clic en "Seleccionar números de página" y especifique la brecha deseada para reconocer el texto.
A continuación, seleccione los idiomas presentes en el documento, el formato de archivo de resultados y haga clic en el botón "Reconocer".
Después del procesamiento, la duración de la cual depende completamente de la cantidad de documento, puede descargar un archivo listo para los datos de texto simplemente haciendo clic en su nombre.

Ya sea exportarlo a uno de los servicios de la nube disponible.

El servicio es probablemente los algoritmos de reconocimiento de texto más precisos en imágenes y archivos PDF. Pero, lamentablemente, su uso gratuito se limita a las páginas de cinco procesadas por mes. Para trabajar con documentos más voluminosos, deberá comprar una suscripción anual.

Sin embargo, si se necesita la función OCR, rara vez, Abbyy FineReader en línea es una excelente opción para extraer texto de los archivos PDF pequeños.

Método 2: OCR gratuito en línea

Texto simple y conveniente digitalizante de texto. Sin la necesidad de registrarse, el recurso le permite reconocer 15 páginas PDF completas por hora. OCR gratuito en línea, funciona completamente con documentos en 46 idiomas y sin autorización, admite tres exportaciones de texto, DOCX, XLSX y TXT.

Al registrarse, el usuario tiene la oportunidad de procesar documentos de varias páginas, sin embargo, el número gratuito de estas páginas está limitado a 50 unidades.

Servicio en línea ON ON Online OCR

Para reconocer texto de PDF como "invitado", sin autorización en el recurso, use el formulario apropiado en la página principal del sitio.

Seleccione el documento deseado con el botón Archivo, especifique el idioma principal del texto, el formato de salida, luego espere a que el archivo descargue y haga clic en Convertir.
Al final del proceso de digitalización, haga clic en "Descargar archivo de salida" para guardar el documento terminado con el texto en la computadora.

Para los usuarios autorizados, la secuencia de acciones es algo diferente.

Use el botón "Registro" o "Inicio de sesión" en el panel Menú superior a, respectivamente, cree una cuenta gratuita de OCR en línea o vaya a ella.
Después de la autorización en el panel de reconocimiento, mantenga presionada la tecla "CTRL", seleccione hasta dos idiomas del documento de origen de la lista propuesta.
Especifique los parámetros de extracción de texto adicionales de PDF y haga clic en el botón Seleccionar archivo para descargar el documento al servicio.

Luego, para continuar con el reconocimiento, haga clic en "Convertir".
Al final del procesamiento del documento, haga clic en el enlace llamado el archivo de salida en la columna correspondiente.

El resultado del reconocimiento se guardará de inmediato en la memoria de su computadora.

Si es necesario, retire el texto de un pequeño documento PDF puede ser seguro para recurrir al uso de la herramienta descrita anteriormente. Para trabajar con archivos voluminosos, deberá comprar caracteres adicionales en ORCR gratuitos OCR o recurrir a otra solución.

Método 3: NewAcR

Servicio completamente gratuito de OCR que le permite extraer texto de casi cualquier gráfico y documentos electrónicos como DJVU y PDF. El recurso no impone restricciones en el tamaño y el número de archivos reconocibles, no requiere registro y ofrece una amplia gama de funciones relacionadas.

Newoc admite 106 idiomas y puede procesar correctamente las exploraciones de documentos de baja calidad. Es posible elegir manualmente el área de reconocimiento de texto en la página de archivos.

Servicio en línea NewAcR

Por lo tanto, puede comenzar a trabajar con un recurso de inmediato, sin la necesidad de realizar acciones adicionales.

Justo en la página principal hay un formulario para importar un documento al sitio. Para descargar el archivo en Newoc, use el botón Seleccionar archivo en la sección Seleccione su archivo. Luego, en el campo "Idiomas de reconocimiento (s)", especifique uno o más idiomas de origen de la fuente, y luego haga clic en "Subir + OCR".
Especifique su configuración de reconocimiento preferido, seleccione la página deseada para recuperar el texto y haga clic en el botón OCR.
Desplácese hacia abajo en la página un poco más bajo y encuentre el botón "Descargar".

Haga clic en él y en la lista desplegable, seleccione el formato deseado del documento para descargar. Después de eso, el archivo terminado con el texto extraído se descargará a su computadora.

La herramienta es conveniente y bastante bien reconoce a todos los caracteres. Sin embargo, el procesamiento de cada página del documento PDF importado debe lanzarse de forma independiente y se muestra en un archivo separado. Por supuesto, puede copiar inmediatamente los resultados del reconocimiento en el portapapeles y combinarlos con otros.

Sin embargo, dado el matriz descrito anteriormente, grandes volúmenes de texto utilizando Newoc para extraer muy difícil. Con los archivos pequeños, el servicio hace frente a "con una explosión".

Método 4: OCR.SPACE

Un recurso simple y comprensible para la digitalización de texto le permite reconocer documentos PDF y emitir el resultado en el archivo TXT. No se proporcionan límites en el número de páginas. La única limitación es el tamaño del documento de entrada no debe exceder los 5 megabytes.

Servicio en línea OCR.SPACE

No necesita registrarse para trabajar con la herramienta.

Simplemente haga clic en el enlace de arriba y descargue el documento PDF en el sitio desde la computadora usando el botón "Seleccionar archivo" o desde la red por referencia.
En la lista desplegable Seleccionar idioma OCR, seleccione el idioma del documento importado.

Luego ejecute el proceso de reconocimiento de texto haciendo clic en el botón "Iniciar OCR!".
Al final del procesamiento del archivo, consulte el resultado en el campo de resultados de OCR'ed y haga clic en "Descargar" para descargar el documento TXT TEPT.

Si solo necesita extraer texto de PDF y, al mismo tiempo, el formato final no es importante en absoluto, OCR.Space es una buena opción. El único, el documento debe ser "de habla única", ya que no se proporciona el reconocimiento de dos o más idiomas simultáneamente en el servicio.

Leer también: FineReader analógicas de cortesía.

La evaluación de los instrumentos en línea presentados en el artículo debe tenerse en cuenta que el FineReader Online de ABBYY es más preciso y cualitativamente con la función OCR. Si es importante para usted la deformidad máxima del reconocimiento de texto, es mejor considerar específicamente esta opción. Pero lo más probable es que lo paguen.

Si necesita una digitalización de documentos pequeños y está listo para corregir correctamente los errores de servicio, es recomendable utilizar Nequatr, OCR.SPACE o OCR gratuito en línea.