如何在线识别PDF文件

Anonim

如何在线识别PDF文件

您无法始终使用常规的复制方法从PDF文件中删除文本。通常,此类文档的页面是其纸张选项的扫描内容。要将此类文件转换为完全可编辑的文本数据,则特殊程序与光学字符识别(OCR)函数一起使用。

这些决定在销售方面非常复杂,因此有相当的资金。如果需要与PDF进行文本识别,则会定期出现,因此购买适当的计划是相当明确的。对于罕见案例,具有类似功能的可用在线服务之一将更加逻辑。

如何用PDF在线识别文本

当然,与全面的桌面解决方案相比,一系列OCR在线服务的功能更加有限。但是可以使用此类资源或完全免费或符号费用。主要是,通过其主要任务,即识别文本,相应的Web应用程序也会应付。

方法1:Abbyy FineReader在线

服务开发人员公司是文档光学识别领域的领导者之一。用于Windows和Mac的Abbyy FineReader是将PDF转换为文本的强大解决方案,并进一步与之合作。

当然,程序的网类似物通过功能差不等。尽管如此,该服务可以识别超过190种语言的扫描和照片的文本。支持PDF文件转换为Word,Excel文档等。

在线服务Abbyy FineReader在线

  1. 在开始使用工具之前,在网站上创建帐户或使用Facebook,Google或Microsoft帐户登录。

    在线服务在线订购agbyy FineReader在线

    要转到授权窗口,请单击顶部菜单面板中的“登录”按钮。

  2. 通过登录,使用“下载文件”按钮在FineReader中导入所需的PDF文档。

    从在线服务中的PDF文档在线签名在线识别

    然后单击“选择页码”并指定所需的间隙以识别文本。

  3. 接下来,选择文档中存在的语言,结果文件格式,然后单击“识别”按钮。

    在Abbyy FineReader在线开始从PDF文档开始发短信识别

  4. 处理后,其中持续时间完全取决于文档的数量,您可以通过单击其名称来下载带文本数据的现成文件。

    从在线服务agbyy FineReader在线下载完成的文档

    要么将其导出到可用的云服务之一。

该服务可能是图像和PDF文件的最准确的文字识别算法。但不幸的是,它的免费使用仅限于每月五处理页面。为了与更多的大量文件的工作,你将不得不购买年度订阅。

然而,如果需要的OCR功能相当罕见,ABBYY FineReader会在线是由小的PDF文件一个很好的选择,以提取文本。

方法二:免费在线OCR

简单方便的文字数字化的文本。无需注册,资源可以让你认识到每小时15个完整的PDF页面。 DOCX,XLSX和TXT - 免费在线OCR用46种语言,擅自支持三种文本文件出口完全有效。

在注册时,用户得到机会来处理多页文档,然而,这些网页的免费数量限制为50个单位。

在线服务免费在线OCR

  1. 从PDF识别文本作为“客人”,擅自对资源,使用该网站的主页上相应的表格。

    PDF承认在网上免费在线OCR

    选择使用File按钮选择所需的文件,指定文本,输出格式的主要语言,然后等待下载的文件,然后单击转换。

  2. 在数字化过程结束时,单击“下载输出文件”来完成的文档保存在电脑上的文本。

    加载文本识别与PDF结果从免费的在线OCR在线服务

对于授权用户,动作的顺序有所不同。

  1. 使用“注册”或“登录”按钮,在顶部菜单面板,分别创建一个免费的在线OCR帐户或去它。

    在网上免费在线OCR创建帐户

  2. 在识别面板授权,举办“Ctrl”键后,选择了从建议列表中的源文件的两种语言。

    源文档的免费在线OCR语言文本识别的定义

  3. 从PDF进一步指定文本提取参数,然后单击选择文件按钮,将文件下载到的服务。

    在在线服务免费在线OCR启动PDF文档识别的

    然后,识别着手,点击“转换”。

  4. 在文档的处理结束后,单击名为相应列的输出文件的链接。

    从下载免费在线OCR在线服务完成的DOCX文件

    识别的结果将立即被保存在计算机的内存。

如果必要的话,从一个小的PDF文档中删除文本可以安全地诉诸使用上述工具。要使用大量的文件工作,你将不得不购买额外的字符免费在线OCR或采取另一种解决方案。

方法3:NewOCr

完全免费的OCR服务,让您从几乎就像DJVU和PDF任何图形和电子文档中提取文本。资源没有对的大小和可识别的文件数量的限制,不需要注册,并提供广泛的相关功能。

NewOCR支持106种语言,并能够正确处理,即使文件低质量的扫描。它可以手动选择文件页面上的文本识别区域。

在线服务NewOCr

  1. 所以,你就可以开始与资源工作立即,无需进行额外的行动的必要性。

    加载PDF文件来识别在线服务NewOCR

    右边的主页上有用于导入文档到网站上的表单。要下载NewOCR文件,请使用选择您的文件部分的选择文件按钮。然后在“识别语言(S)”字段中指定一个或多个源文件的语言,然后单击“上传+ OCR”。

  2. 指定首选识别设置,选择所需的页面检索文字,然后点击OCR按钮。

    建立和启动的文本识别与在线服务PDF NewOCR

  3. 向下滚动页面略有降低并找到“下载”按钮。

    在计算机上newocr文本下载教训

    点击它,并在下拉列表中,选择文件下载所需的格式。在此之后,与提取的文本完成的文件将被下载到您的计算机。

该工具是方便,非常好识别的所有字符。然而,导入PDF文档的每一页的处理必须独立启动,并显示在一个单独的文件。当然,你可以的,立即识别结果复制到剪贴板,并与其他人将它们结合起来。

然而,鉴于上述细微差别,使用NewOCr文字的大量提取非常困难。随着小文件,服务科佩斯“砰的一声。”

方法4:Ocr.Space

文字数字化的简单易懂的资源可以让你认识到PDF文档并输出结果的TXT文件。不提供在页面的数量没有限制。唯一的限制是输入文件的大小不应超过5兆字节。

在线服务Ocr.Space

  1. 你并不需要注册才能使用该工具工作。

    在网上OCR.SPACE服务导入PDF文件

    只需点击上面的链接,并通过引用使用“选择文件”按钮,或从网络上的PDF文档从电脑下载的网站。

  2. 在选择OCR语言下拉列表中,选择导入文档的语言。

    运行于在线服务的PDF文档识别过程Ocr.Space

    然后点击“开始OCR!”按钮,运行文本识别过程。

  3. 在文件处理结束,看到OCR'ED RESULT领域的结果,然后单击“下载”,下载完成的txt文件。

    从OCR.Space在线服务下载PDF文件识别的结果

如果您只需要从PDF中提取文本,同时最终格式根本不重要,OCR.Space是一个不错的选择。唯一一个,文件必须是“单次”的,因为不提供在服务中同时识别两种或多种语言。

阅读此外:FineReader免费类似物

应注意评估文章中提出的在线仪器,即在ABBYY在线在线的FINEREADER与OCR功能最准确且定性地。如果您对文本识别的最大畸形非常重要,最好考虑此选项。但他们最有可能为他付钱。

如果您需要小型文档的数字化,您已准备好正确纠正服务错误,建议使用NewOcr,OCR.Space或免费在线OCR。

阅读更多