通常のコピーメソッドを使用して、必ずしもPDFファイルからテキストを削除できません。多くの場合、そのような文書のページは彼らの論文オプションのスキャンされた内容です。そのようなファイルを完全に編集可能なテキストデータに変換するには、光学文字認識(OCR)関数と共に特別なプログラムが使用されます。
そのような決定は売上で非常に複雑であり、したがって、かなりのお金がある。 PDFを使用したテキスト認識の必要性が定期的に発生すると、適切なプログラムを購入することは非常に賢明になります。まれなケースでは、類似の機能を持つ入手可能なオンラインサービスの1つがより論理的になります。
PDFオンラインでテキストを認識する方法
もちろん、完全なデスクトップソリューションと比較して、OCRオンラインサービスの一連の機能はより限られています。しかし、そのようなリソースや完全に無料で、または象徴的な料金を処理することは可能です。主なことは、その主な作業、すなわちテキストを認識して、対応するWebアプリケーションも同様に対処することです。方法1:Abbyy FineReader Online.
サービス開発者会社は、文書の光学的認識の分野のリーダーの1つです。 WindowsおよびMac用のAbbyy FineReaderは、PDFをテキストに変換し、さらに処理するための強力なソリューションです。
もちろん、プログラムのWebアナログは機能性によってそれより劣っています。それにもかかわらず、サービスは190以上の言語でスキャンや写真からのテキストを認識できます。単語、Excel文書などへのPDFファイルの変換をサポート
オンラインサービスAbbyy FineReader Online.
- ツールの操作を開始する前に、サイト上にアカウントを作成したり、Facebook、Google、またはMicrosoftアカウントでログインしてください。
認証ウィンドウに移動するには、上部メニューパネルの[ログイン]ボタンをクリックします。
- ログインすると、「ダウンロードファイル」ボタンを使用して、希望のPDF文書をFineReaderにインポートします。
次に「ページ番号の選択」をクリックし、テキストを認識するための目的のギャップを指定します。
- 次に、ドキュメントに存在する言語、結果のファイル形式を選択し、「認識」ボタンをクリックします。
- 処理後、その期間は完全にドキュメントの量に依存している場合は、その名前をクリックするだけで、テキストデータで既製のファイルをダウンロードできます。
利用可能なクラウドサービスの1つにエクスポートします。
サービスはおそらく画像とPDFファイルの最も正確なテキスト認識アルゴリズムです。しかし、残念ながら、その無料使用は月に5回の処理されたページに制限されています。より多くの膨大な文書を扱うためには、年間購読を購入する必要があります。
ただし、OCR関数が非常にめったに必要な場合は、Abbyy FineReader Onlineは小さなPDFファイルからテキストを抽出するための優れたオプションです。
方法2:無料オンラインOCR
シンプルで便利なテキストのデジタル化テキスト。登録する必要なしに、リソースを使用すると、1時間あたり15個の完全なPDFページを認識できます。無料のオンラインOCRは46の言語でドキュメントを完全に処理し、許可がなければ3つのテキストエクスポート - DOCX、XLSX、TXTをサポートしています。
登録すると、ユーザーはマルチページ文書を処理する機会を取得しますが、これらのページの空き番号は50台に制限されています。
オンラインオンラインOCR.
- PDFからのテキストを「ゲスト」として認識するには、リソース上の許可なしに、サイトのメインページで適切なフォームを使用します。
[ファイル]ボタンを使用して目的の文書を選択し、テキストの主言語、出力形式を指定し、ファイルがダウンロードして[変換]をクリックします。
- デジタル化プロセスの最後に、[出力ファイルのダウンロード]をクリックして、完成した文書をコンピュータ上のテキストで保存します。
許可されたユーザーにとって、一連のアクションはやや異なります。
- トップメニューパネルの「登録」または「ログイン」ボタンを使用して、それぞれ無料のオンラインOCRアカウントを作成したり、送信したりします。
- 「Ctrl」キーを押しながら認識パネルで承認後、提案されたリストからソース文書の2つの言語を選択します。
- PDFからさらにテキスト抽出パラメータを指定し、[ファイルの選択]ボタンをクリックして、文書をサービスにダウンロードします。
その後、認識を続行するには、[変換]をクリックします。
- 文書の処理の最後に、適切な列の出力ファイルと呼ばれるリンクをクリックします。
認識結果はすぐにコンピュータのメモリに保存されます。
必要に応じて、小さなPDF文書からのテキストを削除することは、上記のツールの使用に頼るために安全になることがあります。膨大なファイルを処理するには、無料のオンラインOCRまたは他のソリューションにリゾートを追加している追加の文字を購入する必要があります。
方法3:ニュークチーム
DJVUやPDFなどのほとんどすべてのグラフィックおよび電子文書からテキストを抽出することを可能にする完全無料OCRサービス。リソースは、認識可能ファイルのサイズと数に制限を課しませんが、登録を必要とせず、幅広い関連機能を提供します。
Newocrocは106の言語をサポートしており、文書の低品質のスキャンでさえ正しく処理できます。ファイルページのテキスト認識領域を手動で選択することができます。
オンラインサービスのニュークチュート
- そのため、追加のアクションを実行する必要なしに、すぐにリソースを操作し始めることができます。
メインページでは、ドキュメントをサイトにインポートするためのフォームがあります。ファイルを新規にダウンロードするには、[ファイルの選択]セクションの[ファイルの選択]ボタンを使用します。その後、「認識言語(S)」フィールドで、1つ以上のソース文書言語を指定し、[アップロード+ OCR]をクリックします。
- 希望の認識設定を指定し、目的のページを選択してテキストを取得してOCRボタンをクリックします。
- ページを少し低くスクロールして、「ダウンロード」ボタンを見つけます。
それをクリックするとドロップダウンリストで、ダウンロードするために文書の目的のフォーマットを選択します。その後、抽出されたテキストの完成したファイルがコンピュータにダウンロードされます。
このツールは便利で、すべての文字をかなり認識しています。ただし、インポートされたPDF文書の各ページの処理は独立して起動され、別のファイルに表示されます。もちろん、認識結果を直ちにクリップボードにコピーして他の人と組み合わせることができます。
それにもかかわらず、上記のニュアンスを与えられた、ニュークチレーションを使用して大量のテキストが非常に困難であることを考える。小さいファイルを使用すると、サービスは「バンで」コペグします。
方法4:OCR.SPACE.
テキストデジタル化のためのシンプルでわかりやすいリソースを使用すると、PDF文書を認識して結果をTXTファイルに出力することができます。ページ数の制限は提供されていません。唯一の制限は、入力文書のサイズが5メガバイトを超えてはいけません。
オンラインサービスOCR.Space.
- ツールを処理するには登録する必要はありません。
上記のリンクをクリックして、「ファイルの選択」ボタンまたは参照によってネットワークからPDF文書をコンピュータからサイトにダウンロードしてください。
- [OCR言語の選択]ドロップダウンリストで、インポートされた文書の言語を選択します。
その後、[OCRの起動]ボタンをクリックしてテキスト認識プロセスを実行します。
- ファイル処理の最後に、[OCRの結果]フィールドの結果を参照して[ダウンロード]をクリックして完成したTXT文書をダウンロードします。
PDFからテキストを抽出し、同時にテキストを抽出する必要がある場合は、OCR.Spaceは良い選択です。唯一の1つは、サービス内の同時に2つ以上の言語の認識が提供されていないため、文書は「シングルスピーキング」でなければなりません。
読む:FineReader無料のアナログ
記事に提示されているオンライン商品の評価AbbyyからオンラインのFineReaderは、OCR機能と最も正確かつ定性的にあることに注意してください。テキスト認識の最大変形が重要な場合は、このオプションを詳しく検討することが最善です。しかし、彼らはおそらく彼のために支払うでしょう。
小文字のデジタル化が必要な場合は、サービスエラーを正しく修正する準備ができている場合は、NewRocr、OCR.SpaceまたはFree Online OCRを使用することをお勧めします。