Nie zawsze możesz usunąć tekst z pliku PDF za pomocą zwykłej metody kopiowania. Często strony takich dokumentów są zeskanowaną zawartość ich opcji papieru. Aby przekonwertować takie pliki do w pełni edytowalne dane tekstowe, specjalne programy są używane z funkcją rozpoznawania znaków optycznych (OCR).
Takie decyzje są bardzo złożone w sprzedaży, a zatem istnieją znaczne pieniądze. Jeśli potrzeba rozpoznawania tekstu z plikiem PDF pojawi się regularnie, będzie dość wskazany do zakupu odpowiedniego programu. W przypadku rzadkich przypadków jedna z dostępnych usług online z podobnymi funkcjami będzie bardziej logiczna.
Jak rozpoznać tekst z PDF Online
Oczywiście zestaw funkcji usług internetowych OCR, w porównaniu z pełnoprawnymi rozwiązaniami pulpitu, jest bardziej ograniczona. Ale możliwe jest pracowanie z takimi zasobami lub całkowicie wolnymi lub za opłatą symboliczną. Najważniejsze jest to, że z jego głównym zadaniem, a mianowicie, przy rozpoznawaniu tekstu, odpowiednie aplikacje internetowe również radzą.Metoda 1: ABBYY FineReader Online
Firma deweloperska jest jednym z liderów w dziedzinie optycznego uznawania dokumentów. ABBYY FineReader for Windows i Mac to potężne rozwiązanie do konwersji PDF do tekstu i dalszej pracy z nim.
Oczywiście analogowy analogowy programu jest gorszy niż funkcjonalność. Niemniej jednak usługa może rozpoznać tekst ze skanów i fotografii w ponad 190 językach. Obsługiwane konwersja pliku PDF do Word, Dokumenty Excel itp.
Usługa online ABBYY FineReader Online
- Przed rozpoczęciem pracy z narzędziem utwórz konto na stronie lub zaloguj się za pomocą konta Facebooka, Google lub Microsoft.
Aby przejść do okna autoryzacji, kliknij przycisk "Zaloguj się" na panelu menu górnego.
- Zalogując się, zaimportuj żądany dokument PDF w FineReader, używając przycisku "Pobierz pliki".
Następnie kliknij "Wybierz numery stron" i określ żądaną szczelinę, aby rozpoznać tekst.
- Następnie wybierz języki obecne w dokumencie, format pliku wynikowego i kliknij przycisk "Rozpoznaj".
- Po przetworzeniu, którego czas trwania zależy wyłącznie od ilości dokumentu, można pobrać gotowy plik z danymi tekstowymi po prostu klikając na jego nazwę.
Eksportuj go do jednej z dostępnych usług w chmurze.
Usługa jest prawdopodobnie najdokładniejszym algorytmem rozpoznawania tekstu na obrazach i plikach PDF. Niestety, jego bezpłatne użycie jest ograniczone do pięciu przetworzonych stron miesięcznie. Aby pracować z bardziej obszernymi dokumentami, będziesz musiał kupić roczną subskrypcję.
Jeśli jednak funkcja OCR jest potrzebna dość rzadko, ABBYY FineReader Online jest doskonałą opcją wyodrębnienia tekstu z małych plików PDF.
Metoda 2: Darmowe OCR online
Prosty i wygodny tekst digitalizacji tekstu. Bez konieczności rejestracji zasób umożliwia rozpoznanie 15 pełnych stron PDF na godzinę. Darmowe OCR online w pełni współpracuje z dokumentami w 46 językach i bez autoryzacji obsługuje trzy eksport tekstowy - DOCX, XLSX i TXT.
Podczas rejestracji użytkownik ma możliwość przetwarzania dokumentów wielostronicowych, jednak bezpłatna liczba tych stron jest ograniczona do 50 jednostek.
Usługa online Darmowe OCR online
- Aby rozpoznać tekst z PDF jako "gościnny", bez autoryzacji na zasobach, użyj odpowiedniej formy na stronie głównej strony.
Wybierz żądany dokument za pomocą przycisku Plik, określić główny język tekstu, format wyjściowy, poczekaj, aż plik do pobrania i kliknij Konwertuj.
- Na końcu procesu cyfryzacji kliknij "Pobierz plik wyjściowy", aby zapisać gotowy dokument z tekstem na komputerze.
Dla autoryzowanych użytkowników sekwencja działań jest nieco inna.
- Użyj przycisku "Zarejestruj" lub "Logowanie" w panelu menu górnego, aby odpowiednio utworzyć bezpłatne konto OCR online lub przejdź do niego.
- Po autoryzacji w panelu rozpoznawania, przytrzymując klawisz "Ctrl", wybierz maksymalnie dwa języki dokumentu źródłowego z proponowanej listy.
- Określ dalsze parametry ekstrakcji tekstu z PDF i kliknij przycisk Wybierz plik, aby pobrać dokument do usługi.
Następnie, aby kontynuować rozpoznawanie, kliknij "Konwertuj".
- Pod koniec przetwarzania dokumentu kliknij link zwany plikiem wyjściowym w odpowiedniej kolumnie.
Wynik uznania natychmiast zostanie zapisany w pamięci komputera.
W razie potrzeby usuń tekst z małego dokumentu PDF może być bezpieczny do uciekania do użycia opisanego powyżej narzędzia. Aby pracować z obszernymi plikami, musisz kupić dodatkowe znaki w bezpłatnym OCR online lub ośrodku do innego rozwiązania.
Metoda 3: Newoc
W pełni darmowa usługa OCR, która umożliwia wyodrębnienie tekstu z niemal jakichkolwiek dokumentów graficznych i elektronicznych, takich jak DJVU i PDF. Zasób nie nakłada ograniczeń dotyczących rozmiaru i liczby rozpoznawalnych plików, nie wymaga rejestracji i oferuje szeroką gamę powiązanych funkcji.
Newoc obsługuje 106 języków i może poprawnie przetwarzać nawet niskie skany dokumentów. Możliwe jest ręczne wybranie obszaru rozpoznawania tekstu na stronie Plik.
Usługa online Newocr.
- Możesz więc natychmiast rozpocząć pracę z zasobem, bez konieczności wykonywania dodatkowych działań.
Prawo na stronie głównej znajduje się formularz importowania dokumentu do witryny. Aby pobrać plik w Newocr, użyj przycisku Wybierz plik w sekcji Wybierz swój plik. Następnie w polu "Język rozpoznawania" "określa jeden lub więcej języków dokumentów źródłowych, a następnie kliknij" Prześlij + OCR ".
- Określ preferowane ustawienia rozpoznawania, wybierz żądaną stronę, aby pobrać tekst i kliknąć przycisk OCR.
- Przewiń nieznacznie na stronie i znajdź przycisk "Pobierz".
Kliknij go i na liście rozwijanej wybierz żądany format dokumentu do pobrania. Po tym gotowy plik z wyodrębnionym tekstem zostanie pobrany do komputera.
Narzędzie jest wygodne i całkiem dobrze rozpoznaje wszystkie znaki. Jednak przetwarzanie każdej strony importowanego dokumentu PDF należy uruchomić niezależnie i jest wyświetlany w osobnym pliku. Możesz oczywiście natychmiast skopiować wyniki rozpoznawania do schowka i połącz je z innymi.
Niemniej jednak, biorąc pod uwagę wyżej opisany NUANCE, duże ilości tekstu przy użyciu Newocr do wyodrębniania bardzo trudnych. Dzięki małym plikom serwis radzi sobie "z bankiem".
Metoda 4: OCR.Space
Prosty i zrozumiały zasób dla cyfryzacji tekstowej umożliwia rozpoznanie dokumentów PDF i wyjść wynik w pliku TXT. Nie podano limitów liczby stron. Jedynym ograniczeniem jest rozmiar dokumentu wejściowego nie powinien przekraczać 5 megabajtów.
Usługa online OCR.Space.
- Nie musisz rejestrować się do pracy z narzędziem.
Wystarczy kliknąć na link powyżej i pobierz dokument PDF do witryny z komputera za pomocą przycisku "Wybierz plik" lub z sieci przez odniesienie.
- W liście rozwijanej Wybierz język OCR wybierz język importowanego dokumentu.
Następnie uruchom proces rozpoznawania tekstu, klikając przycisk "Uruchom OCR!".
- Na końcu przetwarzania plików można znaleźć w wyniku pola wyników OCR i kliknij "Pobierz", aby pobrać gotowy dokument TXT.
Jeśli wystarczy wyodrębnić tekst z PDF, a jednocześnie ostateczne formatowanie nie jest w ogóle ważne, OCR.Space jest dobrym wyborem. Jedynym, dokument musi być "jednoczęściowy", ponieważ rozpoznawanie dwóch lub więcej języków jednocześnie w usłudze nie jest dostarczane.
Przeczytaj również: Fineader Bezpłatny analogi
Ocena instrumentów online przedstawionych w artykule należy zauważyć, że Fineader Online z ABBYY jest najbardziej dokładny i jakościowo z funkcją OCR. Jeśli jesteś ważny dla Ciebie maksymalna deformacja rozpoznawania tekstu, najlepiej jest rozważyć konkretnie tę opcję. Ale najprawdopodobniej zapłacą za niego.
Jeśli potrzebujesz digitalizacji małych dokumentów i jesteś gotowy na prawidłowe prawidłowe prawidłowe błędy serwisowe, wskazane jest użycie Newocr, OCR.Space lub bezpłatnego OCR online.