Jak rozpoznać tekst z obrazu

Anonim

Jak cyfrować tekst na komputerze

Ostatnio możesz coraz częściej spotykać sytuację, w której musisz przetłumaczyć dowolny tekst zawarty w obrazach w elektronicznej formie tekstowej. Aby zaoszczędzić czas, a nie przedrukować ręcznie, należy użyć specjalnych aplikacji komputerowych do rozpoznawania tekstu, które powiemy dzisiaj.

Jak digitalizować tekst

Istnieje wiele aplikacji do zastosowań digitalizacji tekstu na rynku, więc każdy użytkownik znajdzie rozwiązanie, które spełnia wymagania.

Metoda 1: ABBYY FineReader

Ta uwarunkowana aplikacja z rosyjskiego dewelopera ma ogromną funkcjonalność i pozwala nie tylko rozpoznać tekst, ale także edytować go, zaoszczędzić w różnych formatach i skanujących źródłach papieru.

  1. Aby rozpoznać tekst na zdjęciu, przede wszystkim, musisz go przesłać do programu. Aby to zrobić, po uruchomieniu ABBYY FineReader kliknij przycisk "Otwórz w przycisk Edytora OCR".

    Otwórz plik graficzny, aby rozpoznać tekst w ABBYY FineReader

    Po tej działaniu okno wyboru źródła otwiera się, gdzie musisz znaleźć i otworzyć żądany obraz. Obsługiwane są następujące popularne formaty: JPEG, PNG, GIF, TIFF, XPS, BMP itp., A także plików PDF i DJVU.

  2. Wybierz plik graficzny w dyrygorze rozpoznawania tekstu w ABBYY FineReader

  3. Po pobraniu w ABBYY FineReader rozpoznawanie tekstu jest automatycznie zaczyna się na obrazku bez interwencji.

    Rozpoznawanie tekstu w pliku graficznym w ABBYY FineReader

    Jeśli chcesz powtórzyć procedurę rozpoznawania, wystarczy nacisnąć przycisk "Rozpoznawaj" w górnym menu.

  4. Uznanie tekstu w pliku graficznym w ABBYY FineReader

  5. Czasami nie wszystkie programy symboli mogą poprawnie rozpoznać. Może to być, jeśli obraz na źródle nie jest zbyt wysokiej jakości, bardzo małą czcionką, istnieje kilka różnych języków w tekście, używane są znaki niestandardowe. Ale nie ma znaczenia, ponieważ błędy można poprawić ręcznie, za pomocą edytora tekstu i zestaw narzędzi, które są zawarte w nim.

    Edycja rozpoznanego tekstu w pliku graficznym w ABBYY FineReader

    Aby ułatwić wyszukiwanie nieścisłości digitalizacji, domyślny program przydziela możliwe błędy z turkusowym kolorem.

  6. Logicznym końcem procesu rozpoznawania jest zachowanie jego wyników. Aby to zrobić, kliknij przycisk "Zapisz" na panelu menu górnego. Domyślnie ma widok na ikony Starego logo Microsoft Word. Przed nami pojawia się okno, gdzie można samodzielnie określić przyszłą lokalizację, w której zostanie umieszczony plik z rozpoznanym tekstem, a także jego format. Dostępne są następujące opcje dotyczące oszczędzania: Doc, DocX, RTF, PDF, Odt, HTML, TXT, XLS, XLSX, PPTX, CSV, FB2, EPUB, DJVU.
  7. Zapisywanie rozpoznanego tekstu w pliku graficznym w ABBYY FineReader

    ABBYY FineReader jest najbardziej zaawansowanym rozwiązaniem, ale jest jednoznacznie zalecany, że uniemożliwia płatnym modelem dystrybucji i ograniczenia wersji próbnej.

Metoda 2: Readiris

Aplikacja Readiris wzmocniła na rynku jako najbliższy zawodnikowi jeźdźca, o którym wspomniano powyżej - zapewnia taką funkcjonalność, niektóre aspekty wykonują trochę lepsze niż produkty ABBYY.

  1. Po uruchomieniu aplikacji wybierz źródło danych dla digitalizacji - ze skanera lub z gotowego pliku graficznego.

    Wybór źródła danych w Readiris do digitalizacji tekstu

    W przykładzie użyjemy ostatniej opcji - dla niego użyj przycisku "z pliku".

  2. Otworzy się okno dialogowe "Eksplorator", w którym należy wybrać niezbędne dokumenty. Większość formatów graficznych jest obsługiwana, a także PDF.
  3. Otwórz plik z informacjami w Readiris do digitalizacji tekstu

  4. Poczekaj, aż dokument zostanie załadowany do programu, po czym należy skonfigurować rozpoznawanie tekstu. Przede wszystkim musisz zainstalować główny język - wybierz go z menu rozwijanego.

    Ustawianie języka rozpoznawania readiris dla cyfryzacji tekstowej

    Polecamy również zauważając opcję "Analiza tekstu", dzięki czemu jakość cyfryzacji jest znacznie poprawiona.

  5. Aktywuj analizę strony Readiris do digitalizacji tekstu

  6. Następnie odnoszą się do menu "Narzędzia" - parametry dostępne w nim pomogą rozwiązać pewne problemy ze skanowaniem, takie jak zniekształcenia perspektywiczne, niewystarczające kontrast obrazu lub przemieszczenia tekstu w stosunku do płótnia.

    Skonfiguruj ustawienia rozpoznawania readiris dla digitalizacji tekstu

    Z tego menu można również poprawić tekst, jeśli rozpoznawanie działało nieprawidłowo.

  7. Regulacja rozpoznawania w Readiris do cyfryzacji tekstowej

  8. Po wprowadzeniu zmian w rozpoznanym tekście ustaw format wyjściowy odebranych danych za pomocą menu tej samej nazwy na pasku narzędzi. Główne formaty są uważane za PDF, a także pliki Microsoft Office (DocX i XLSX) - kliknij żądaną pozycję, aby wybrać.

    Format wyjściowy rozpoznanego tekstu w Readiris do digitalizacji tekstu

    Wszystkie możliwe formaty eksportu są pogrupowane w "Inny" akapit. Oprócz typów typów plików wymienionych powyżej, cyfrowy tekst można zapisać jako dane OpenOffice, pliki hipertekstowe lub zwykły txt.

  9. Możliwe uznane formaty eksportu tekstu w Readiris do digitalizacji tekstu

  10. Po wybraniu formatu otwiera się okno Kreator eksportu. W nim można skonfigurować jeden lub inne parametry odebranego pliku (zależą od wybranego formatu) i opcję Zapisz (lokalna lub w serwisie w chmurze). Po dokonaniu wszystkich wymaganych zmian kliknij OK.

    Zapisywanie rozpoznanego pliku tekstowego w Readiris do digitalizacji tekstu

    Pojawi się ponownie okno "Eksplorator", w którym należy wybrać żądany katalog oszczędzania miejsca docelowego.

  11. Eksport wyników readiris dla cyfryzacji tekstowej

    Ogólnie rzecz biorąc, Readiris jest wygodnym i nowoczesnym rozwiązaniem dla tekstu digitalizacji, jednak płatny model dystrybucji można nazwać znaczącą wadą.

Metoda 3: Ridoc

Inną aplikacją koncentrowaną na skanerach może jednak pracować z lokalnymi plikami w różnych formatach.

  1. Otwórz aplikację. Aby rozpocząć, użyj przycisku "Otwórz" lub "Skaner" na pasku narzędzi - pierwszy jest odpowiedzialny za rozpoznawanie tekstu w plikach lokalnych, druga umożliwia rozpoczęcie digitalizacji jednocześnie ze skanowaniem. Na przykład użyjemy pierwszej opcji.
  2. Otwórz lub skanuj dokument do cyfryzacji tekstowej w Ridoc

  3. W oknie "Eksplorator" przejdź do dokumentu, z którego chcesz uzyskać tekst i wybrać go. Dostępne jest również przetwarzanie wsadowe dokumentów.
  4. Wybierz dokument do digitalizacji tekstu w RIDOC

  5. W razie potrzeby możesz obsługiwać wynikowy plik: Przytnij zdjęcie, ustaw obszar rozpoznawania, naprawić wady skanowania.

    Korekta dokumentu do cyfryzacji tekstowej w RIDOC

    Oddzielnym elementem jest możliwość klejenia - w tym przypadku dokument multistagon zostanie zapisany przez pojedynczy plik. Możesz wybrać wartość DPI i format wyjściowy (dostępne są tylko pliki obrazów).

  6. Opcje kształtowania dla cyfryzacji tekstowej w Ridoc

  7. Rozpoznawać tekst po prawej stronie okna, znajdź zakładkę OCR i otwórz go. Nie ma wielu dostępnych opcji - możesz wybrać tylko język dokumentu. Po zmianie pakietu kliknij przycisk "Rozpoznaj" na pasku narzędzi.

    Zacznij rozpoznać dokument do digitalizacji tekstu w RIDOC

    Stąd można również dostosować wyniki cyfryzacji.

  8. Edycja danych uzyskanych w wyniku cyfryzacji tekstowej w RIDOC

  9. Zapisywanie dokumentów dostępnych w dwóch opcjach - bezpośrednio lub eksport do aplikacji biurowych. Aby wykonać pierwszą metodę, użyj przycisku "Zapisz". Okno zostanie otwarte, w którym można wybrać lokalizację zapisu, a także typu (pojedyncze pliki lub jeden multiplocked). Format zapisanego pliku zależy od klejenia wybranego na scenie.

    Bezpośrednie zapisanie danych uzyskanych w wyniku cyfryzacji tekstowej w RIDOC

    Wyniki eksportowe są możliwe w procesorach tekstowych pakietów Microsoft lub OpenOffice Pakiety, jako e-mail (przycisk poczty), w formacie PDF lub drukowaniu na drukarce. Do eksportu do programów biurowych muszą być instalowane na komputerze, przy zachowaniu PDF jest możliwe nawet bez odpowiednich aplikacji.

  10. Eksport danych uzyskanych w wyniku cyfryzacji tekstowej w RIDOC

    Jak widzimy, zagadka jest silną decyzją, ale dla prostych wariantów, digitalizacja jest dość odpowiednia.

Metoda 4: Capture2Text

Małe narzędzie, które pozwala rozpoznać tekst z dowolnego obszaru na ekranie komputera, całkowicie bezpłatne i łatwe w użyciu.

Pobierz Capture2Text z oficjalnej strony

  1. Załaduj archiwum z programem i rozpakuj go w dowolnym wygodnym miejscu. Następnie przejdź do uzyskanego katalogu i uruchom plik wykonywalny.

    Uruchom Capture2Text do digitalizacji tekstu

    Następnie otwórz zasobnik systemowy - Ikona użyteczności powinna pojawić się w nim.

    Rozpoczęty ikonę Capture2Text w zasobniku systemowym dla cyfryzacji tekstowej

    Aby zmienić język rozpoznawania, kliknij prawym przyciskiem myszy ikonę Capture2Text w zasobniku systemowym, a następnie wybierz "OCR Język" w ustawieniach i ustaw żądany język.

  2. Zmiana języka rozpoznawania Capture2Text w zasobniku systemowym dla digitalizacji tekstu

  3. Otwórz plik, tekst, z którego chcesz digitalizować, na przykład, dokumentu DJVU bez warstwy tekstowej. Gdy plik jest otwarty, naciśnij kombinację klawisza WIN + q i wybierz obszar rozpoznawania.
  4. Wybór obszaru rozpoznawania w programie Capture2Text do digitalizacji tekstu

  5. Okno Utility pojawi się z wyników rozpoznawania. Uzyskane dane można skopiować do dowolnej aplikacji, która obsługuje wpisując tekst użytkownika.
  6. Capture2Text Work Wyniki w cyfryzacji tekstowej

    Aplikacja jest niezwykle prosta, ale zamienia się w ograniczoną funkcjonalność, a czasem nieprawidłowe rozpoznawanie rosyjskiego tekstu. Również dla wad możemy przypisać brak lokalizacji w rosyjski. Jednak dla niektórych użytkowników te minusy są nieznaczne, a główne możliwości będą wystarczające.

Metoda 5: Cuniform

Kolejna decyzja o digitalizacji tekstu utworzonego w przestrzeni powietrznej. Pomimo zaprzestania rozwoju jest nadal istotne.

  1. Podobnie jak wiele innych programów prezentowanych w tym artykule, KuneForm wie, jak pracować z gotowymi obrazami i odbierać dane bezpośrednio ze skanera. Używamy pierwszej opcji - aby to zrobić, otwórz menu "Plik" i wybierz Otwórz element.
  2. Otwórz plik graficzny do cyfryzacji tekstowej w klinice

  3. Poprzez "Eksplorator" wybierz żądany plik lub pliki.
  4. Wybierz plik graficzny do digitalizacji tekstu w klinice

  5. Po pobraniu danych do programu, użyj elementów "Rozpoznawanie" - "Autosmetyczne".

    Opublikuj plik graficzny do digitalizacji tekstu w klinice

    Pozwoli to wybrać obszary z tekstem, aby uzyskać bardziej poprawne działanie modułu OCR. Jeśli automatyczne algorytmy nieprawidłowo podano stroną, obszar tekstowy może być sterowany ręcznie lub usunięty.

  6. Skonfiguruj oznakowanie pliku graficznego do digitalizacji tekstu w klinice

  7. Następnie możesz zaangażować się bezpośrednio przez digitalizację. Otwórz ponownie menu "Rozpoznawanie" i wybierz opcję o tej samej nazwie.
  8. Rozpocznij rozpoznawanie pliku graficznego do digitalizacji tekstu w klinice

  9. Uznany tekst zostanie otwarty w oknie aplikacji, gdzie można go również edytować. Funkcje są dość obszerne i odpowiadają pełnoprawnym edytorze tekstu. Jeśli na komputerze zainstalowano MS Word Słowo, otrzymane dane będą otwarte przez jego interfejs.
  10. Edycja cyfrowego tekstu graficznego w klinice

  11. Zapisywanie wyników pracy dostępnej na elementach "Plik" - "Zapisz".

    Zapisywanie cyfrowego tekstu pliku graficznego w klinice

    W "Eksplorator" wybierz lokalizację odebranego pliku i jego format. Niewiele opcji jest obsługiwane: TXT, RTF, Wewnętrzny format Fed, a także eksport do aplikacji Microsoft Office (Word i Excel).

  12. Jak widać, Cuniform jest prosty, a jednocześnie potężne narzędzie do digitalizacji tekstu. Zaletą wagi będzie jednak modelem dystrybucji wolnej, jednak wady w formie końca wsparcia i braku formatu PDF mogą spowodować stosowanie do alternatyw.

Wniosek

Jak widać, rozpoznać tekst z obrazu jest dość prosty, jeśli używasz specjalistycznych aplikacji. Ta procedura nie wymaga dużego wysiłku, a korzyści będą w świetnym oszczędzaniu czasu.

Czytaj więcej