Витягти текст з PDF-файлу шляхом простого копіювання можна далеко не завжди. Часто сторінки подібних документів є відскановане вміст їх паперових варіантів. Для перетворення таких файлів в повністю редаговані текстові дані використовуються спеціальні програми з функцією Optical Character Recognition (OCR).
Такі рішення є досить складними в реалізації і, отже, коштують чималих грошей. Якщо потреба в розпізнаванні тексту з PDF у вас виникає регулярно, цілком доцільно буде придбати відповідну програму. Для рідкісних же випадків більш логічним буде скористатися одним з доступних онлайн-сервісів з подібними функціями.
Як розпізнати текст з PDF онлайн
Звичайно, набір можливостей онлайн-сервісів OCR, в порівнянні з повноцінними десктопними рішеннями, більш обмежений. Але і працювати з такими ресурсами можна або ж зовсім безкоштовно, або за символічну плату. Головне, що з основним своїм завданням, а саме з розпізнаванням тексту, відповідні веб-додатки справляються так само добре.Спосіб 1: ABBYY FineReader Online
Компанія-розробник сервісу - одна з лідерів в області оптичного розпізнавання документів. ABBYY FineReader для Windows і Mac є потужним рішенням для перетворення PDF в текст і подальшої роботи з ним.
Веб-аналог програми, звичайно ж, поступається їй за функціоналом. Проте сервіс вміє розпізнавати текст зі сканів і фотографій на більш ніж 190 мовами. Підтримується перетворення PDF-файлів в документи Word, Excel і т.п.
Онлайн-сервіс ABBYY FineReader Online
- Перш ніж приступити до роботи з інструментом, створіть акаунт на сайті або увійдіть за допомогою облікового запису Facebook, Google або Microsoft.
Щоб перейти до вікна авторизації, натисніть на кнопку «Вхід» у верхній панелі меню.
- Здійснивши вхід, імпортуйте потрібний PDF-документ в FineReader, скориставшись кнопкою «Завантажити файли».
Потім натисніть «Вибрати номера сторінок» і вкажіть бажаний проміжок для розпізнавання тексту.
- Далі виберіть мови, присутні в документі, формат підсумкового файлу і натисніть на кнопку «Розпізнати».
- Після обробки, тривалість якої повністю залежить від обсягу документа, ви можете завантажити готовий файл з текстовими даними просто клацнувши по його назві.
Або ж експортуйте його в один з доступних хмарних сервісів.
Сервіс відрізняється, ймовірно, найбільш точними алгоритмами розпізнавання тексту на зображеннях і PDF-файлах. Але, на жаль, його безкоштовне використання обмежене п'ятьма робочою сторінками в місяць. Щоб працювати з більш об'ємними документами, доведеться купити річну передплату.
Проте, якщо функція OCR потрібна зовсім уже й рідко, ABBYY FineReader Online - відмінний варіант для вилучення тексту з невеликих PDF-файлів.
Спосіб 2: Free Online OCR
Простий і зручний сервіс для оцифровки тексту. Без необхідності реєстрації ресурс дозволяє розпізнавати 15 повних PDF-сторінок на годину. Free Online OCR повноцінно працює з документами на 46 мовах і без авторизації підтримує три формату експорту тексту - DOCX, XLSX і TXT.
При реєстрації користувач отримує можливість обробляти багатосторінкові документи, проте безкоштовне кількість цих самих сторінок обмежена 50 одиницями.
Онлайн-сервіс Free Online OCR
- Щоб розпізнати текст з PDF як «гість», без авторизації на ресурсі, скористайтеся відповідною формою на головній сторінці сайту.
Виберіть потрібний документ за допомогою кнопки «Файл», вкажіть основну мову тексту, вихідний формат, потім дочекайтеся завантаження файлу і натисніть «Конвертувати».
- Після закінчення процесу оцифровки натисніть «Завантажити вихідний файл» для збереження готового документа з текстом на комп'ютері.
Для авторизованих же користувачів послідовність дій дещо інша.
- Скористайтеся кнопкою «Реєстрація» або «Вхід» у верхній панелі меню, щоб, відповідно, створити обліковий запис Free Online OCR або зайти в неї.
- Після авторизації в панелі розпізнавання, утримуючи клавішу «CTRL», виберіть до двох мов вихідного документа із запропонованого списку.
- Вкажіть подальші параметри вилучення тексту з PDF і натисніть кнопку «Вибрати файл» для завантаження документа в сервіс.
Потім, щоб приступити до розпізнавання, клацніть «Конвертувати».
- Після закінчення обробки документа натисніть на посилання з назвою вихідного файлу у відповідній колонці.
Результат розпізнавання відразу ж буде збережений в пам'яті вашого комп'ютера.
При необхідності витягти текст з невеликого PDF-документа можна сміливо вдаватися до використання вищеописаного інструменту. Для роботи ж з об'ємними файлами доведеться купити додаткові символи у Free Online OCR або ж вдатися до іншого рішення.
Спосіб 3: NewOCR
Повністю безкоштовний OCR-сервіс, який дозволяє добувати текст практично з будь-яких графічних та електронних документів на кшталт DjVu і PDF. Ресурс не накладає обмежень на розмір і кількість розпізнаваних файлів, не вимагає реєстрації і пропонує широкий набір супутніх функцій.
NewOCR підтримує 106 мов і вміє коректно обробляти навіть низькоякісні скани документів. Є можливість вручну вибирати область для розпізнавання тексту на сторінці файлу.
Онлайн-сервіс NewOCR
- Так, приступити до роботи з ресурсом ви можете відразу, без необхідності виконання зайвих дій.
Прямо на головній сторінці розміщена форма для імпорту документа на сайт. Щоб завантажити файл в NewOCR, скористайтеся кнопкою «Виберіть файл» в розділі «Select your file». Потім в полі «Recognition language (s)» вкажіть один або більше мов вихідного документа, після чого натисніть «Upload + OCR».
- Задайте бажані настройки розпізнавання, виберіть потрібну сторінку для вилучення тексту і натисніть на кнопку «OCR».
- Прокрутіть сторінку трохи нижче і знайдіть кнопку «Download».
Клацніть по ній і в випадаючому списку виберіть необхідний формат документа для скачування. Після цього готовий файл з витягнутим текстом буде завантажений на ваш комп'ютер.
Інструмент зручний і досить якісно розпізнає всі символи. Втім, обробку кожної сторінки імпортованого PDF-документа потрібно запускати самостійно і виводиться вона в окремий файл. Можна, звичайно, відразу копіювати результати розпізнавання в буфер обміну і об'єднувати їх з іншими.
Проте, з огляду на вищеописаний нюанс, великі обсяги тексту за допомогою NewOCR витягувати вельми скрутно. З малими ж файлами сервіс справляється «на ура».
Спосіб 4: OCR.Space
Простий і зрозумілий ресурс для оцифровки тексту, дозволяє розпізнавати PDF-документи і виводити результат в TXT-файл. Ніяких лімітів за кількістю сторінок не передбачено. Єдине обмеження - розмір вхідного документа не повинен перевищувати 5 мегабайт.
Онлайн-сервіс OCR.Space
- Реєструватися для роботи з інструментом не потрібно.
Просто перейдіть за посиланням вище і завантажте PDF-документ на сайт з комп'ютера за допомогою кнопки «Виберіть файл» або з мережі - за посиланням.
- У випадаючому списку «Select OCR language» виберіть мову імпортованого документа.
Потім запустіть процес розпізнавання тексту, натиснувши кнопку «Start OCR!».
- Після закінчення обробки файлу ознайомтеся з результатом в поле «OCR'ed Result» і натисніть «Download», щоб завантажити готовий TXT-документ.
Якщо вам потрібно просто витягти текст з PDF і при цьому фінальне його форматування зовсім не важливо, OCR.Space - хороший вибір. Єдине, документ повинен бути «одномовних», так як розпізнавання двох і більше мов одночасно в сервісі не передбачено.
Читайте також: Безкоштовні аналоги FineReader
Оцінюючи онлайн-інструменти, представлені в статті, слід зазначити, що найбільш точно і якісно з функцією OCR справляється FineReader Online від ABBYY. Якщо для вас важлива саме максимальна точність розпізнавання тексту, найкраще розглянути конкретно цей варіант. Але і заплатити за нього, швидше за все, також доведеться.
Якщо ж потрібна оцифровка невеликих документів і ви готові самостійно виправляти помилки за сервісом, доцільно використовувати NewOCR, OCR.Space або Free Online OCR.