ऑनलाइन पीडीएफ फाइल को कैसे पहचानें

आप हमेशा सामान्य प्रति विधि का उपयोग कर पीडीएफ फ़ाइल से पाठ को हटा नहीं सकते हैं। अक्सर, ऐसे दस्तावेजों के पृष्ठ उनके पेपर विकल्पों की स्कैन की गई सामग्री हैं। ऐसी फ़ाइलों को पूरी तरह से संपादन योग्य टेक्स्ट डेटा में कनवर्ट करने के लिए, ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर) फ़ंक्शन के साथ विशेष कार्यक्रमों का उपयोग किया जाता है।

ऐसे निर्णय बिक्री में बहुत जटिल हैं और इसलिए, काफी पैसे हैं। यदि पीडीएफ के साथ पाठ मान्यता की आवश्यकता नियमित रूप से उत्पन्न होती है, तो उचित कार्यक्रम खरीदने के लिए काफी सलाह दी जाएगी। दुर्लभ मामलों के लिए, समान सुविधाओं के साथ उपलब्ध ऑनलाइन सेवाओं में से एक अधिक तार्किक होगा।

ऑनलाइन पीडीएफ के साथ पाठ को कैसे पहचानें

बेशक, पूर्ण डेस्कटॉप समाधानों की तुलना में ओसीआर ऑनलाइन सेवाओं की विशेषताओं का एक सेट अधिक सीमित है। लेकिन ऐसे संसाधनों या पूरी तरह से मुक्त या प्रतीकात्मक शुल्क के साथ काम करना संभव है। मुख्य बात यह है कि इसके मुख्य कार्य के साथ, अर्थात्, पाठ की मान्यता के साथ, संबंधित वेब अनुप्रयोग भी सामना करेंगे।

विधि 1: अब्बी Finereader ऑनलाइन

सेवा डेवलपर कंपनी दस्तावेजों की ऑप्टिकल मान्यता के क्षेत्र में नेताओं में से एक है। विंडोज और मैक के लिए एबीबीई फिनर रीडर पीडीएफ को टेक्स्ट में बदलने और इसके साथ आगे काम करने के लिए एक शक्तिशाली समाधान है।

कार्यक्रम का वेब एनालॉग, निश्चित रूप से, कार्यक्षमता द्वारा हीन है। फिर भी, सेवा 190 से अधिक भाषाओं में स्कैन और तस्वीरों से पाठ को पहचान सकती है। वर्ड, एक्सेल दस्तावेज़ इत्यादि में समर्थित पीडीएफ फ़ाइल रूपांतरण।

ऑनलाइन सेवा Abbyy Finereader ऑनलाइन

एक उपकरण के साथ काम करना शुरू करने से पहले, साइट पर एक खाता बनाएं या फेसबुक, Google या Microsoft खाते के साथ लॉग इन करें।

प्राधिकरण विंडो पर जाने के लिए, शीर्ष मेनू पैनल में "लॉगिन" बटन पर क्लिक करें।
लॉग इन करके, "फ़ाइलों को डाउनलोड करें" बटन का उपयोग करके, फिनरिएडर में वांछित पीडीएफ दस्तावेज़ आयात करें।

फिर "पृष्ठ संख्या का चयन करें" पर क्लिक करें और पाठ को पहचानने के लिए वांछित अंतर निर्दिष्ट करें।
इसके बाद, दस्तावेज़ में मौजूद भाषाओं का चयन करें, परिणाम फ़ाइल प्रारूप और "पहचान" बटन पर क्लिक करें।
प्रसंस्करण के बाद, जिसकी अवधि पूरी तरह से दस्तावेज़ की मात्रा पर निर्भर करती है, आप इसके नाम पर क्लिक करके टेक्स्ट डेटा के साथ एक तैयार फ़ाइल डाउनलोड कर सकते हैं।

या तो इसे उपलब्ध क्लाउड सेवाओं में से एक में निर्यात करें।

यह सेवा शायद छवियों और पीडीएफ फाइलों पर सबसे सटीक पाठ मान्यता एल्गोरिदम है। लेकिन, दुर्भाग्यवश, इसका मुफ्त उपयोग प्रति माह पांच-संसाधित पृष्ठों तक सीमित है। अधिक विशाल दस्तावेजों के साथ काम करने के लिए, आपको एक वार्षिक सदस्यता खरीदनी होगी।

हालांकि, अगर ओसीआर फ़ंक्शन की बहुत कम आवश्यकता होती है, तो शायद ही कभी भी छोटी पीडीएफ फाइलों से टेक्स्ट निकालने का एक उत्कृष्ट विकल्प है।

विधि 2: मुफ्त ऑनलाइन ओसीआर

सरल और सुविधाजनक पाठ डिजिटाइजिंग टेक्स्ट। पंजीकरण करने की आवश्यकता के बिना, संसाधन आपको प्रति घंटे 15 पूर्ण पीडीएफ पृष्ठों को पहचानने की अनुमति देता है। नि: शुल्क ऑनलाइन ओसीआर पूरी तरह से 46 भाषाओं में दस्तावेजों के साथ काम करता है और प्राधिकरण के बिना तीन पाठ निर्यात - डॉक्स, एक्सएलएसएक्स और txt का समर्थन करता है।

पंजीकरण करते समय, उपयोगकर्ता को बहु-पृष्ठ दस्तावेज़ों को संसाधित करने का अवसर मिलता है, हालांकि, इन पृष्ठों की निःशुल्क संख्या 50 इकाइयों तक सीमित है।

ऑनलाइन सेवा मुफ्त ऑनलाइन ओसीआर

पीडीएफ से पाठ को "अतिथि" के रूप में पहचानने के लिए, संसाधन पर प्राधिकरण के बिना, साइट के मुख्य पृष्ठ पर उपयुक्त फॉर्म का उपयोग करें।

फ़ाइल बटन का उपयोग करके वांछित दस्तावेज़ का चयन करें, टेक्स्ट, आउटपुट प्रारूप की मुख्य भाषा निर्दिष्ट करें, फिर फ़ाइल को डाउनलोड करने और कनवर्ट करने के लिए प्रतीक्षा करें।
डिजिटलीकरण प्रक्रिया के अंत में, कंप्यूटर पर टेक्स्ट के साथ तैयार दस्तावेज़ को सहेजने के लिए "आउटपुट फ़ाइल डाउनलोड करें" पर क्लिक करें।

अधिकृत उपयोगकर्ताओं के लिए, कार्यों का अनुक्रम कुछ हद तक अलग है।

शीर्ष मेनू पैनल में क्रमशः "रजिस्टर" या "लॉगिन" बटन का उपयोग करें, एक नि: शुल्क ऑनलाइन ओसीआर खाता बनाएं या उस पर जाएं।
मान्यता पैनल में प्राधिकरण के बाद, "CTRL" कुंजी धारण करने के बाद, प्रस्तावित सूची से स्रोत दस्तावेज़ की दो भाषाओं का चयन करें।
पीडीएफ से आगे टेक्स्ट निष्कर्षण पैरामीटर निर्दिष्ट करें और सेवा में दस्तावेज़ डाउनलोड करने के लिए फ़ाइल बटन का चयन करें पर क्लिक करें।

फिर, मान्यता के साथ आगे बढ़ने के लिए, "कनवर्ट करें" पर क्लिक करें।
दस्तावेज़ की प्रसंस्करण के अंत में, उपयुक्त कॉलम में आउटपुट फ़ाइल नामक लिंक पर क्लिक करें।

मान्यता का परिणाम तुरंत आपके कंप्यूटर की स्मृति में सहेजा जाएगा।

यदि आवश्यक हो, तो एक छोटे से पीडीएफ दस्तावेज़ से टेक्स्ट को हटाएं ऊपर वर्णित टूल के उपयोग के लिए सुरक्षित हो सकता है। चमकदार फाइलों के साथ काम करने के लिए, आपको मुफ्त ऑनलाइन ओसीआर में अतिरिक्त पात्र खरीदना होगा या किसी अन्य समाधान का सहारा लेना होगा।

विधि 3: न्यूओसीओसी

पूरी तरह से मुफ्त ओसीआर सेवा जो आपको डीजेवीयू और पीडीएफ जैसे लगभग किसी भी ग्राफिक और इलेक्ट्रॉनिक दस्तावेजों से टेक्स्ट निकालने की अनुमति देती है। संसाधन आकार और पहचानने योग्य फ़ाइलों की संख्या पर प्रतिबंध लागू नहीं करता है, पंजीकरण की आवश्यकता नहीं है और संबंधित कार्यों की एक विस्तृत श्रृंखला प्रदान करता है।

न्यूओसीआर 106 भाषाओं का समर्थन करता है और दस्तावेजों के निम्न गुणवत्ता वाले स्कैन को सही ढंग से संसाधित कर सकता है। फ़ाइल पृष्ठ पर टेक्स्ट मान्यता क्षेत्र को मैन्युअल रूप से चुनना संभव है।

ऑनलाइन सेवा न्यूओसी

इसलिए, आप अतिरिक्त कार्य करने की आवश्यकता के बिना तुरंत संसाधन के साथ काम करना शुरू कर सकते हैं।

मुख्य पृष्ठ पर सीधे साइट पर दस्तावेज़ आयात करने के लिए एक फॉर्म है। न्यूओसीआर में फ़ाइल डाउनलोड करने के लिए, अपने फ़ाइल अनुभाग का चयन करें फ़ाइल का उपयोग करें बटन का उपयोग करें। फिर "मान्यता भाषा (ओं)" फ़ील्ड में, एक या अधिक स्रोत दस्तावेज़ भाषा निर्दिष्ट करें, और उसके बाद "अपलोड + ओसीआर" पर क्लिक करें।
अपनी पसंदीदा मान्यता सेटिंग्स निर्दिष्ट करें, टेक्स्ट को पुनर्प्राप्त करने के लिए वांछित पृष्ठ का चयन करें और OCR बटन पर क्लिक करें।
पृष्ठ को थोड़ा कम करें और "डाउनलोड करें" बटन को नीचे स्क्रॉल करें।

उस पर क्लिक करें और ड्रॉप-डाउन सूची में, डाउनलोड करने के लिए दस्तावेज़ के वांछित प्रारूप का चयन करें। इसके बाद, निकाले गए पाठ के साथ तैयार फ़ाइल आपके कंप्यूटर पर डाउनलोड की जाएगी।

उपकरण सुविधाजनक है और काफी अच्छी तरह से सभी पात्रों को पहचानता है। हालांकि, आयातित पीडीएफ दस्तावेज़ के प्रत्येक पृष्ठ की प्रसंस्करण स्वतंत्र रूप से लॉन्च किया जाना चाहिए और एक अलग फ़ाइल में प्रदर्शित किया जाना चाहिए। आप निश्चित रूप से, तुरंत मान्यता परिणामों को क्लिपबोर्ड में कॉपी कर सकते हैं और उन्हें दूसरों के साथ जोड़ सकते हैं।

फिर भी, उपर्युक्त वर्णित नुंस को देखते हुए, न्यूओसी को बहुत मुश्किल निकालने के लिए पाठ की बड़ी मात्रा को देखते हुए। छोटी फ़ाइलों के साथ, सेवा एक धमाके के साथ "पुलिस।

विधि 4: ocr.space

टेक्स्ट डिजिटाइजेशन के लिए एक सरल और समझने योग्य संसाधन आपको पीडीएफ दस्तावेज़ों को पहचानने और टीएफटी फ़ाइल में परिणाम आउटपुट करने की अनुमति देता है। पृष्ठों की संख्या में कोई सीमा प्रदान नहीं की जाती है। एकमात्र सीमा इनपुट दस्तावेज़ का आकार 5 मेगाबाइट से अधिक नहीं होनी चाहिए।

ऑनलाइन सेवा ocr.space

आपको उपकरण के साथ काम करने के लिए पंजीकरण करने की आवश्यकता नहीं है।

बस ऊपर दिए गए लिंक पर क्लिक करें और "फ़ाइल का चयन करें" बटन या संदर्भ द्वारा नेटवर्क से कंप्यूटर से साइट पर पीडीएफ दस्तावेज़ डाउनलोड करें।
ओसीआर भाषा ड्रॉप-डाउन सूची का चयन करें, आयातित दस्तावेज़ की भाषा का चयन करें।

फिर "स्टार्ट ओसीआर" बटन पर क्लिक करके पाठ पहचान प्रक्रिया चलाएं।
फ़ाइल प्रसंस्करण के अंत में, परिणाम ओसीआरएड परिणाम फ़ील्ड में परिणाम देखें और समाप्त TXT दस्तावेज़ को डाउनलोड करने के लिए "डाउनलोड" पर क्लिक करें।

यदि आपको केवल पीडीएफ से टेक्स्ट निकालने की आवश्यकता है और साथ ही अंतिम स्वरूपण यह बिल्कुल महत्वपूर्ण नहीं है, ocr.space एक अच्छी पसंद है। एकमात्र, दस्तावेज़ "एकल भाषी" होना चाहिए, क्योंकि सेवा में एक साथ दो या दो से अधिक भाषाओं की मान्यता प्रदान नहीं की गई है।

यह भी पढ़ें: Finereader मानार्थ अनुरूप

लेख में प्रस्तुत ऑनलाइन उपकरणों का मूल्यांकन करना ध्यान दिया जाना चाहिए कि एबीबीवाई से ऑनलाइन फिनर रीडर ओसीआर फ़ंक्शन के साथ सबसे सटीक और गुणात्मक रूप से है। यदि आप पाठ पहचान की अधिकतम विकृति के लिए महत्वपूर्ण हैं, तो यह विशेष रूप से इस विकल्प पर विचार करना सर्वोत्तम है। लेकिन वे सबसे अधिक संभावना उसके लिए भुगतान करेंगे।

यदि आपको छोटे दस्तावेजों के डिजिटलीकरण की आवश्यकता है और आप सेवा त्रुटियों को सही तरीके से सही करने के लिए तैयार हैं, तो सलाह दी जाती है कि न्यूक्रा, ओसीआर। स्पेस या मुफ्त ऑनलाइन ओसीआर का उपयोग करें।