तस्वीर से पाठ को कैसे पहचानें

Anonim

कंप्यूटर पर टेक्स्ट को कैसे अंकित करें

हाल ही में, आप एक ऐसी स्थिति का सामना कर सकते हैं जहां आपको छवियों में निहित किसी भी पाठ को इलेक्ट्रॉनिक टेक्स्ट फॉर्म में अनुवाद करने की आवश्यकता है। समय बचाने के लिए, मैन्युअल रूप से पुनर्मुद्रण न करने के लिए, आपको टेक्स्ट को पहचानने के लिए विशेष कंप्यूटर अनुप्रयोगों का उपयोग करना चाहिए, जिसे हम आज बताएंगे।

पाठ को डिजिटाइज कैसे करें

बाजार में टेक्स्ट डिजिटाइजिंग अनुप्रयोगों के लिए कई एप्लिकेशन हैं, इसलिए प्रत्येक उपयोगकर्ता को एक समाधान मिलेगा जो आवश्यकताओं को पूरा करता है।

विधि 1: अब्बी फिनरिएडर

रूसी डेवलपर से इस सशर्त रूप से मुफ्त ऐप में एक बड़ी कार्यक्षमता है और न केवल पाठ को पहचानने की अनुमति देता है, बल्कि इसे संपादित करने, विभिन्न प्रारूपों और स्कैनिंग पेपर स्रोतों में सहेजने की अनुमति देता है।

  1. तस्वीर में पाठ को पहचानने के लिए, सबसे पहले, आपको इसे प्रोग्राम पर अपलोड करने की आवश्यकता है। ऐसा करने के लिए, अब्बी फिनरेडर लॉन्च करने के बाद, "ओसीआर संपादक में ओपन" बटन पर क्लिक करें।

    Abbyy Finereader में पाठ को पहचानने के लिए एक ग्राफिक फ़ाइल खोलें

    इस क्रिया के बाद, एक स्रोत चयन विंडो खुलती है जहां आपको वांछित छवि को ढूंढना और खोलना चाहिए। निम्नलिखित लोकप्रिय प्रारूप समर्थित हैं: जेपीईजी, पीएनजी, जीआईएफ, टीआईएफएफ, एक्सपीएस, बीएमपी, आदि, साथ ही साथ पीडीएफ और डीजेवीयू फाइलें।

  2. ABBYY Finereader में पाठ पहचान कंडक्टर में एक ग्राफिक फ़ाइल का चयन करें

  3. अब्बी फिनरेडर में डाउनलोड करने के बाद, पाठ पहचान स्वचालित रूप से आपके हस्तक्षेप के बिना तस्वीर में शुरू होती है।

    ABBYY FINEREADER में एक ग्राफिक फ़ाइल में पाठ पहचान

    यदि आप मान्यता प्रक्रिया को दोहराना चाहते हैं, तो बस शीर्ष मेनू में "पहचान" बटन दबाएं।

  4. ABBYY FINEREADER में एक ग्राफिक फ़ाइल में पाठ की पहचान

  5. कभी-कभी सभी प्रतीक प्रोग्राम सही ढंग से पहचान नहीं सकते हैं। यह हो सकता है कि स्रोत पर छवि बहुत अधिक गुणवत्ता, बहुत छोटा फ़ॉन्ट नहीं है, टेक्स्ट में कई अलग-अलग भाषाएं हैं, गैर-मानक वर्णों का उपयोग किया जाता है। लेकिन इससे कोई फर्क नहीं पड़ता, क्योंकि एक टेक्स्ट एडिटर और इसमें शामिल टूल्स का एक सेट मैन्युअल रूप से त्रुटियों को सही किया जा सकता है।

    ABBYY FINEREADER में एक ग्राफिक फ़ाइल में मान्यता प्राप्त पाठ को संपादित करना

    डिजिटलीकरण की त्रुटियों की खोज को सुविधाजनक बनाने के लिए, डिफ़ॉल्ट प्रोग्राम फ़िरोज़ा रंग के साथ संभावित त्रुटियों को आवंटित करता है।

  6. मान्यता प्रक्रिया का तार्किक अंत अपने परिणामों को संरक्षित करना है। ऐसा करने के लिए, शीर्ष मेनू पैनल पर "सहेजें" बटन पर क्लिक करें। डिफ़ॉल्ट रूप से, यह पुराने माइक्रोसॉफ्ट वर्ड लोगो के आइकन का एक दृश्य है। एक खिड़की हमारे सामने दिखाई देती है जहां आप स्वतंत्र रूप से भविष्य के स्थान को निर्धारित कर सकते हैं जिसमें मान्यता प्राप्त पाठ वाली फ़ाइल स्थित होगी, साथ ही साथ इसके प्रारूप भी। निम्नलिखित विकल्प बचत के लिए उपलब्ध हैं: डॉक्टर, डीओसीएक्स, आरटीएफ, पीडीएफ, ओडीटी, एचटीएमएल, टीएफटी, एक्सएलएस, एक्सएलएसएक्स, पीपीटीएक्स, सीएसवी, एफबी 2, ईपीबीबी, डीजेवीयू।
  7. Abbyy Finereader में एक ग्राफिक फ़ाइल में मान्यता प्राप्त पाठ को सहेजना

    एबीबीई फिनरेडर सबसे उन्नत समाधान है, लेकिन यह स्पष्ट रूप से अनुशंसा की जाती है कि यह वितरण के भुगतान मॉडल को रोकता है और परीक्षण संस्करण को सीमित करता है।

विधि 2: रीडिरिस

रीडिरिस एप्लिकेशन ने बाजार में उपरोक्त वर्णित फंके राइडर के निकटतम प्रतिद्वंद्वी के रूप में मजबूत किया है - यह ऐसी कार्यक्षमता प्रदान करता है, कुछ पहलू अब्बी उत्पादों की तुलना में थोड़ा बेहतर प्रदर्शन करते हैं।

  1. एप्लिकेशन शुरू करने के बाद, Digitization के लिए डेटा स्रोत का चयन करें - स्कैनर से या समाप्त ग्राफिक फ़ाइल से।

    पाठ को डिजिटाइज करने के लिए रीडिरिस में डेटा स्रोत का चयन करना

    उदाहरण में, हम अंतिम विकल्प का उपयोग करेंगे - इसके लिए, "फ़ाइल से" बटन का उपयोग करें।

  2. "एक्सप्लोरर" संवाद बॉक्स खुलता है, जिसमें आपको आवश्यक दस्तावेजों का चयन करना चाहिए। अधिकांश ग्राफिक प्रारूप समर्थित हैं, साथ ही साथ पीडीएफ भी हैं।
  3. पाठ को डिजिटाइज करने के लिए रीडिरिस में जानकारी के साथ खुली फ़ाइल

  4. जब तक दस्तावेज़ प्रोग्राम में लोड नहीं होता है तब तक प्रतीक्षा करें, जिसके बाद टेक्स्ट मान्यता को कॉन्फ़िगर किया जाना चाहिए। सबसे पहले, आपको मुख्य भाषा स्थापित करने की आवश्यकता है - इसे ड्रॉप-डाउन मेनू से चुनें।

    पाठ डिजिटलीकरण के लिए रीडिरिस मान्यता भाषा सेट करना

    हम "टेक्स्ट विश्लेषण" विकल्प को नोट करने की भी सलाह देते हैं, धन्यवाद जिसके लिए डिजिटलीकरण की गुणवत्ता में काफी सुधार हुआ है।

  5. पाठ को डिजिटाइज करने के लिए रीडिरिस पेज विश्लेषण को सक्रिय करें

  6. इसके बाद, "टूल्स" मेनू देखें - इसमें उपलब्ध पैरामीटर कुछ स्कैनिंग समस्याओं को हल करने में मदद करेंगे, जैसे परिप्रेक्ष्य विरूपण, चित्र के अपर्याप्त अंतर या कैनवेज के सापेक्ष पाठ के विस्थापन।

    पाठ डिजिटलीकरण के लिए Readiris मान्यता सेटिंग्स कॉन्फ़िगर करें

    इस मेनू से, यदि मान्यता गलत तरीके से काम किया है तो आप टेक्स्ट को भी सही कर सकते हैं।

  7. पाठ डिजिटलीकरण के लिए रीडिरिस में मान्यता समायोजन

  8. मान्यता प्राप्त पाठ में परिवर्तन करने के बाद, टूलबार में उसी नाम के मेनू के माध्यम से प्राप्त डेटा के आउटपुट प्रारूप को सेट करें। मुख्य प्रारूपों को पीडीएफ, साथ ही माइक्रोसॉफ्ट ऑफिस फाइलों (डॉक्स और एक्सएलएसएक्स) माना जाता है - चुनने के लिए वांछित स्थिति पर क्लिक करें।

    पाठ को डिजिटाइज करने के लिए रीडिरिस में मान्यता प्राप्त पाठ का आउटपुट प्रारूप

    सभी संभावित निर्यात प्रारूपों को "अन्य" अनुच्छेद में समूहीकृत किया गया है। ऊपर वर्णित फ़ाइल प्रकारों के प्रकार के अलावा, डिजिटलीकृत पाठ को ओपनऑफिस डेटा, हाइपरटेक्स्ट फ़ाइलें या सामान्य txt के रूप में सहेजा जा सकता है।

  9. पाठ को डिजिटाइज करने के लिए रीडिरिस में संभावित मान्यता प्राप्त पाठ निर्यात प्रारूप

  10. प्रारूप का चयन करने के बाद, निर्यात विज़ार्ड विंडो खुलती है। इसमें, आप प्राप्त फ़ाइल (चयनित प्रारूप पर निर्भर) और सहेजें विकल्प (स्थानीय या क्लाउड सेवा में) के एक या अन्य पैरामीटर को कॉन्फ़िगर कर सकते हैं। सभी आवश्यक परिवर्तन करने के बाद, ठीक क्लिक करें।

    पाठ को डिजिटाइज करने के लिए रीडिरिस में मान्यता प्राप्त टेक्स्ट फ़ाइल को सहेजना

    "एक्सप्लोरर" विंडो फिर से दिखाई देगी, जिसमें आपको वांछित गंतव्य की बचत निर्देशिका का चयन करना चाहिए।

  11. पाठ डिजिटलीकरण के लिए रीडिरिस का निर्यात

    आम तौर पर, रीडिरिस डिजिटाइजिंग टेक्स्ट के लिए एक सुविधाजनक और आधुनिक समाधान है, हालांकि, वितरण के एक भुगतान मॉडल को एक महत्वपूर्ण नुकसान कहा जा सकता है।

विधि 3: रिडोक

स्कैनर पर एक और आवेदन केंद्रित, हालांकि विभिन्न प्रारूपों में स्थानीय फ़ाइलों के साथ काम कर सकता है।

  1. आवेदन खोलें। प्रारंभ करने के लिए, टूलबार पर "ओपन" या "स्कैनर" बटन का उपयोग करें - पहला व्यक्ति स्थानीय फ़ाइलों में टेक्स्ट की मान्यता के लिए ज़िम्मेदार है, दूसरा आपको स्कैनिंग के साथ एक साथ डिजिटलीकरण शुरू करने की अनुमति देता है। उदाहरण के लिए, हम पहले विकल्प का उपयोग करेंगे।
  2. RIDOC में टेक्स्ट डिजिटलीकरण के लिए दस्तावेज़ खोलें या स्कैन करें

  3. "एक्सप्लोरर" विंडो में, उस दस्तावेज़ पर जाएं जहां से आप टेक्स्ट प्राप्त करना चाहते हैं और इसे चुनना चाहते हैं। दस्तावेजों की बैच प्रसंस्करण भी उपलब्ध है।
  4. RIDOC में टेक्स्ट को डिजिटाइज करने के लिए दस्तावेज़ का चयन करें

  5. यदि आवश्यक हो, तो आप परिणामी फ़ाइल को संभाल सकते हैं: चित्र को ट्रिम करें, मान्यता क्षेत्र सेट करें, स्कैन की त्रुटियों को ठीक करें।

    RIDOC में टेक्स्ट डिजिटलीकरण के लिए दस्तावेज़ सुधार

    एक अलग आइटम ग्लूइंग की संभावना है - इस मामले में, मल्टीस्टैगोन दस्तावेज़ को एक फ़ाइल द्वारा सहेजा जाएगा। आप डीपीआई मान और आउटपुट प्रारूप का चयन कर सकते हैं (केवल छवि फाइलें उपलब्ध हैं)।

  6. RIDOC में पाठ डिजिटलीकरण के लिए विकल्पों को आकार देना

  7. विंडो के दाईं ओर टेक्स्ट को पहचानने के लिए, ओसीआर टैब ढूंढें और इसे खोलें। कई उपलब्ध विकल्प नहीं हैं - आप केवल दस्तावेज़ भाषा का चयन कर सकते हैं। पैकेज बदलने के बाद, टूलबार पर "पहचान" बटन पर क्लिक करें।

    RIDOC में टेक्स्ट को डिजिटाइज करने के लिए एक दस्तावेज़ को पहचानना शुरू करें

    यहां से आप डिजिटलीकरण के परिणामों को भी समायोजित कर सकते हैं।

  8. RIDOC में पाठ डिजिटलीकरण के परिणामस्वरूप प्राप्त डेटा को संपादित करना

  9. दो विकल्पों में उपलब्ध दस्तावेज़ों को सहेजना - कार्यालय अनुप्रयोगों को प्रत्यक्ष या निर्यात। पहली विधि को निष्पादित करने के लिए, "सहेजें" बटन का उपयोग करें। एक विंडो खुल जाएगी जिसमें आप सहेजें के स्थान का चयन कर सकते हैं, साथ ही प्रकार (एकल फाइलें या एक मल्टीप्लॉक किए गए)। संग्रहीत फ़ाइल का प्रारूप मंच पर चयनित ग्लूइंग पर निर्भर करता है।

    RIDOC में पाठ डिजिटलीकरण के परिणामस्वरूप प्राप्त डेटा को प्रत्यक्ष बचत

    पीडीएफ प्रारूप या प्रिंटर पर प्रिंटिंग में, एक ईमेल (मेल बटन) के रूप में, माइक्रोसॉफ्ट या ओपनऑफिस ऑफिस पैकेज के टेक्स्ट प्रोसेसर में निर्यात परिणाम संभव हैं। कार्यालय कार्यक्रमों को निर्यात करने के लिए, उन्हें कंप्यूटर पर स्थापित किया जाना चाहिए, जबकि उचित अनुप्रयोगों के बिना भी पीडीएफ को बनाए रखना संभव है।

  10. RIDOC में टेक्स्ट डिजिटलीकरण के परिणामस्वरूप प्राप्त डेटा का निर्यात

    जैसा कि हम देखते हैं, पहेली एक मजबूत निर्णय है, लेकिन सरल रूपों के लिए, डिजिटलीकरण काफी उपयुक्त है।

विधि 4: कैप्चर 2 टेक्स्ट

एक छोटी उपयोगिता जो आपको कंप्यूटर स्क्रीन पर किसी भी क्षेत्र से टेक्स्ट को पूरी तरह से नि: शुल्क और उपयोग करने में आसान पहचानने की अनुमति देती है।

आधिकारिक साइट से कैप्चर 2 टेक्स्ट डाउनलोड करें

  1. कार्यक्रम के साथ संग्रह लोड करें और इसे किसी भी सुविधाजनक स्थान पर अनपैक करें। फिर प्राप्त निर्देशिका पर जाएं और निष्पादन योग्य फ़ाइल चलाएं।

    टेक्स्ट को डिजिटाइज करने के लिए कैप्चर 2 टेक्स्ट चलाएं

    इसके बाद, सिस्टम ट्रे खोलें - उपयोगिता आइकन इसमें दिखाई देना चाहिए।

    पाठ डिजिटलीकरण के लिए सिस्टम ट्रे में कैप्चर 2 टेक्स्ट आइकन शुरू किया

    मान्यता भाषा बदलने के लिए, सिस्टम ट्रे में कैप्चर 2 टेक्स्ट आइकन पर राइट-क्लिक करें, फिर सेटिंग्स में "ओसीआर भाषा" चुनें और वांछित भाषा सेट करें।

  2. पाठ डिजिटलीकरण के लिए सिस्टम ट्रे में कैप्चर 2 टेक्स्ट मान्यता भाषा बदलना

  3. फ़ाइल खोलें, वह पाठ जिसे आप डिजिटाइज करना चाहते हैं, उदाहरण के लिए, टेक्स्ट परत के बिना दस्तावेज़ डीजेवीयू। जब फ़ाइल खुली होती है, तो जीत + क्यू कुंजी संयोजन दबाएं और मान्यता क्षेत्र का चयन करें।
  4. पाठ को डिजिटाइज करने के लिए कैप्चर 2 टेक्स्ट प्रोग्राम में मान्यता क्षेत्र का चयन करना

  5. उपयोगिता विंडो मान्यता परिणामों के साथ दिखाई देगी। प्राप्त किए गए डेटा को किसी भी एप्लिकेशन में कॉपी किया जा सकता है जो टाइपिंग उपयोगकर्ता टेक्स्ट का समर्थन करता है।
  6. कैप्चर 2 टेक्सट टेक्स्ट टेक्स्ट डिजिटलीकरण में परिणाम

    आवेदन अविश्वसनीय रूप से सरल है, लेकिन यह एक सीमित कार्यक्षमता में बदल जाता है और कभी-कभी, रूसी पाठ की गलत मान्यता। इसके अलावा नुकसान के लिए हम रूसी में स्थानीयकरण की कमी को जिम्मेदार ठहरा सकते हैं। हालांकि, कुछ उपयोगकर्ताओं के लिए, ये माइनस महत्वहीन हैं, और मुख्य संभावनाएं पर्याप्त होंगी।

विधि 5: कैनिफॉर्म

सोवियत स्थान के बाद बनाए गए पाठ को डिजिटाइज करने का एक और निर्णय। विकास के समाप्ति के बावजूद, अभी भी प्रासंगिक है।

  1. इस आलेख में प्रस्तुत कई अन्य कार्यक्रमों की तरह, कुनेफॉर्म जानता है कि तैयार किए गए छवियों दोनों के साथ कैसे काम करना है और सीधे स्कैनर से डेटा प्राप्त करना है। हम पहले विकल्प का उपयोग करते हैं - ऐसा करने के लिए, "फ़ाइल" मेनू खोलें और ओपन आइटम का चयन करें।
  2. क्यूनिफॉर्म में टेक्स्ट डिजिटलीकरण के लिए ग्राफिक फ़ाइल खोलें

  3. "एक्सप्लोरर" के माध्यम से, वांछित फ़ाइल या फ़ाइलों का चयन करें।
  4. Cuneiform में टेक्स्ट को डिजिटाइज करने के लिए एक ग्राफ़िक फ़ाइल का चयन करें

  5. प्रोग्राम को डेटा डाउनलोड करने के बाद, "पहचान" आइटम - "Autosmetic" का उपयोग करें।

    Cuneiform में पाठ को डिजिटाइज करने के लिए एक ग्राफिक फ़ाइल पोस्ट करें

    यह आपको ओसीआर मॉड्यूल के अधिक सही संचालन के लिए टेक्स्ट के साथ क्षेत्रों का चयन करने की अनुमति देगा। यदि स्वचालित एल्गोरिदम ने गलत तरीके से पृष्ठ को बताया है, तो टेक्स्ट क्षेत्र को मैन्युअल रूप से नियंत्रित किया जा सकता है या हटा दिया जा सकता है।

  6. Cuneiform में पाठ को डिजिटाइज करने के लिए एक ग्राफिक फ़ाइल के अंकन को कॉन्फ़िगर करें

  7. इसके बाद, आप सीधे डिजिटलीकरण द्वारा संलग्न हो सकते हैं। फिर से "मान्यता" मेनू खोलें और उसी नाम के साथ विकल्प का चयन करें।
  8. Cuneiform में पाठ को डिजिटाइज करने के लिए एक ग्राफिक फ़ाइल की मान्यता प्रारंभ करें

  9. मान्यता प्राप्त पाठ एप्लिकेशन विंडो में खोला जाएगा, जहां इसे भी संपादित किया जा सकता है। विशेषताएं काफी व्यापक हैं, और एक पूर्ण पाठ संपादक के अनुरूप हैं। यदि कंप्यूटर पर एमएस शब्द स्थापित है, तो प्राप्त डेटा अपने इंटरफ़ेस के माध्यम से खुला होगा।
  10. Cuneiform में डिजिटलीकृत ग्राफिक फ़ाइल टेक्स्ट संपादित करना

  11. "फ़ाइल" आइटम पर उपलब्ध कार्य के परिणामों को सहेजना - "सहेजें"।

    Cuneiform में डिजीटल ग्राफिक फ़ाइल टेक्स्ट सहेजना

    "एक्सप्लोरर" में, प्राप्त फ़ाइल का स्थान और उसके प्रारूप का चयन करें। कई विकल्प समर्थित नहीं हैं: TXT, आरटीएफ, आंतरिक फेड प्रारूप, साथ ही माइक्रोसॉफ्ट ऑफिस (वर्ड एंड एक्सेल) अनुप्रयोगों में निर्यात।

  12. जैसा कि आप देख सकते हैं, क्यूनिफॉर्म एक साधारण और साथ ही टेक्स्ट को डिजिटाइज करने के लिए एक शक्तिशाली उपकरण है। वजन का लाभ एक नि: शुल्क वितरण मॉडल होगा, हालांकि, समर्थन के अंत के रूप में नुकसान और पीडीएफ प्रारूप की अनुपस्थिति विकल्पों पर लागू हो सकती है।

निष्कर्ष

जैसा कि आप देख सकते हैं, तस्वीर से टेक्स्ट को पहचानें यदि आप इसके लिए विशेष अनुप्रयोगों का उपयोग करते हैं तो तस्वीर से टेक्स्ट काफी सरल है। इस प्रक्रिया को आपके से अधिक प्रयास की आवश्यकता नहीं है, और लाभ बहुत समय की बचत में होंगे।

अधिक पढ़ें