לא ניתן תמיד להסיר את הטקסט מקובץ PDF באמצעות שיטת ההעתקה הרגילה. לעתים קרובות, הדפים של מסמכים כאלה הם התוכן הסרוק של אפשרויות הנייר שלהם. כדי להמיר קבצים כאלה לנתוני טקסט לעריכה מלאה, נעשה שימוש בתוכניות מיוחדות עם פונקציית זיהוי התווים האופטי (OCR).
החלטות כאלה הן מורכבות מאוד במכירות, ולכן, יש כסף ניכר. אם הצורך בהכרה בטקסט עם PDF אתה מתעורר באופן קבוע, זה יהיה די מומלץ לרכוש את התוכנית המתאימה. במקרים נדירים, אחד השירותים הזמינים באינטרנט עם תכונות דומות יהיה הגיוני יותר.
כיצד לזהות טקסט עם PDF באינטרנט
כמובן, קבוצה של תכונות של OCR שירותים מקוונים, לעומת פתרונות שולחן עבודה מלא, מוגבל יותר. אבל אפשר לעבוד עם משאבים כאלה או בחינם לחלוטין או תמורת תשלום סמלי. העיקר הוא כי עם המשימה העיקרית שלה, כלומר, עם ההכרה של הטקסט, יישומי אינטרנט המתאימים יהיה להתמודד גם כן.שיטה 1: abbyy finereader באינטרנט
חברת מפתח השירות היא אחת המנהיגים בתחום ההכרה האופטית של מסמכים. ABBYY Finereader עבור Windows ו- Mac הוא פתרון רב עוצמה להמרת PDF לטקסט ולעבוד נוסף עם זה.
האינטרנט האנלוגי של התוכנית, כמובן, הוא נחות מזה על ידי פונקציונליות. עם זאת, השירות יכול לזהות את הטקסט מסריקות ותצלומים ביותר מ -190 שפות. תמך קובץ PDF המרה ל- Word, מסמכים Excel, וכו '
שירות מקוון abbyy finereader באינטרנט
- לפני שתתחיל לעבוד עם כלי, צור חשבון באתר או התחבר עם חשבון Facebook, Google או חשבון Microsoft.
כדי לעבור אל חלון ההרשאה, לחץ על הלחצן "כניסה" בלוח התפריט העליון.
- על ידי כניסה, ייבא את מסמך ה- PDF הרצוי ב- Finereader, באמצעות הלחצן "הורדת קבצים".
לאחר מכן לחץ על "בחר מספרי עמודים" וציין את הפער הרצוי לזהות טקסט.
- לאחר מכן, בחר את השפות הנוכחי במסמך, פורמט קובץ התוצאה ולחץ על הלחצן "זיהוי".
- לאחר עיבוד, משך הזמן תלוי לחלוטין בכמות המסמך, באפשרותך להוריד קובץ מוכן עם נתוני טקסט פשוט על ידי לחיצה על שמו.
או לייצא אותו לאחד משירותי הענן הזמינים.
השירות הוא כנראה האלגוריתמים הטקסט המדויקים ביותר על תמונות וקבצי PDF. אבל, למרבה הצער, השימוש החופשי שלה מוגבל לדפים מעובדים חמש לחודש. כדי לעבוד עם מסמכים רבים יותר, תצטרך לקנות מנוי שנתי.
עם זאת, אם הפונקציה OCR נדרשת די נדירות, abbyy finereader באינטרנט היא אפשרות מצוינת לחלץ טקסט מקובצי PDF קטנים.
שיטה 2: OCR מקוון חינם
טקסט פשוט ונוח טקסט דיגיטציה. ללא צורך להירשם, המשאב מאפשר לך לזהות 15 דפי PDF מלא לשעה. Online Online חינם עובד מלא עם מסמכים ב 46 שפות וללא הרשאה תומך שלושה יצוא טקסט - DOCX, XLSX ו TXT.
בעת ההרשמה, המשתמש מקבל את ההזדמנות לעבד מסמכים מרובי עמודים, עם זאת, מספר חופשי של דפים אלה מוגבל ל -50 יחידות.
שירות מקוון חינם Only
- כדי לזהות טקסט מ- PDF כ"אורח ", ללא אישור במשאב, השתמש בטופס המתאים בדף הראשי של האתר.
בחר את המסמך הרצוי באמצעות לחצן הקובץ, ציין את השפה העיקרית של הטקסט, פורמט פלט ולאחר מכן המתן לקובץ להוריד ולחץ על המר.
- בתום תהליך הדיגיטציה, לחץ על "הורד קובץ פלט" כדי לשמור את המסמך המוגמר עם הטקסט במחשב.
עבור המשתמשים המורשים, רצף הפעולות שונה במקצת.
- השתמש בלחצן "הרשמה" או "כניסה" בלוח התפריט העליון, בהתאמה, צור חשבון OCR מקוון חינם או עבור אליו.
- לאחר אישור בלוח ההזנה, מחזיק את "CTRL", בחר עד שתי שפות של מסמך המקור מהרשימה המוצעת.
- ציין פרמטרים נוספים מיצוי טקסט מ- PDF ולחץ על הלחצן בחר קובץ כדי להוריד את המסמך לשירות.
לאחר מכן, כדי להמשיך עם הכרה, לחץ על "להמיר".
- בסוף העיבוד של המסמך, לחץ על הקישור שנקרא קובץ הפלט בעמודה המתאימה.
תוצאה של הכרה תישמר מיד בזיכרון המחשב.
במידת הצורך, הסר טקסט ממסמך PDF קטן יכול להיות בטוח כדי לפנות לשימוש בכלי המתואר לעיל. כדי לעבוד עם קבצים גדולים, תצטרך לקנות תווים נוספים OCR מקוון חינם או לפסיטה אחרת.
שיטה 3: ניוקר
חינם שירות OCR חינם המאפשר לך לחלץ טקסט כמעט כל המסמכים הגרפיים האלקטרוניים כמו DJVU ו- PDF. המשאב אינו מטיל הגבלות על גודל ומספר קבצים מוכרים, אינו דורש רישום ומציע מגוון רחב של פונקציות קשורות.
ניוקרווקר תומך 106 שפות והוא יכול לתעבד כראוי אפילו סריקות באיכות נמוכה של מסמכים. ניתן לבחור באופן ידני את אזור זיהוי הטקסט בדף הקובץ.
שירות מקוון newoce.
- אז, אתה יכול להתחיל לעבוד עם משאב מיד, ללא צורך לבצע פעולות נוספות.
ממש על הדף הראשי יש טופס לייבוא מסמך לאתר. כדי להוריד את הקובץ ב- Newocer, השתמש בלחצן בחר קובץ בסעיף בחר את הקובץ שלך. ולאחר מכן בשדה "זיהוי (s)", ציין שפות מסמכים מקור אחד או יותר ולאחר מכן לחץ על "העלה + OCR".
- ציין את הגדרות ההכרה המועדפת עליך, בחר את הדף הרצוי כדי לאחזר את הטקסט ולחץ על הלחצן OCR.
- גלול למטה הדף מעט נמוך יותר ולמצוא את הלחצן "הורד".
לחץ עליו וברשימה הנפתחת, בחר את הפורמט הרצוי של המסמך להורדה. לאחר מכן, הקובץ המוגמר עם הטקסט שחולץ יורדו למחשב שלך.
הכלי הוא נוח די מכיר היטב את כל התווים. עם זאת, העיבוד של כל דף של מסמך PDF המיובא חייב להיות מופעל באופן עצמאי והוא מוצג בקובץ נפרד. אתה יכול, כמובן, מיד להעתיק את ההכרה לתוצאות לתוך הלוח ולשלב אותם עם אחרים.
אף על פי כן, בהתחשב בנישואין המתואר לעיל, כרכים גדולים של טקסט באמצעות ניוקר לחלץ קשה מאוד. עם קבצים קטנים, השירות מתמודד "עם המפץ".
שיטה 4: OCR.Space
משאב פשוט ומובן עבור Digitization טקסט מאפשר לך לזהות מסמכים PDF ו הפלט את התוצאה בקובץ TXT. אין גבולות במספר הדפים אינם מסופקים. ההגבלה היחידה היא הגודל של מסמך הקלט לא יעלה על 5 מגה בייט.
שירות מקוון OCR.Space.
- אתה לא צריך להירשם לעבודה עם הכלי.
פשוט לחץ על הקישור לעיל ולהוריד את מסמך PDF לאתר מהמחשב באמצעות הלחצן "בחר קובץ" או מהרשת על ידי הפניה.
- ברשימה הנפתחת Black OCR, בחר את השפה של המסמך המיובא.
לאחר מכן הפעל את תהליך זיהוי הטקסט על ידי לחיצה על הלחצן "התחל OCR!".
- בסוף עיבוד הקובץ, ראה את התוצאה בשדה התוצאות של OCR'ed ולחץ על "הורד" כדי להוריד את מסמך TXT סיים.
אם אתה רק צריך לחלץ טקסט מ PDF באותו זמן את העיצוב הסופי זה לא חשוב בכלל, OCR.Space היא בחירה טובה. היחיד, המסמך חייב להיות "יחיד לדבר", שכן ההכרה של שתי שפות או יותר בו זמנית בשירות אינה מסופקת.
קרא גם: אנלוגים חינם finereader
הערכת מכשירים מקוונים המוצגים במאמר יש לציין כי finereader מקוון מ abbyy הוא מדויק ביותר ואיכותי עם פונקציית OCR. אם אתה חשוב לך את העיוות המרבי של זיהוי הטקסט, עדיף לשקול באופן ספציפי אפשרות זו. אבל סביר להניח שהם ישלמו בשבילו.
אם אתה צריך digitization של מסמכים קטנים ואתה מוכן כראוי שגיאות שירות נכון, מומלץ להשתמש newocer, ocr.space או OCR מקוון חינם.