ocrmypdf: گرگ جادویی برای pdfs اسکن شده شما

خلاصه سریع:
OCRMYPDF یک لایه متن قابل جستجو را به PDF های اسکن شده اضافه می کند و آنها را قابل جستجو و کپی می کند. این تصاویر را در صورت لزوم بهینه می کند ، و از Tesseract OCR برای پشتیبانی از بسیاری از زبانها استفاده می کند. این ابزار فایلهای سازگار PDF/A را تولید می کند و پردازش را در چندین هسته CPU توزیع می کند.
غذای اصلی:
-
pdfs pdf های اسکن شده قابل جستجو را به PDF های قابل جستجو و کپی تبدیل می کند.
-
✅ از موتور OCR قدرتمند (Tesseract) برای استخراج دقیق متن استفاده می کند.
-
images تصاویر PDF را بهینه می کند ، که اغلب منجر به اندازه پرونده های کوچکتر می شود.
-
✅ از چندین زبان پشتیبانی می کند و پرونده های PDF/A را برای بایگانی طولانی مدت ایجاد می کند.
-
✅ استفاده از رابط خط فرمان آسان و در چندین سیستم عامل (لینوکس ، ویندوز ، MACOS ، FreeBSD) موجود است.
آمار پروژه:
- ⭐ ستاره ها: 28797
- 🍴 چنگال ها: 1962
- ❗ موضوعات باز: 128
پشته فنی:
آیا تا به حال با PDF های اسکن شده تلاش کرده اید که نمی توانید از آن جستجو کنید یا کپی کنید؟ ناامید کننده ، درست است؟ با OCRMYPDF ، ابزاری خط فرمان که یک تغییر دهنده بازی برای هر کسی است که با اسناد اسکن شده کار می کند ، ملاقات کنید. PDF های کثیف و غیرقابل جستجو شما را می طلبد و آنها را به PDF های قابل جستجو ، کپی و حتی با کیفیت بهتر تبدیل می کند. آن را به عنوان یک گره جادویی برای اسناد اسکن شده خود فکر کنید!
بنابراین ، این جادوی چگونه کار می کند؟ OCRMYPDF از یک موتور قدرتمند OCR (تشخیص شخصیت نوری) به نام TesserAct استفاده می کند. Tesseract تصاویر را در PDF شما تجزیه و تحلیل می کند و متن را استخراج می کند. اما در اینجا قسمت هوشمندانه وجود دارد: OCRMYPDF فقط متن را روی صفحه در هر جایی نمی کشد. با دقت لایه متن را قرار می دهد زیر تصویر ، حفظ طرح سند اصلی. این بدان معنی است که شما می توانید متن را به راحتی و به راحتی کپی کنید ، بدون ناامیدی از شخصیت های نادرست.
اما OCRMYPDF بیش از OCR اساسی انجام می دهد. همچنین تصاویر PDF شما را بهینه می کند ، که اغلب منجر به اندازه پرونده های کوچکتر می شود. این حتی می تواند به طور خودکار صفحات چرخشی یا چرب شده را اصلاح کند و باعث صرفه جویی در کار دستی شما شود. این زبان از چندین زبان پشتیبانی می کند و پرونده های PDF/A را تولید می کند ، که برای بایگانی طولانی مدت ایده آل هستند. بهترین قسمت؟ این بسیار سریع است ، با استفاده از چندین هسته CPU برای پردازش PDF های خود ، حتی آنهایی که هزاران صفحه دارند.
چرا شما باید یک توسعه دهنده مراقبت کنید؟ زمان صرفه جویی در هنگام برخورد با اسناد اسکن شده را تصور کنید. نه تایپ دستی بیشتر ، بیشتر با PDF های غیرقابل جستجو تلاش نمی کند. OCRMYPDF یکپارچه در گردش کار شما ادغام می شود ، خواه در حال ساخت خط لوله پردازش اسناد باشید یا به سادگی به یک راه سریع برای استفاده اسناد اسکن شده نیاز دارید. رابط کاربری خط فرمان ساده آن باعث می شود خودکار سازی آسان شود و ماهیت منبع باز آن شفافیت و پشتیبانی جامعه را تضمین می کند.
این پروژه بر روی میلیون ها PDF آزمایش شده است ، به این معنی که قابل اعتماد و قوی است. این گزینه در Linux ، Windows ، MacOS و FreeBSD با گزینه های نصب آسان از طریق مدیران بسته یا Docker در دسترس است. این واقعاً ابزاری قدرتمند است که یک نقطه درد مشترک را برای توسعه دهندگان و هر کسی که با اسناد اسکن شده کار می کند ، ساده می کند. آن را امتحان کنید شما ناامید نخواهید شد!
بیشتر بدانید:
پروژه را در GitHub مشاهده کنید
🌟 با منبع باز GitHub در ارتباط باشید!
📱 در تلگرام به ما بپیوندید
به روزرسانی های روزانه در مورد بهترین پروژه های منبع باز دریافت کنید
منبع باز Github
👥 ما را در فیس بوک دنبال کنید
با جامعه ما ارتباط برقرار کنید و هرگز کشف را از دست ندهید
منبع باز Github