ساخت یک آنالایزر اسناد هوشمند: پروژه ژنرال AI Capstone با RAG

ما در عصر اضافه بار اطلاعات زندگی می کنیم. از مقالات تحقیقاتی و کتابچه های فنی گرفته تا گزارش های مالی و اسناد حقوقی ، ما اغلب با کوههای متنی روبرو می شویم که حاوی پاسخ های خاص مورد نیاز ما است ، اگر فقط بتوانیم آنها را به سرعت پیدا کنیم. جستجوی دستی از طریق اسناد طولانی ، وقت گیر و ناکارآمد است. چه می شد اگر فقط می توانستیم پرسیدن سند سوال ما؟
برای پروژه Capstone من در Gen AI Course Capstone 2025Q1 ، تصمیم گرفتم با ساختن یک مشکل دقیق مقابله کنم آنالایزر اسناد هوشمند با استفاده از قدرت AI مولد ، به طور خاص تکنیکی به نام بازیابی نسل افزوده (RAG)بشر
چالش: غرق شدن در اسناد
تصور کنید که نیاز به درک یافته های کلیدی گزارش تغییر آب و هوا 96 صفحه ای یا یافتن یک بند خاص در یک قرارداد متراکم دارید. خواندن همه چیز ساعت ها طول می کشد. اگر این عبارت دقیقاً مطابقت نداشته باشد ، جستجوهای کلمات کلیدی ممکن است بخش های مربوطه را از دست بدهند. اینجاست که تکنیک های مدرن هوش مصنوعی می توانند یک راه حل قدرتمند ارائه دهند.
راه حل: یک دستیار هوش مصنوعی برای اسناد شما
پروژه من با هدف ایجاد سیستمی که کاربر بتواند یک سند PDF را ارائه دهد و به زبان انگلیسی ساده سؤال کند ، دریافت پاسخ های مختصر و مرتبط تنها در مورد اطلاعات موجود در آن سند.
ایده اصلی این است بازیابی نسل افزوده (RAG)بشر به جای تغذیه کل سند (بالقوه عظیم) به طور مستقیم به یک مدل بزرگ زبان (LLM) – که اغلب از محدوده متن فراتر می رود و می تواند منجر به پاسخ های عمومی شود – RAG هوشمندتر است:
- بازیابی: ابتدا قطعه های خاص متن را در سندی پیدا کنید که بیشتر مربوط به سوال کاربر باشد.
- تقویت: تصویب کردن تنها این قطعه های مربوطه به عنوان زمینه در کنار سؤال اصلی برای LLM.
- تولید: از LLM بخواهید که پاسخ مبتنی بر ایجاد کند سخت در قطعه های متن ارائه شده.
این رویکرد LLM را متمرکز می کند ، و پاسخ های خود را در محتوای واقعی اسناد نشان می دهد و شانس اطلاعات بی ربط یا “توهم” را به میزان قابل توجهی کاهش می دهد.
چگونه کار می کند: فناوری پشت صحنه
من این سیستم را در یک نوت بوک Kaggle ساختم و از چندین ابزار و تکنیک کلیدی استفاده کردم:
- بارگیری و درک سند (
pypdf
): اولین قدم بارگیری سند PDF و استخراج محتوای متن خام آن ، صفحه به صفحه بود. این شامل درک ساختار PDF است. - متن متن (
langchain.text_splitter
): متن استخراج شده سپس به تکه های کوچکتر ، قابل کنترل و همپوشانی تقسیم شد. این کمک می کند تا اطمینان حاصل شود که اطلاعات مربوطه به طور خودسرانه قطع نشده و متن را برای تعبیه آماده می کند. - نسل جاسازی شده (Google's
text-embedding-004
): هر قطعه متن با استفاده از مدل تعبیه قدرتمند گوگل به یک بردار عددی (“تعبیه”) تبدیل شد. این بردارها معنایی را ضبط می کنند معنی متن - فروشگاه وکتور و جستجو (
faiss-cpu
): تعبیه شده تولید شده در یک شاخص FAISS ذخیره شد. FAISS امکان جستجوی فوق العاده سریع را برای یافتن تعبیه های قطعه ای که از نظر معنایی مشابه (نزدیکترین در فضای بردار) به تعبیه پرس و جو کاربر امکان پذیر است. - بازیابی و نسل (Google's
gemini-1.5-flash-latest
): هنگامی که یک پرس و جو وارد می شود ، تعبیه آن ایجاد می شود ، Faiss مناسب ترین تکه های متنی را پیدا می کند ، و این تکه ها با پرس و جو در یک فوریت با دقت ساخته شده ترکیب می شوند. این سریع سپس به مدل جمینی Google ارسال می شود و به آن دستور می دهد تا پاسخ را فقط بر اساس زمینه ارائه شده تولید کند.
دیدن آن در عمل: مثال پرسش و پاسخ
در اینجا چند نمونه از پرس و جو سیستم در گزارش “شاخص های تغییر آب و هوا در ایالات متحده ، 2016” گزارش شده است:
پرس و جو: موضوع اصلی این سند چیست؟
پاسخ:
براساس متن ارائه شده ، موضوع اصلی سند شاخص های تغییر آب و هوا در ایالات متحده است. این سند هدف خود را از اطلاع رسانی به خوانندگان در مورد تغییرات آب و هوا ، ساختار آن (که در فصل هایی با تمرکز بر جنبه های مختلف تغییرات آب و هوایی سازماندهی شده است) و نوع اطلاعات موجود در هر شاخص است.پرس و جو: یافته های کلیدی ذکر شده را خلاصه کنید.
پاسخ:
متن ارائه شده خلاصه یافته های کلیدی مربوط به شاخص های تغییر آب و هوا را خلاصه می کند. هفت شاخص جدید (سیل رودخانه ، سیل ساحلی ، یخ دریای قطب جنوب ، بیماری های مربوط به گرما ، ویروس نیل غربی ، دمای جریان و توزیع گونه های دریایی) اضافه شد و سه شاخص موجود (یخ دریای قطب شمال ، پوشش برفی و مرگ و میر ناشی از گرما) گسترش یافت. تقریباً تمام شاخص ها با داده های جدیدتر به روز شدند. سیل رودخانه به طور کلی در شمال شرقی و میانه غربی افزایش یافته است ، اما در غرب ، آپالاچیا جنوبی و میشیگان شمالی کاهش یافته است. این گزارش همچنین تأثیر تغییرات دمای جریان بر روی ماهی قزل آلا ، یک منبع مهم قبیله ای را برجسته می کند. سرانجام ، این گزارش حتی بیشتر شاخص های تغییر آب و هوا را در آینده پیش بینی می کند.پرس و جو: استناد پیشنهادی برای گزارش چیست؟
پاسخ:
آژانس حفاظت از محیط زیست ایالات متحده. 2016. شاخص های تغییرات آب و هوا در ایالات متحده ، 2016. چاپ چهارم. EPA 430-R-16-004. www.epa.gov/Climate-Indicators.
همانطور که مشاهده می کنید ، این سیستم با موفقیت اطلاعات مربوطه را بازیابی می کند و پاسخ های مختصر را مستقیماً از محتوای سند سنتز می کند.
قابلیت های ژنرال اصلی AI نمایش داده شده است
این پروژه چندین قابلیت اصلی تولید هوش مصنوعی را نشان داد:
- درک سند: پردازش و ساخت اطلاعات از PDF.
- تعبیه: ایجاد بازنمایی های عددی معنی دار متن.
- جستجوی/فروشگاه بردار: فعال کردن جستجوی شباهت معنایی کارآمد.
- بازیابی نسل افزوده (RAG): اجرای الگوی قدرتمند ترکیب بازیابی با نسل برای پاسخ های مرتبط و مرتبط.
چالش ها و ایده های آینده
در حالی که سیستم به خوبی کار می کند ، همیشه جایی برای پیشرفت وجود دارد. انتخاب استراتژی مناسب و مناسب می تواند مشکل باشد و طرح های PDF بسیار پیچیده ممکن است نیاز به تجزیه پیشرفته تر داشته باشد. پیشرفت های آینده می تواند شامل ارزیابی کیفیت پاسخ به صورت خودکار ، اجرای روشهای پیچیده تر بازیابی یا اضافه کردن رابط کاربری باشد.
پایان
ساختن این سیستم RAG یک تجربه یادگیری خارق العاده بود. این امر برجسته می کند که چگونه AI تولیدی ، در هنگام ترکیب با تکنیک های بازیابی هوشمند ، می تواند ابزارهای واقعاً مفیدی برای پیمایش اطلاعات پیچیده ایجاد کند. به جای اینکه از اسناد غافل شویم ، می توانیم با آنها مکالمه کنیم!
آیا می خواهید کد را ببینید و خودتان آن را امتحان کنید؟ اجرای کامل در نوت بوک Kaggle را بررسی کنید:
➡ https://www.kaggle.com/code/pragnyanitr22cs024/intelligent-document-analyzer-query-system
با تشکر از خواندن! افکار یا سوالات خود را در نظرات زیر به من اطلاع دهید.