درباره Hipporag – Community Dev

این برخی از یادداشت های اکتشافی به کمک LLM از هیپوراگ کاغذ است: از نظر عصبی از نظر عصبی
حافظه بلند مدت برای مدل های بزرگ زبان
مشکل چند هاپ در پارچه ها
ایده “هاپ” در RAG مهم است.
این مثال را در نظر بگیرید.
سوال 1:
“چه کسی هملت را نوشت؟”
→ پاسخ (شکسپیر) در یک سند است.*
سوال 2:
“رئیس جمهور Openai در کدام دانشگاه شرکت کرد؟”
- مرحله 1: اطلاعات مربوط به رئیس جمهور OpenAi را بازیابی کنید (به عنوان مثال ، گرگ بروکمن).
- مرحله 2: اطلاعاتی را که دانشگاه گرگ بروکمن در آن شرکت کرده است بازیابی کنید (به عنوان مثال ، MIT).
چگونه Hipporag به یک بازیابی چند مرحله ای تک مرحله ای دست می یابد
راه حل های سنتی RAG ، مانند IRCOT (زنجیره بازیابی تکراری) به آن بستگی دارد بازیابی تکراری – نوع مانند جستجوی اسناد در یک حلقه.
با Hipporag ، دو مکانیسم برای فشرده سازی این هاپ های متعدد به یک ترکیب می شوند:
- ایجاد یک نمودار دانش (کیلوگرم) جایی که مفاهیم و روابط فهرست بندی می شوند.
- استفاده از PageRank شخصی (PPR) برای بازیابی مسیرهای مربوطه در چندین اسناد در یک پرس و جو.
مزایای ترکیب فوق باعث ایجاد هیپراگ می شود:
- سریعتر (از بازیابی تکراری جلوگیری می کند)
- دقیق تر (پیوندهایی را پیدا کنید که مراحل بازیابی جدا شده از دست می دهند)
- ارزان (تماس و محاسبات API را کاهش دهید)
چگونه Hipporag نمودار دانش خود را ایجاد می کند (کیلوگرم)
Hipporag ساخت نمودار دانش طرحواره از یک متن متن با استفاده از آن مدل های بزرگ زبان (LLMS) برای استخراج اطلاعات باز (Openie) و رمزگذارهای بازیابی برای پیوند دادن اشخاص. این روند امکان پذیر است استدلال چند هاپ در یک مرحله بازیابی واحدبشر
1. نمایه سازی آفلاین (ساخت نمودار)
این مرحله مشابه نحوه Neocortex انسان حافظه را رمزگذاری می کندبشر
✅ استخراج سه گرافیک دانش
- استفاده می کند LLM تنظیم شده توسط دستورالعمل (به عنوان مثال ، GPT-3.5) به استخراج سه گانه-اوبات موضوع از متن
- مثال:
گذرگاه ورودی: “استیو جابز در سال 1976 اپل را تأسیس کرد.”
سه گانه استخراج شده:
(Steve Jobs, co-founded, Apple)
(Apple, founded_in, 1976)
✅ گره ها و لبه های نمودار ایجاد کنید
- گره = استخراج شده موجودات (عبارات اسم) (به عنوان مثال ، استیو جابز ، اپل).
- لبه = روابط بین موجودات (به عنوان مثال ، بنیانگذار).
✅ پیوند مترادف (پردازش Parahippocampal)
- کاربردهای رمزگذارهای بازیابی (به عنوان مثال ، Contriever ، Colbertv2) موجودات مشابه را شناسایی کنید (به عنوان مثال ، “ایالات متحده” = “ایالات متحده”).
- ایجاد کردن لبه های اضافی برای اتصال مترادف ، بهبود استحکام بازیابی.
✅ نمودار را ذخیره کنید
- فینال نمودار دانش تشکیل شده از:
- گره ها (نهادها)
- لبه ها (روابط و مترادف)
- نقشه برداری (هر گره برای بازیابی به متن اصلی متن مرتبط است)
2. بازیابی آنلاین (پرس و جو نمودار)
این مرحله تقلید می کند خاطرات بازیابی هیپوکامپبشر
✅ استخراج پرس و جو به نام اشخاص
- LLM شناسایی می کند نهادهای کلیدی در پرس و جو
- مثال: “کدام استاد استنفورد روی آلزایمر کار می کند؟”
- موجودات پرس و جو:
{Stanford, Alzheimer’s}
- موجودات پرس و جو:
✅ گره های مرتبط را در نمودار دانش پیدا کنید
- کاربردهای رمزگذارهای بازیابی برای یافتن گره های نمودار مشابه به موجودات پرس و جو
- مثال: پرس و جو
{Stanford, Alzheimer’s}
با گره مطابقت دارد{Thomas Südhof}
در کیلوگرم
✅ شخصی PageRank (PPR) برای بازیابی چند هاپ
- دویدن شخصی PageRank (PPR) روی نمودار با استفاده از گره های پرس و جو نقاط شروعبشر
- احتمال افزایش بیش از گره های متصل، فعال کردن استدلال چند هاپبشر
- مثال:
-
{Stanford}
→{Thomas Südhof}
-
{Alzheimer’s}
→{Thomas Südhof}
- بازیابی نهایی: توماس سدوف استاد استنفورد است که در آلزایمر کار می کند.
-
✅ بازیابی و رتبه بندی معابر
- در مهمترین معابر بر اساس نمرات PPR انتخاب می شوند.
چگونه Hipporag برای سفارش نتایج از PageRank استفاده می کند
الف: تبدیل متن به نمودار
- استخراج کردن موجودات (گره ها) و روابط (لبه ها).
- مثال:
(Stanford, employs, Thomas Südhof)
(Thomas Südhof, researches, Alzheimer’s)
ب: گره های مربوطه را پیدا کنید
- اگر پرس و جو است: “کدام استاد استنفورد آلزایمر را مطالعه می کند؟”
- پرس و جو کبریت
{Stanford, Alzheimer’s}
در نمودار
ج: Run Peagerank Peagerank (PPR)
-
نمرات شروع بالایی را به گره های پرس و جو بدهید (
Stanford
وتAlzheimer’s
). -
نمرات را به گره های متصل گسترش دهید (به عنوان مثال ،
Thomas Südhof
نمره بالایی کسب می کند)
د: رتبه بندی معابر با نمره PageRank
- معابر ذکر شده
Thomas Südhof
بدست آوردن مقام عالیبشر - سطح معابر کمتر مرتبط پایینبشر
چرا این کار می کند
- اتصالات غیرمستقیم را پیدا می کند (بازیابی چند هاپ).
- بر اساس ارتباط در دنیای واقعی به جای تطبیق کلمات کلیدی.
- سریع ، از آنجا که در یک مرحله انجام شده است.