برنامه نویسی

از لحظه‌ها تا نقاط عطف: خلاصه‌سازی افزایشی جدول زمانی با استفاده از مدل‌های زبان بزرگ

ek3nk4r 2024-10-01

0 5 خواندن این مطلب 10 دقیقه زمان میبرد

از لحظه‌ها تا نقاط عطف: خلاصه‌سازی افزایشی جدول زمانی با استفاده از مدل‌های زبان بزرگ

پیشنهاد ویژه

خرید فالوور واقعی خرید لایک اینستاگرام خرید ویو اینستاگرام خرید فالوور اینستاگرام

Summarize this content to 400 words in Persian Lang

دلیل انتخاب

رویه ACL2024 تصویب شد. تحقیق در دانشگاه ملی سنگاپور

مقاله: https://aclanthology.org/2024.acl-long.390/کد: https://github.com/nusnlp/LLM-TLS

کاری که ما انجام می دهیم شبیه RAG است، اما تفاوت این است که Retrieval همچنین از دانش LLM (نه فقط جاسازی) استفاده کامل می کند. نقش LLM در تعیین اینکه آیا رویدادها به عنوان یک رویداد طبقه بندی می شوند یا خیر، شبه اوراکل نامیده می شود، اما مشخص نیست که چگونه این مفهوم با چند شات معمولی متفاوت است.

بررسی اجمالی

【مسائل اجتماعی】در جامعه مدرن که روزانه مقادیر زیادی متن (مانند مقالات خبری و پست های رسانه های اجتماعی) تولید می شود، درک سریع تحولات در رویدادها و موضوعات مهم ضروری است. به ویژه در شرایط اضطراری، سازماندهی اطلاعات در زمان واقعی برای تصمیم گیری سریع مهم است.

[مسئله فنی]خلاصه کردن جدول زمانی مستلزم استخراج رویدادهای مهم از مقدار زیادی متن است. با این حال، روش‌های مرسوم اغلب به رویدادها و موضوعات محدود می‌شوند و هر کدام به طور مستقل پردازش می‌شوند و انجام بهینه‌سازی کلی هر دو را غیرممکن می‌سازد. علاوه بر این، هیچ راه افزایشی برای به روز رسانی جدول زمانی هر بار که اطلاعات جدید اضافه می شد وجود نداشت.

【پیشنهاد】ما LLM-TSL را پیشنهاد کردیم، رویکردی که با خوشه‌بندی متوالی رویدادها از متن در زمان واقعی، با استفاده از LLM به‌عنوان شبه اوراکل (که راه‌حل ایده‌آلی در مورد گنجاندن یا نبودن آن در یک خوشه خاص ارائه می‌کند)، یک جدول زمانی ایجاد می‌کند. می تواند همزمان رویدادها و موضوعات را مدیریت کند.

【اثر】LLM-TLS فرآیند تشخیص و خلاصه‌سازی رویداد را قابل تفسیرتر می‌کند و از روش‌های سنتی در آزمایش‌ها بر روی چهار معیار TLS بهتر عمل می‌کند.

LLM-TLS (خلاصه خط زمانی)

تکلیف

فرمول مشکل Event TLS است[Faghihi2022]、موضوع TLS[Ghalandari2020]همان است که

رویداد TLS

وظایف: پیشرفت یک رویداد خاص را پیگیری کنید و به‌روزرسانی‌های مربوط به آن رویداد را به‌طور متوالی استخراج و خلاصه کنید. برای سناریوهایی که نیاز به تجمیع اطلاعات در مدت زمان کوتاه دارند، مانند ردیابی اطلاعات در هنگام بلایا و شرایط بحرانی و خلاصه کردن اخبار فوری مناسب است.
ورودی: جریانی از توییت‌ها که به ترتیب زمانی مرتب شده‌اند

اس=تی1،تی2،…،تیnS = {t_1,t_2,…,t_n } اس=تی1را،تی2را،…،تیnرا

، و اینها ترکیبی از توییت های متعلق به خطوط زمانی مختلف هستند.
استخراج تایم لاین (وظیفه 1): توییت های مربوط به یک رویداد را گروه بندی کنید و آنها را در جدول زمانی رویداد ترکیب کنید

تیهvهnتی=تی1،تی2،…،تیمترT_{رویداد} = { T_1,T_2,…,T_m } تیهvهnتیرا=تی1را،تی2را،…،تیمتررا

تقسیم به. هر خط زمانی

تیمنراT_i تیمنرارا

حاوی توییت هایی درباره یک رویداد است.
خلاصه جدول زمانی (وظیفه2): خلاصه ای ایجاد کنید که پیشرفت هر خط زمانی را منعکس کند. این خلاصه ها در مقابل خلاصه های صحیح ارزیابی می شوند.

موضوع TLS

وظیفه: رویدادهای بلند مدت اصلی (رویدادهای نقطه عطف) مرتبط با موضوع یا موضوع خاص را تعیین و خلاصه کنید. برای خلاصه کردن تحلیل‌ها و مرورهای تاریخی موضوعات بلندمدت، مانند مشاغل شخصیت‌های عمومی یا تکامل یک فناوری خاص، مناسب است.
ورودی: مجموعه ای از مقالات خبری به ترتیب زمانی.

الفالف الف

، مجموعه ای از عبارات کلیدی برای پرس و جوهای موضوعی

سس س

، مقداری که تعداد تاریخ و زمان را نشان می دهد

لل ل

، مقداری که تعداد جملات در تاریخ را نشان می دهد

کک ک

.
هدف:

کک ک

جدول زمانی تاریخ ها

تیتیoصمنجT_{موضوع} تیتیoصمنجرا

و در هر تاریخ

کک ک

جملات را قرار دهید برای ارزیابی،

لل ل

تاریخ ها و هر کدام

کک ک

جدول زمانی مرجع با جملات

rr r

استفاده کنید.

تکنیک

LLM-TLS شامل هر دو رویداد TLS و موضوع TLS است، اما اینها الگوریتم های جداگانه ای هستند تا الگوریتم های یکپارچه.

رویداد TLS

با دنبال کردن این مراحل، شناسایی و خوشه‌بندی رویداد را در توییت‌های جدید انجام دهید:

استخراج تایم لاین: هنگامی که یک توییت جدید وارد می شود، به یک بردار جاسازی شده تبدیل می شود و توییت های مشابه 24 ساعت گذشته از بردار DB (RETRIEVE) بازیابی می شوند، زیرا این بردارها قبلاً به یکی از خطوط زمانی اختصاص داده شده اند. زمان دریافت خطوط (MAPTOTIMELINES)
تعیین ارتباط رویداد: از LLM برای تعیین اینکه آیا یک توییت جدید متعلق به یک جدول زمانی موجود است (ISSAMEEVENT) استفاده کنید، و اگر چنین است، یک لبه را پیکربندی کنید.
افزودن و به روز رسانی تایم لاین ها: اگر توییت جدید مربوط به جدول زمانی موجود باشد، به مناسب ترین تایم لاین اضافه می شود. اگر هیچ رابطه ای وجود ندارد، یک جدول زمانی جدید را به عنوان یک رویداد جدید شروع کنید (نزدیکترین زمان و به روز رسانی)
خلاصه جدول زمانی: اجرای خلاصه بر اساس جدول زمانی فعلی (SUMMARY)

موضوع TLS

برای مقالات جدید، این مراحل را برای شناسایی و خوشه‌بندی رویدادهای نقطه عطف دنبال کنید:

خلاصه‌سازی رویداد کلیدواژه: هنگامی که مقاله جدیدی دریافت می‌شود، LLM رویدادهای مهم را بر اساس کلمات کلیدی مرتبط با موضوع خلاصه می‌کند (KEYWORDEVENTSUM)
خوشه‌بندی رویداد: رویدادهای خلاصه‌شده را به عنوان یک بردار جاسازی کنید و آنها را با رویدادهای موجود بر اساس شباهت خوشه‌بندی کنید (RETRIEVE و ISSAMEEVENT)
ساخت خط زمانی: استخراج رویدادهای مهم و ایجاد جدول زمانی بر اساس خوشه های رویداد انتخاب شده (RANKCLUSTERS و SORTBYTIME)

آزمایش

ما آزمایش‌هایی را روی چندین مجموعه داده برای ارزیابی عملکرد LLM-TLS در رویداد TLS و موضوع TLS انجام دادیم.

رویداد TLS: ارزیابی عملکرد خوشه‌بندی توییت و خلاصه‌سازی با استفاده از مجموعه داده CrisisLTLSum. LLM-TLS دقت بالا و امتیاز F1 را نشان می دهد و عملکرد بهتری نسبت به روش های سنتی به دست می آورد.

موضوع TLS: ارزیابی تولید خط زمانی رویداد نقطه عطف مقاله خبری با استفاده از مجموعه داده‌های T17، CRISIS و ENTITIES. LLM-TLS از روش های موجود در معیارهای مختلف، به ویژه بهبود دقت انتخاب تاریخ (نمره Date-F1) بهتر عمل می کند (شکل 5)

جدول 3 بازیابی (خوشه بندی پس از جستجو با بردارهای تعبیه شده) و جهانی (خوشه بندی پس از همه مقایسه ها) را در خوشه بندی مقایسه می کند. Global Recall بالا، اما هزینه های محاسبه و هزینه بالایی دارد. از طرف دیگر می توان گفت که Retrieval موثر است زیرا هزینه ها را حدود 80 درصد کاهش می دهد و F1 بالایی دارد.جدول 4 نتایج ارزیابی کمی خلاصه جدول زمانی را نشان می دهد. بازیابی روش پیشنهادی بالاتر از روش GPT-4 و Llama-3 در تنظیمات اوراکل است (خلاصه فهرست مقالات استخراج شده از رویدادهای کلیدی)، که نشان می دهد در انتخاب و خلاصه کردن اطلاعات مهم مؤثر است.

شکل 3 تحلیلی از تأثیر تعداد تاریخ ها بر عملکرد را نشان می دهد. به تاریخ[Ghalandar2020]با افزایش تعداد تاریخ ها، عملکرد به طور قابل توجهی کاهش می یابد، اما LLM-TLS رویدادهای کلیدی را ثبت می کند، بنابراین کاهش عملکرد حتی در یک جدول زمانی طولانی مدت مشاهده نمی شود.

اجرا

ما اجرای رسمی موضوع TLS را تجزیه و تحلیل کردیم.

مرحله 1: https://github.com/nusnlp/LLM-TLS/blob/main/topicTLS/preprocess_articles.py

پیش پردازش را روی مجموعه داده مقاله انجام می دهد و محتوای مقالات سازماندهی شده بر اساس کلمات کلیدی از پیش تعریف شده را استخراج و قالب بندی می کند. به طور خاص، عنوان، تاریخ انتشار، جمله و مهر زمانی مقاله استخراج و به صورت JSON ذخیره می شود.

مرحله 2: https://github.com/nusnlp/LLM-TLS/blob/main/topicTLS/generate_events.py

یک رویداد در هر مقاله از هر مجموعه داده مقاله استخراج کنید. پس از فیلتر کردن بر اساس کلمه کلیدی، رویدادها را با استفاده از اعلان خلاصه رویداد کلید از پیش ایجاد شده برای هر مجموعه داده (KEYWORDEVENTSUM) استخراج کنید.

مرحله 3: https://github.com/nusnlp/LLM-TLS/blob/main/topicTLS/generate_clusters.py

رویدادهای استخراج شده (مقالات) را خوشه بندی کنید. با جستجوی شباهت کسینوس بردار جاسازی (RETRIEVE) N رویداد برتر نزدیک به رویداد جدید را بدست آورید. برای کلاس رویداد طبقه‌بندی‌شده به‌دست‌آمده، از درخواست طبقه‌بندی عضویت استفاده کنید تا LLM تعیین کند که آیا رویدادها یکسان هستند یا خیر، و اگر یکسان هستند، یک یال اضافه کنید (ISSAMEEVENT).در نهایت رویداد را به DB (ADDTODATABASE) اضافه کنید.

مرحله 4: https://github.com/nusnlp/LLM-TLS/blob/main/topicTLS/cluster_tls_eval.py

ایجاد و ارزیابی جدول زمانی برای هر رویداد. روابط درون خوشه‌ها، کیفیت خلاصه‌ها و دقت استخراج رویداد را اندازه‌گیری می‌کند و دقت، یادآوری، امتیاز F1 و امتیاز ROUGE را به عنوان شاخص‌های ارزیابی محاسبه می‌کند.

فهرست مطالب

دلیل انتخاب

رویه ACL2024 تصویب شد. تحقیق در دانشگاه ملی سنگاپور

مقاله: https://aclanthology.org/2024.acl-long.390/
کد: https://github.com/nusnlp/LLM-TLS

بررسی اجمالی

【مسائل اجتماعی】
در جامعه مدرن که روزانه مقادیر زیادی متن (مانند مقالات خبری و پست های رسانه های اجتماعی) تولید می شود، درک سریع تحولات در رویدادها و موضوعات مهم ضروری است. به ویژه در شرایط اضطراری، سازماندهی اطلاعات در زمان واقعی برای تصمیم گیری سریع مهم است.

【پیشنهاد】
ما LLM-TSL را پیشنهاد کردیم، رویکردی که با خوشه‌بندی متوالی رویدادها از متن در زمان واقعی، با استفاده از LLM به‌عنوان شبه اوراکل (که راه‌حل ایده‌آلی در مورد گنجاندن یا نبودن آن در یک خوشه خاص ارائه می‌کند)، یک جدول زمانی ایجاد می‌کند. می تواند همزمان رویدادها و موضوعات را مدیریت کند.

【اثر】
LLM-TLS فرآیند تشخیص و خلاصه‌سازی رویداد را قابل تفسیرتر می‌کند و از روش‌های سنتی در آزمایش‌ها بر روی چهار معیار TLS بهتر عمل می‌کند.

LLM-TLS (خلاصه خط زمانی)

تکلیف

فرمول مشکل Event TLS است[Faghihi2022]、موضوع TLS[Ghalandari2020]همان است که

رویداد TLS

وظایف: پیشرفت یک رویداد خاص را پیگیری کنید و به‌روزرسانی‌های مربوط به آن رویداد را به‌طور متوالی استخراج و خلاصه کنید. برای سناریوهایی که نیاز به تجمیع اطلاعات در مدت زمان کوتاه دارند، مانند ردیابی اطلاعات در هنگام بلایا و شرایط بحرانی و خلاصه کردن اخبار فوری مناسب است.
ورودی: جریانی از توییت‌ها که به ترتیب زمانی مرتب شده‌اند
$S = {t_1,t_2,…,t_n }$

، و اینها ترکیبی از توییت های متعلق به خطوط زمانی مختلف هستند.
استخراج تایم لاین (وظیفه 1): توییت های مربوط به یک رویداد را گروه بندی کنید و آنها را در جدول زمانی رویداد ترکیب کنید
$T_{رویداد} = { T_1,T_2,…,T_m }$
خلاصه جدول زمانی (وظیفه2): خلاصه ای ایجاد کنید که پیشرفت هر خط زمانی را منعکس کند. این خلاصه ها در مقابل خلاصه های صحیح ارزیابی می شوند.

موضوع TLS

وظیفه: رویدادهای بلند مدت اصلی (رویدادهای نقطه عطف) مرتبط با موضوع یا موضوع خاص را تعیین و خلاصه کنید. برای خلاصه کردن تحلیل‌ها و مرورهای تاریخی موضوعات بلندمدت، مانند مشاغل شخصیت‌های عمومی یا تکامل یک فناوری خاص، مناسب است.
ورودی: مجموعه ای از مقالات خبری به ترتیب زمانی.
$الف$
هدف:
$ک$

تکنیک

LLM-TLS شامل هر دو رویداد TLS و موضوع TLS است، اما اینها الگوریتم های جداگانه ای هستند تا الگوریتم های یکپارچه.

رویداد TLS

با دنبال کردن این مراحل، شناسایی و خوشه‌بندی رویداد را در توییت‌های جدید انجام دهید:

استخراج تایم لاین: هنگامی که یک توییت جدید وارد می شود، به یک بردار جاسازی شده تبدیل می شود و توییت های مشابه 24 ساعت گذشته از بردار DB (RETRIEVE) بازیابی می شوند، زیرا این بردارها قبلاً به یکی از خطوط زمانی اختصاص داده شده اند. زمان دریافت خطوط (MAPTOTIMELINES)
تعیین ارتباط رویداد: از LLM برای تعیین اینکه آیا یک توییت جدید متعلق به یک جدول زمانی موجود است (ISSAMEEVENT) استفاده کنید، و اگر چنین است، یک لبه را پیکربندی کنید.
افزودن و به روز رسانی تایم لاین ها: اگر توییت جدید مربوط به جدول زمانی موجود باشد، به مناسب ترین تایم لاین اضافه می شود. اگر هیچ رابطه ای وجود ندارد، یک جدول زمانی جدید را به عنوان یک رویداد جدید شروع کنید (نزدیکترین زمان و به روز رسانی)
خلاصه جدول زمانی: اجرای خلاصه بر اساس جدول زمانی فعلی (SUMMARY)

موضوع TLS

al2

برای مقالات جدید، این مراحل را برای شناسایی و خوشه‌بندی رویدادهای نقطه عطف دنبال کنید:

خلاصه‌سازی رویداد کلیدواژه: هنگامی که مقاله جدیدی دریافت می‌شود، LLM رویدادهای مهم را بر اساس کلمات کلیدی مرتبط با موضوع خلاصه می‌کند (KEYWORDEVENTSUM)
خوشه‌بندی رویداد: رویدادهای خلاصه‌شده را به عنوان یک بردار جاسازی کنید و آنها را با رویدادهای موجود بر اساس شباهت خوشه‌بندی کنید (RETRIEVE و ISSAMEEVENT)
ساخت خط زمانی: استخراج رویدادهای مهم و ایجاد جدول زمانی بر اساس خوشه های رویداد انتخاب شده (RANKCLUSTERS و SORTBYTIME)

آزمایش

ما آزمایش‌هایی را روی چندین مجموعه داده برای ارزیابی عملکرد LLM-TLS در رویداد TLS و موضوع TLS انجام دادیم.

شکل 5

tb3،4

جدول 3 بازیابی (خوشه بندی پس از جستجو با بردارهای تعبیه شده) و جهانی (خوشه بندی پس از همه مقایسه ها) را در خوشه بندی مقایسه می کند. Global Recall بالا، اما هزینه های محاسبه و هزینه بالایی دارد. از طرف دیگر می توان گفت که Retrieval موثر است زیرا هزینه ها را حدود 80 درصد کاهش می دهد و F1 بالایی دارد.
جدول 4 نتایج ارزیابی کمی خلاصه جدول زمانی را نشان می دهد. بازیابی روش پیشنهادی بالاتر از روش GPT-4 و Llama-3 در تنظیمات اوراکل است (خلاصه فهرست مقالات استخراج شده از رویدادهای کلیدی)، که نشان می دهد در انتخاب و خلاصه کردن اطلاعات مهم مؤثر است.

شکل 3

اجرا

ما اجرای رسمی موضوع TLS را تجزیه و تحلیل کردیم.

مرحله 1: https://github.com/nusnlp/LLM-TLS/blob/main/topicTLS/preprocess_articles.py

مرحله 2: https://github.com/nusnlp/LLM-TLS/blob/main/topicTLS/generate_events.py

مرحله 3: https://github.com/nusnlp/LLM-TLS/blob/main/topicTLS/generate_clusters.py

رویدادهای استخراج شده (مقالات) را خوشه بندی کنید. با جستجوی شباهت کسینوس بردار جاسازی (RETRIEVE) N رویداد برتر نزدیک به رویداد جدید را بدست آورید. برای کلاس رویداد طبقه‌بندی‌شده به‌دست‌آمده، از درخواست طبقه‌بندی عضویت استفاده کنید تا LLM تعیین کند که آیا رویدادها یکسان هستند یا خیر، و اگر یکسان هستند، یک یال اضافه کنید (ISSAMEEVENT).
در نهایت رویداد را به DB (ADDTODATABASE) اضافه کنید.

مرحله 4: https://github.com/nusnlp/LLM-TLS/blob/main/topicTLS/cluster_tls_eval.py