ممیزی های LLM و محافظ ها کافی نیستند: چرا باید در سطح Logit فیلتر کنید

0 8 خواندن این مطلب 2 دقیقه زمان میبرد

ممیزی های LLM و محافظ ها کافی نیستند: چرا باید در سطح Logit فیلتر کنید

پیشنهاد ویژه

خرید فالوور واقعی خرید لایک اینستاگرام خرید ویو اینستاگرام خرید فالوور اینستاگرام

نقطه کور امنیتی LLM و راهکار سطح لاجیت

رویکردهای رایج امنیتی در مدل‌های زبانی بزرگ (LLM) — شامل ممیزی داده‌های آموزشی و گاردریل‌های خروجی — دچار نقص بنیادین هستند: آن‌ها در لایه اشتباه پشته عمل می‌کنند. ممیزی‌ها تنها محتوای ورودی و خروجی را بررسی می‌کنند، در حالی که مدل مستقیماً متن تولید نمی‌کند، بلکه در هر مرحله توزیعی از احتمال روی توکن‌ها (لاجیت‌ها) ایجاد می‌کند. گاردریل‌ها و فیلترهای رژکس نیز واکنشی هستند؛ آن‌ها پس از نمونه‌برداری (Sampling) و تحویل توکن به کاربر عمل می‌کنند، بنابراین همیشه یک قدم عقب‌تر از حملات جیلبریک (Jailbreak) قرار دارند.

راهکار پیشنهادی، تغییر استراتژی به محافظت در سطح لاجیت است. با قطع و سایه‌بان کردن خودِ توزیع احتمال قبل از نمونه‌برداری، حملات در ریشه خنثی می‌شوند. کتابخانه resk-logits با استفاده از الگوریتم تطبیق الگوهای Aho-Corasick روی GPU، توالی‌های خطرناک توکن (مانند «دستورات قبلی را نادیده بگیر») را در کم‌تر از یک میلی‌ثانیه و برای بیش از ۱۰ هزار الگو شناسایی و مسدود می‌کند، بدون ایجاد تأخیر در استنتاج (Inference).

ممیزی و گاردریل‌ها لایه‌های مكمل هستند، اما خط دفاعی اول و اصلی باید در لحظه تصمیم‌گیری مدل — یعنی توزیع لاجیت — مستقر شود. این رویکرد پیشگیرانه، شکاف امنیتی موجود را برطرف می‌کند.

فهرست مطالب

نقطه کور در امنیت LLM

هر هفته یک جیلبریک جدید آخرین گاردریل را دور می زند. هر ماه ممیزی دیگری آلودگی داده های آموزشی را نشان می دهد. این رویکردها یک نقص اساسی مشترک دارند: آنها در لایه اشتباه پشته عمل می کنند.

چرا ممیزی ها کوتاه می آیند

ممیزی ها بررسی می کنند که چه چیزی در داده های آموزشی مدل وارد شده و چه چیزی به عنوان متن نهایی آمده است. اما مدل به طور مستقیم متن تولید نمی کند. در هر مرحله تولید یک توزیع احتمال روی توکن ها ایجاد می کند. زمانی که شما خروجی را بررسی می کنید، نشانه از قبل به کاربر تحویل داده شده است.

چرا گاردریل ها واکنشی هستند

فیلترهای رژکس محافظ و اسکنرهای خروجی همگی پس از نمونه برداری کار می کنند. آنها می توانند الگوهای شناخته شده را بگیرند اما همیشه یک قدم عقب تر هستند. قبل از اینکه گاردریل متن را ببیند، جیلبریک قبلاً در سطح لاجیت اتفاق افتاده است.

رویکرد Logit-Level

به جای بررسی ورودی ها یا خروجی ها، خود توزیع احتمال را قطع می کنیم. با استفاده از تطبیق الگوی Aho-Corasick در GPU، می‌توانیم توالی‌های توکن را قبل از نمونه‌برداری، سایه‌بان کنیم. این پیشگیرانه است نه واکنشی.

from resklogits import LogitProcessor

processor = LogitProcessor(patterns=["ignore previous instructions", "you are now"])
processed_logits = processor.process(logits)

کمتر از 1 میلی‌ثانیه برای بیش از 10000 الگو در سخت‌افزار مدرن. بدون تأخیر در زمان استنتاج.

پیوندها

خط پایین

ممیزی ها و گاردریل ها جای خود را دارند اما نمی توانند تنها خط دفاعی شما باشند. امنیت واقعی LLM مستلزم عملکرد در جایی است که تصمیمات گرفته می شود: توزیع لاجیت.

امروز resk-logits را امتحان کنید و شکاف را ببندید.

ek3nk4r 4 هفته پیش

0 8 خواندن این مطلب 2 دقیقه زمان میبرد