ممیزی های LLM و محافظ ها کافی نیستند: چرا باید در سطح Logit فیلتر کنید

نقطه کور امنیتی LLM و راهکار سطح لاجیت
رویکردهای رایج امنیتی در مدلهای زبانی بزرگ (LLM) — شامل ممیزی دادههای آموزشی و گاردریلهای خروجی — دچار نقص بنیادین هستند: آنها در لایه اشتباه پشته عمل میکنند. ممیزیها تنها محتوای ورودی و خروجی را بررسی میکنند، در حالی که مدل مستقیماً متن تولید نمیکند، بلکه در هر مرحله توزیعی از احتمال روی توکنها (لاجیتها) ایجاد میکند. گاردریلها و فیلترهای رژکس نیز واکنشی هستند؛ آنها پس از نمونهبرداری (Sampling) و تحویل توکن به کاربر عمل میکنند، بنابراین همیشه یک قدم عقبتر از حملات جیلبریک (Jailbreak) قرار دارند.
راهکار پیشنهادی، تغییر استراتژی به محافظت در سطح لاجیت است. با قطع و سایهبان کردن خودِ توزیع احتمال قبل از نمونهبرداری، حملات در ریشه خنثی میشوند. کتابخانه resk-logits با استفاده از الگوریتم تطبیق الگوهای Aho-Corasick روی GPU، توالیهای خطرناک توکن (مانند «دستورات قبلی را نادیده بگیر») را در کمتر از یک میلیثانیه و برای بیش از ۱۰ هزار الگو شناسایی و مسدود میکند، بدون ایجاد تأخیر در استنتاج (Inference).
ممیزی و گاردریلها لایههای مكمل هستند، اما خط دفاعی اول و اصلی باید در لحظه تصمیمگیری مدل — یعنی توزیع لاجیت — مستقر شود. این رویکرد پیشگیرانه، شکاف امنیتی موجود را برطرف میکند.
نقطه کور در امنیت LLM
هر هفته یک جیلبریک جدید آخرین گاردریل را دور می زند. هر ماه ممیزی دیگری آلودگی داده های آموزشی را نشان می دهد. این رویکردها یک نقص اساسی مشترک دارند: آنها در لایه اشتباه پشته عمل می کنند.
چرا ممیزی ها کوتاه می آیند
ممیزی ها بررسی می کنند که چه چیزی در داده های آموزشی مدل وارد شده و چه چیزی به عنوان متن نهایی آمده است. اما مدل به طور مستقیم متن تولید نمی کند. در هر مرحله تولید یک توزیع احتمال روی توکن ها ایجاد می کند. زمانی که شما خروجی را بررسی می کنید، نشانه از قبل به کاربر تحویل داده شده است.
چرا گاردریل ها واکنشی هستند
فیلترهای رژکس محافظ و اسکنرهای خروجی همگی پس از نمونه برداری کار می کنند. آنها می توانند الگوهای شناخته شده را بگیرند اما همیشه یک قدم عقب تر هستند. قبل از اینکه گاردریل متن را ببیند، جیلبریک قبلاً در سطح لاجیت اتفاق افتاده است.
رویکرد Logit-Level
به جای بررسی ورودی ها یا خروجی ها، خود توزیع احتمال را قطع می کنیم. با استفاده از تطبیق الگوی Aho-Corasick در GPU، میتوانیم توالیهای توکن را قبل از نمونهبرداری، سایهبان کنیم. این پیشگیرانه است نه واکنشی.
from resklogits import LogitProcessor
processor = LogitProcessor(patterns=["ignore previous instructions", "you are now"])
processed_logits = processor.process(logits)
کمتر از 1 میلیثانیه برای بیش از 10000 الگو در سختافزار مدرن. بدون تأخیر در زمان استنتاج.
پیوندها
خط پایین
ممیزی ها و گاردریل ها جای خود را دارند اما نمی توانند تنها خط دفاعی شما باشند. امنیت واقعی LLM مستلزم عملکرد در جایی است که تصمیمات گرفته می شود: توزیع لاجیت.
امروز resk-logits را امتحان کنید و شکاف را ببندید.



