کاوش در اعماق ماشینهای بردار پشتیبانی: SVM حاشیه سخت

Summarize this content to 400 words in Persian Lang
ماشینهای بردار پشتیبانی ابزارهای قدرتمندی در یادگیری ماشین برای طبقهبندی دادهها و پیشبینی مقادیر هستند. آنها در زمینه های مختلف مانند بیوانفورماتیک و پیش بینی مالی محبوب هستند زیرا مشکلات پیچیده داده را به خوبی مدیریت می کنند. هدف این مقاله توضیح SVM ها به روشی ساده است و موضوعاتی مانند طبقه بندی کننده حاشیه حداکثر، بردارهای پشتیبانی، ترفند هسته و نگاشت ابعاد نامحدود را پوشش می دهد.
SVM چیست؟
یک SVM با یافتن ابر صفحه ای که به بهترین نحو یک مجموعه داده را به کلاس ها تقسیم می کند، طبقه بندی را در هسته خود انجام می دهد. جنبه منحصر به فرد SVMها در توانایی آنها برای یافتن ابر صفحه بهینه است که حاشیه را به حداکثر می رساند – فاصله بین ابر صفحه و نزدیکترین نقاط داده از هر کلاس. حاشیه بزرگتر به SVM کمک می کند تا پیش بینی های بهتری در مورد داده های جدید انجام دهد زیرا مرزهای تصمیم گیری بسیار واضح تر هستند. SVM این کار را با کمک انجام می دهد بردارهای پشتیبانی.
بردارهای پشتیبانی
بردارهای پشتیبان زیرمجموعه ای از داده های آموزشی هستند که مستقیماً در ساختن هایپرصفحه جداکننده بهینه نقش دارند.
از نظر ریاضی، اگر مجموعه داده ای با برچسب های کلاس دارید
yمن∈y_i \in
yمنرا∈
{-1، +1} و ویژگی
ایکسمنX_iایکسمنرا
بردارهای پشتیبان شرایط زیر را برآورده می کنند:
yمن(w⋅ایکسمن+ب)=1y_i (w \cdot x_i + b) = 1
yمنرا(w⋅ایکسمنرا+ب)=1
این معادله از کجا می آید؟
ابر صفحه در فضای d بعدی با معادله تعریف می شود:
WX – b = 0جایی که:
w بردار نرمال است (معمول به ابر صفحه).
ب اصطلاح سوگیری است (تغییر از مبدا).
برای یک نقطه داده داده شده
ایکسمنX_iایکسمنرا
با برچسب کلاس
yمنy_iyمنرا
:
اگر
yمن=1y_i=1yمنرا=1
، نقطه داده متعلق به کلاس مثبت است.
اگر
yمن=-1y_i=-1yمنرا=-1
، نقطه داده متعلق به کلاس منفی است.
ما می خواهیم که هایپرپلین به درستی این نقاط داده را طبقه بندی کند، بنابراین باید اطمینان حاصل کنیم که:
برای ترکیب این محدودیت ها به شکل ساده، از برچسب کلاس استفاده می کنیم
yمنy_i yمنرا
، محدودیت را می توان به صورت زیر نوشت:
yمن(w⋅ایکسمن+ب)≥1y_i (w \cdot x_i + b) \geq 1
yمنرا(w⋅ایکسمنرا+ب)≥1
در اینجا دلیل آن است:
اگر
yمنy_i yمنرا
= 1، محدودیت می شود
w⋅ایکسمن-ب≥1w \cdot x_i – b \geq 1
w⋅ایکسمنرا-ب≥1
، که طبقه بندی صحیح برای امتیازات کلاس مثبت را تضمین می کند.
اگر اگر
yمنy_i yمنرا
= -1، محدودیت می شود
w⋅ایکسمن-ب≤1w \cdot x_i – b \leq 1
w⋅ایکسمنرا-ب≤1
، که طبقه بندی صحیح امتیازات کلاس منفی را تضمین می کند.
محاسبه حاشیه
در SVMها، حاشیه فاصله بین ابر صفحه و نزدیکترین نقاط داده از هر کلاس (بردارهای پشتیبانی) است.
برای محاسبه مارجین از فرمول زیر استفاده می کنیم:
لبه=2∣∣w∣∣\text{حاشیه} = \frac{2}{||w||}
لبه=∣∣w∣∣2را
این فرمول را از کجا می گیریم
فاصله عمود d از نقطه
ایکسمنX_i ایکسمنرا
به هایپرپلین است:
د=∣w⋅ایکسمن-ب∣∣∣w∣∣d = \frac{|w \cdot x_i – b|}{||w||}
د=∣∣w∣∣∣w⋅ایکسمنرا-ب∣را
اکنون برای بردارهای پشتیبانی، فاصله از هایپرپلین دقیقاً است
د=1∣∣w∣∣d = \frac{1}{||w||}
د=∣∣w∣∣1را
این به این دلیل است که بردارهای پشتیبانی روی مرزهای حاشیه قرار دارند، جایی که
w⋅ایکسمن-ب=1w \cdot x_i – b = 1
w⋅ایکسمنرا-ب=1
از این رو:
د=1∣∣w∣∣d = \frac{1}{||w||}
د=∣∣w∣∣1را
اکنون به فاصله بین هر دو ابر صفحه نیاز داریم
w⋅ایکسمن-ب=1w \cdot x_i – b = 1
w⋅ایکسمنرا-ب=1
w⋅ایکسمن-ب=-1w \cdot x_i – b = -1
w⋅ایکسمنرا-ب=-1
بنابراین فاصله خواهد بود:
لبه=2∣∣w∣∣\text{حاشیه} = \frac{2}{||w||}
لبه=∣∣w∣∣2را
درک SVM حاشیه سخت
اصطلاح “حاشیه سخت” از این واقعیت ناشی می شود که الگوریتم نیاز دارد که تمام نقاط داده با حاشیه حداقل 1 طبقه بندی شوند. به عبارت دیگر، هیچ مجوزی برای طبقه بندی اشتباه وجود ندارد. این الزامات سخت به همین دلیل است که به آن حاشیه “سخت” می گویند
فرموله کردن SVM حاشیه سخت
1. تابع هدف
هدف Hard margin SVM به حداکثر رساندن حاشیه بین دو کلاس است. همانطور که قبلا بحث کردیم:
لبه=2∣∣w∣∣\text{حاشیه} = \frac{2}{||w||}
لبه=∣∣w∣∣2را
برای به حداکثر رساندن حاشیه، باید میزان متقابل آن را به حداقل برسانیم
به حداقل رساندن 12∣w∣2\text{حداقل } \frac{1}{2} |w|^2
به حداقل رساندن 21را∣w∣2
چرا دو برابر کردن هنجار؟ زیرا نرمی و تمایز را فراهم می کند. این امر محاسبه گرادیان ها و بهینه سازی را با استفاده از روش های مبتنی بر گرادیان آسان تر می کند. به حداقل رساندن هنجار مربع معادل به حداقل رساندن هنجار است زیرا به حداقل رساندن هنجار
∣∣w∣∣2||w||^2
∣∣w∣∣2
همیشه به همان W بهینه مانند کمینه سازی منجر می شود
∣∣w∣∣||w||
∣∣w∣∣
2. محدودیت ها:
محدودیت ها تضمین می کنند که هر نقطه به درستی طبقه بندی شده و حداقل در فاصله 1 از ابر صفحه قرار دارد.
yمن(w⋅ایکسمن+ب)≥1y_i (w \cdot x_i + b) \geq 1
yمنرا(w⋅ایکسمنرا+ب)≥1
3. مشکل بهینه سازی SVM حاشیه سخت:
با کنار هم قرار دادن همه اینها، مشکل بهینه سازی SVM با حاشیه سخت این است:
به حداقل رساندن 12∣w∣2 موضوع به yمن(w⋅ایکسمن-ب)≥1، ∀من
\text{Minimize } \frac{1}{2} |w|^2 \text{ موضوع } y_i (w \cdot x_i – b) \geq 1, \, \forall i
به حداقل رساندن 21را∣w∣2 موضوع به yمنرا(w⋅ایکسمنرا-ب)≥1،∀من
حالا باید این مشکل را حل کنیم تا راه حل پیدا کنیم
مشکل با Hard Margin
در حالی که SVM های حاشیه سخت برای داده های قابل تفکیک خطی موثر هستند، اما با محدودیت های خاصی همراه هستند
در مورد داده های پرت و طبقه بندی نادرست شکست می خورد
در این دو نقطه نقاط پرت هستند، در این سناریو، SVM سخت نمی تواند مرز تصمیم را ترسیم کند زیرا سعی می کند تمام نقاط را طبقه بندی کند اما قادر به طبقه بندی این دو نقطه نیست.
برای مقابله با این Soft-Margin SVM استفاده می شود
ماشینهای بردار پشتیبانی ابزارهای قدرتمندی در یادگیری ماشین برای طبقهبندی دادهها و پیشبینی مقادیر هستند. آنها در زمینه های مختلف مانند بیوانفورماتیک و پیش بینی مالی محبوب هستند زیرا مشکلات پیچیده داده را به خوبی مدیریت می کنند. هدف این مقاله توضیح SVM ها به روشی ساده است و موضوعاتی مانند طبقه بندی کننده حاشیه حداکثر، بردارهای پشتیبانی، ترفند هسته و نگاشت ابعاد نامحدود را پوشش می دهد.
SVM چیست؟
یک SVM با یافتن ابر صفحه ای که به بهترین نحو یک مجموعه داده را به کلاس ها تقسیم می کند، طبقه بندی را در هسته خود انجام می دهد. جنبه منحصر به فرد SVMها در توانایی آنها برای یافتن ابر صفحه بهینه است که حاشیه را به حداکثر می رساند – فاصله بین ابر صفحه و نزدیکترین نقاط داده از هر کلاس. حاشیه بزرگتر به SVM کمک می کند تا پیش بینی های بهتری در مورد داده های جدید انجام دهد زیرا مرزهای تصمیم گیری بسیار واضح تر هستند. SVM این کار را با کمک انجام می دهد بردارهای پشتیبانی.
بردارهای پشتیبانی
بردارهای پشتیبان زیرمجموعه ای از داده های آموزشی هستند که مستقیماً در ساختن هایپرصفحه جداکننده بهینه نقش دارند.
از نظر ریاضی، اگر مجموعه داده ای با برچسب های کلاس دارید
{-1، +1} و ویژگی
بردارهای پشتیبان شرایط زیر را برآورده می کنند:
این معادله از کجا می آید؟
ابر صفحه در فضای d بعدی با معادله تعریف می شود:
WX – b = 0
جایی که:
- w بردار نرمال است (معمول به ابر صفحه).
- ب اصطلاح سوگیری است (تغییر از مبدا).
برای یک نقطه داده داده شده
با برچسب کلاس
:
- اگر
، نقطه داده متعلق به کلاس مثبت است.
- اگر
، نقطه داده متعلق به کلاس منفی است.
ما می خواهیم که هایپرپلین به درستی این نقاط داده را طبقه بندی کند، بنابراین باید اطمینان حاصل کنیم که:
برای ترکیب این محدودیت ها به شکل ساده، از برچسب کلاس استفاده می کنیم
، محدودیت را می توان به صورت زیر نوشت:
در اینجا دلیل آن است:
- اگر
= 1، محدودیت می شود
، که طبقه بندی صحیح برای امتیازات کلاس مثبت را تضمین می کند.
- اگر اگر
= -1، محدودیت می شود
، که طبقه بندی صحیح امتیازات کلاس منفی را تضمین می کند.
محاسبه حاشیه
در SVMها، حاشیه فاصله بین ابر صفحه و نزدیکترین نقاط داده از هر کلاس (بردارهای پشتیبانی) است.
برای محاسبه مارجین از فرمول زیر استفاده می کنیم:
این فرمول را از کجا می گیریم
فاصله عمود d از نقطه
به هایپرپلین است:
اکنون برای بردارهای پشتیبانی، فاصله از هایپرپلین دقیقاً است
این به این دلیل است که بردارهای پشتیبانی روی مرزهای حاشیه قرار دارند، جایی که
از این رو:
اکنون به فاصله بین هر دو ابر صفحه نیاز داریم
بنابراین فاصله خواهد بود:
درک SVM حاشیه سخت
اصطلاح “حاشیه سخت” از این واقعیت ناشی می شود که الگوریتم نیاز دارد که تمام نقاط داده با حاشیه حداقل 1 طبقه بندی شوند. به عبارت دیگر، هیچ مجوزی برای طبقه بندی اشتباه وجود ندارد. این الزامات سخت به همین دلیل است که به آن حاشیه “سخت” می گویند
فرموله کردن SVM حاشیه سخت
1. تابع هدف
هدف Hard margin SVM به حداکثر رساندن حاشیه بین دو کلاس است. همانطور که قبلا بحث کردیم:
برای به حداکثر رساندن حاشیه، باید میزان متقابل آن را به حداقل برسانیم
چرا دو برابر کردن هنجار؟ زیرا نرمی و تمایز را فراهم می کند. این امر محاسبه گرادیان ها و بهینه سازی را با استفاده از روش های مبتنی بر گرادیان آسان تر می کند.
به حداقل رساندن هنجار مربع معادل به حداقل رساندن هنجار است زیرا به حداقل رساندن هنجار
همیشه به همان W بهینه مانند کمینه سازی منجر می شود
2. محدودیت ها:
محدودیت ها تضمین می کنند که هر نقطه به درستی طبقه بندی شده و حداقل در فاصله 1 از ابر صفحه قرار دارد.
3. مشکل بهینه سازی SVM حاشیه سخت:
با کنار هم قرار دادن همه اینها، مشکل بهینه سازی SVM با حاشیه سخت این است:
\text{Minimize } \frac{1}{2} |w|^2 \text{ موضوع } y_i (w \cdot x_i – b) \geq 1, \, \forall i
حالا باید این مشکل را حل کنیم تا راه حل پیدا کنیم
مشکل با Hard Margin
در حالی که SVM های حاشیه سخت برای داده های قابل تفکیک خطی موثر هستند، اما با محدودیت های خاصی همراه هستند
در مورد داده های پرت و طبقه بندی نادرست شکست می خورد
در این دو نقطه نقاط پرت هستند، در این سناریو، SVM سخت نمی تواند مرز تصمیم را ترسیم کند زیرا سعی می کند تمام نقاط را طبقه بندی کند اما قادر به طبقه بندی این دو نقطه نیست.
برای مقابله با این Soft-Margin SVM استفاده می شود