کاوش در اعماق ماشین‌های بردار پشتیبانی: SVM حاشیه سخت

ek3nk4r 2024-07-30

0 5 خواندن این مطلب 7 دقیقه زمان میبرد

کاوش در اعماق ماشین‌های بردار پشتیبانی: SVM حاشیه سخت

پیشنهاد ویژه

خرید فالوور واقعی خرید لایک اینستاگرام خرید ویو اینستاگرام خرید فالوور اینستاگرام

Summarize this content to 400 words in Persian Lang
ماشین‌های بردار پشتیبانی ابزارهای قدرتمندی در یادگیری ماشین برای طبقه‌بندی داده‌ها و پیش‌بینی مقادیر هستند. آنها در زمینه های مختلف مانند بیوانفورماتیک و پیش بینی مالی محبوب هستند زیرا مشکلات پیچیده داده را به خوبی مدیریت می کنند. هدف این مقاله توضیح SVM ها به روشی ساده است و موضوعاتی مانند طبقه بندی کننده حاشیه حداکثر، بردارهای پشتیبانی، ترفند هسته و نگاشت ابعاد نامحدود را پوشش می دهد.

SVM چیست؟

یک SVM با یافتن ابر صفحه ای که به بهترین نحو یک مجموعه داده را به کلاس ها تقسیم می کند، طبقه بندی را در هسته خود انجام می دهد. جنبه منحصر به فرد SVMها در توانایی آنها برای یافتن ابر صفحه بهینه است که حاشیه را به حداکثر می رساند – فاصله بین ابر صفحه و نزدیکترین نقاط داده از هر کلاس. حاشیه بزرگتر به SVM کمک می کند تا پیش بینی های بهتری در مورد داده های جدید انجام دهد زیرا مرزهای تصمیم گیری بسیار واضح تر هستند. SVM این کار را با کمک انجام می دهد بردارهای پشتیبانی.

بردارهای پشتیبانی

بردارهای پشتیبان زیرمجموعه ای از داده های آموزشی هستند که مستقیماً در ساختن هایپرصفحه جداکننده بهینه نقش دارند.

از نظر ریاضی، اگر مجموعه داده ای با برچسب های کلاس دارید

yمن∈y_i \in
yمنرا∈

{-1، +1} و ویژگی

ایکسمنX_iایکسمنرا

بردارهای پشتیبان شرایط زیر را برآورده می کنند:

yمن(w⋅ایکسمن+ب)=1y_i (w \cdot x_i + b) = 1
yمنرا(w⋅ایکسمنرا+ب)=1

این معادله از کجا می آید؟

ابر صفحه در فضای d بعدی با معادله تعریف می شود:

WX – b = 0جایی که:

w بردار نرمال است (معمول به ابر صفحه).

ب اصطلاح سوگیری است (تغییر از مبدا).

برای یک نقطه داده داده شده

ایکسمنX_iایکسمنرا

با برچسب کلاس

yمنy_iyمنرا

اگر

yمن=1y_i=1yمنرا=1

، نقطه داده متعلق به کلاس مثبت است.
اگر

yمن=-1y_i=-1yمنرا=-1

، نقطه داده متعلق به کلاس منفی است.

ما می خواهیم که هایپرپلین به درستی این نقاط داده را طبقه بندی کند، بنابراین باید اطمینان حاصل کنیم که:

برای ترکیب این محدودیت ها به شکل ساده، از برچسب کلاس استفاده می کنیم

yمنy_i yمنرا

، محدودیت را می توان به صورت زیر نوشت:

yمن(w⋅ایکسمن+ب)≥1y_i (w \cdot x_i + b) \geq 1
yمنرا(w⋅ایکسمنرا+ب)≥1

در اینجا دلیل آن است:

اگر

yمنy_i yمنرا

= 1، محدودیت می شود

w⋅ایکسمن-ب≥1w \cdot x_i – b \geq 1
w⋅ایکسمنرا-ب≥1

، که طبقه بندی صحیح برای امتیازات کلاس مثبت را تضمین می کند.
اگر اگر

yمنy_i yمنرا

= -1، محدودیت می شود

w⋅ایکسمن-ب≤1w \cdot x_i – b \leq 1
w⋅ایکسمنرا-ب≤1

، که طبقه بندی صحیح امتیازات کلاس منفی را تضمین می کند.

محاسبه حاشیه

در SVMها، حاشیه فاصله بین ابر صفحه و نزدیکترین نقاط داده از هر کلاس (بردارهای پشتیبانی) است.

برای محاسبه مارجین از فرمول زیر استفاده می کنیم:

لبه=2∣∣w∣∣\text{حاشیه} = \frac{2}{||w||}
لبه=∣∣w∣∣2را

این فرمول را از کجا می گیریم

فاصله عمود d از نقطه

ایکسمنX_i ایکسمنرا

به هایپرپلین است:
د=∣w⋅ایکسمن-ب∣∣∣w∣∣d = \frac{|w \cdot x_i – b|}{||w||}
د=∣∣w∣∣∣w⋅ایکسمنرا-ب∣را

اکنون برای بردارهای پشتیبانی، فاصله از هایپرپلین دقیقاً است
د=1∣∣w∣∣d = \frac{1}{||w||}
د=∣∣w∣∣1را

این به این دلیل است که بردارهای پشتیبانی روی مرزهای حاشیه قرار دارند، جایی که
w⋅ایکسمن-ب=1w \cdot x_i – b = 1
w⋅ایکسمنرا-ب=1

از این رو:
د=1∣∣w∣∣d = \frac{1}{||w||}
د=∣∣w∣∣1را

اکنون به فاصله بین هر دو ابر صفحه نیاز داریم
w⋅ایکسمن-ب=1w \cdot x_i – b = 1
w⋅ایکسمنرا-ب=1

w⋅ایکسمن-ب=-1w \cdot x_i – b = -1
w⋅ایکسمنرا-ب=-1

بنابراین فاصله خواهد بود:

لبه=2∣∣w∣∣\text{حاشیه} = \frac{2}{||w||}
لبه=∣∣w∣∣2را

درک SVM حاشیه سخت

اصطلاح “حاشیه سخت” از این واقعیت ناشی می شود که الگوریتم نیاز دارد که تمام نقاط داده با حاشیه حداقل 1 طبقه بندی شوند. به عبارت دیگر، هیچ مجوزی برای طبقه بندی اشتباه وجود ندارد. این الزامات سخت به همین دلیل است که به آن حاشیه “سخت” می گویند

فرموله کردن SVM حاشیه سخت

1. تابع هدف

هدف Hard margin SVM به حداکثر رساندن حاشیه بین دو کلاس است. همانطور که قبلا بحث کردیم:

لبه=2∣∣w∣∣\text{حاشیه} = \frac{2}{||w||}
لبه=∣∣w∣∣2را

برای به حداکثر رساندن حاشیه، باید میزان متقابل آن را به حداقل برسانیم
به حداقل رساندن 12∣w∣2\text{حداقل } \frac{1}{2} |w|^2
به حداقل رساندن 21را∣w∣2

چرا دو برابر کردن هنجار؟ زیرا نرمی و تمایز را فراهم می کند. این امر محاسبه گرادیان ها و بهینه سازی را با استفاده از روش های مبتنی بر گرادیان آسان تر می کند. به حداقل رساندن هنجار مربع معادل به حداقل رساندن هنجار است زیرا به حداقل رساندن هنجار

∣∣w∣∣2||w||^2
∣∣w∣∣2

همیشه به همان W بهینه مانند کمینه سازی منجر می شود

∣∣w∣∣||w||
∣∣w∣∣

2. محدودیت ها:

محدودیت ها تضمین می کنند که هر نقطه به درستی طبقه بندی شده و حداقل در فاصله 1 از ابر صفحه قرار دارد.
yمن(w⋅ایکسمن+ب)≥1y_i (w \cdot x_i + b) \geq 1
yمنرا(w⋅ایکسمنرا+ب)≥1

3. مشکل بهینه سازی SVM حاشیه سخت:

با کنار هم قرار دادن همه اینها، مشکل بهینه سازی SVM با حاشیه سخت این است:

به حداقل رساندن 12∣w∣2 موضوع به yمن(w⋅ایکسمن-ب)≥1، ∀من

\text{Minimize } \frac{1}{2} |w|^2 \text{ موضوع } y_i (w \cdot x_i – b) \geq 1, \, \forall i
به حداقل رساندن 21را∣w∣2 موضوع به yمنرا(w⋅ایکسمنرا-ب)≥1،∀من

حالا باید این مشکل را حل کنیم تا راه حل پیدا کنیم

مشکل با Hard Margin

در حالی که SVM های حاشیه سخت برای داده های قابل تفکیک خطی موثر هستند، اما با محدودیت های خاصی همراه هستند

در مورد داده های پرت و طبقه بندی نادرست شکست می خورد

در این دو نقطه نقاط پرت هستند، در این سناریو، SVM سخت نمی تواند مرز تصمیم را ترسیم کند زیرا سعی می کند تمام نقاط را طبقه بندی کند اما قادر به طبقه بندی این دو نقطه نیست.

برای مقابله با این Soft-Margin SVM استفاده می شود

ماشین‌های بردار پشتیبانی ابزارهای قدرتمندی در یادگیری ماشین برای طبقه‌بندی داده‌ها و پیش‌بینی مقادیر هستند. آنها در زمینه های مختلف مانند بیوانفورماتیک و پیش بینی مالی محبوب هستند زیرا مشکلات پیچیده داده را به خوبی مدیریت می کنند. هدف این مقاله توضیح SVM ها به روشی ساده است و موضوعاتی مانند طبقه بندی کننده حاشیه حداکثر، بردارهای پشتیبانی، ترفند هسته و نگاشت ابعاد نامحدود را پوشش می دهد.

فهرست مطالب

SVM چیست؟

بردارهای پشتیبانی

از نظر ریاضی، اگر مجموعه داده ای با برچسب های کلاس دارید

$y_i \in$

{-1، +1} و ویژگی
$X_i$

بردارهای پشتیبان شرایط زیر را برآورده می کنند:

$y_i (w \cdot x_i + b) = 1$

این معادله از کجا می آید؟

ابر صفحه در فضای d بعدی با معادله تعریف می شود:

WX – b = 0
جایی که:

w بردار نرمال است (معمول به ابر صفحه).
ب اصطلاح سوگیری است (تغییر از مبدا).

برای یک نقطه داده داده شده
$X_i$

با برچسب کلاس
$y_i$

اگر
$y_i=1$
اگر
$y_i=-1$

ما می خواهیم که هایپرپلین به درستی این نقاط داده را طبقه بندی کند، بنابراین باید اطمینان حاصل کنیم که:

برای ترکیب این محدودیت ها به شکل ساده، از برچسب کلاس استفاده می کنیم
$y_i$

، محدودیت را می توان به صورت زیر نوشت:

$y_i (w \cdot x_i + b) \geq 1$

اگر
$y_i$
اگر اگر
$y_i$

محاسبه حاشیه

در SVMها، حاشیه فاصله بین ابر صفحه و نزدیکترین نقاط داده از هر کلاس (بردارهای پشتیبانی) است.

توضیحات تصویر
برای محاسبه مارجین از فرمول زیر استفاده می کنیم:

$\text{حاشیه} = \frac{2}{||w||}$

این فرمول را از کجا می گیریم

فاصله عمود d از نقطه
$X_i$

به هایپرپلین است:
$d = \frac{|w \cdot x_i – b|}{||w||}$

اکنون به فاصله بین هر دو ابر صفحه نیاز داریم
$w \cdot x_i – b = 1$

درک SVM حاشیه سخت

فرموله کردن SVM حاشیه سخت

1. تابع هدف

هدف Hard margin SVM به حداکثر رساندن حاشیه بین دو کلاس است. همانطور که قبلا بحث کردیم:

$\text{حاشیه} = \frac{2}{||w||}$

برای به حداکثر رساندن حاشیه، باید میزان متقابل آن را به حداقل برسانیم
$\text{حداقل } \frac{1}{2} |w|^2$

چرا دو برابر کردن هنجار؟ زیرا نرمی و تمایز را فراهم می کند. این امر محاسبه گرادیان ها و بهینه سازی را با استفاده از روش های مبتنی بر گرادیان آسان تر می کند.
به حداقل رساندن هنجار مربع معادل به حداقل رساندن هنجار است زیرا به حداقل رساندن هنجار
$||w||^2$

همیشه به همان W بهینه مانند کمینه سازی منجر می شود
$||w||$

2. محدودیت ها:

محدودیت ها تضمین می کنند که هر نقطه به درستی طبقه بندی شده و حداقل در فاصله 1 از ابر صفحه قرار دارد.
$y_i (w \cdot x_i + b) \geq 1$

3. مشکل بهینه سازی SVM حاشیه سخت:

با کنار هم قرار دادن همه اینها، مشکل بهینه سازی SVM با حاشیه سخت این است:

$\text{Minimize } \frac{1}{2} |w|^2 \text{ موضوع } y_i (w \cdot x_i – b) \geq 1, \, \forall i$

حالا باید این مشکل را حل کنیم تا راه حل پیدا کنیم

مشکل با Hard Margin

در حالی که SVM های حاشیه سخت برای داده های قابل تفکیک خطی موثر هستند، اما با محدودیت های خاصی همراه هستند

در مورد داده های پرت و طبقه بندی نادرست شکست می خورد

توضیحات تصویر
در این دو نقطه نقاط پرت هستند، در این سناریو، SVM سخت نمی تواند مرز تصمیم را ترسیم کند زیرا سعی می کند تمام نقاط را طبقه بندی کند اما قادر به طبقه بندی این دو نقطه نیست.