دسته­بندی خطی داده ­های دارای نویز[۳۴]
در اکثر مسائل دنیای واقعی دو کلاس با یکدیگر هم پوشانی ندارند و نمی­ توان داده ­ها را به خوبی با ابرصفحه طبقه ­بندی کرد. بنابراین، مسأله (۴-۹) نشدنی می­ شود. در سال ۱۹۹۵ کورتس و واپنیک این شکل را با یک ترفند که در مورد مسائل بهینه­سازی نشدنی استفاده می­ شود، حل کردند و نسخه نهایی و استاندارد SVM را ارائه کردند. آنها به هر قید ، یک متغیر اضافی نامنفی  به هر قید اضافه کرده و مجموع این متغیرها در تابع هدف جهت کمینه‌سازی آورده می­ شود. بنابراین، اگر تعداد داده ­های جداناپذیر کم باشد مسأله بهینه­سازی به صورت ذیل در می ­آید:
پایان نامه - مقاله
(‏۴‑۱۸)
C مقداری فرضی است که می ­تواند میزان  را برای داده ­های غیر قابل دسته­بندی افزایش یا کاهش دهد. اگر مقدار بزرگتری برای C در نظر بگیریم،  بزرگتری را به داده ­های غیر قابل دسته­بندی نسبت می­دهد. از سوی دیگر کوچک بودن C، حاشیه را ماکزیمم می­ کند. به طوری که ابرصفحه جداگر بهینه نسبت به داده ­های دارای خطا در مجموعه آموزشی، حساسیت کمتری از خود نشان می­دهد. شکل پایین نمونه ­ای از خطای دسته­بندی داده ­ها را نشان می­دهد.
شکل ‏۴‑۴: نمونه ­ای از خطای طبقه ­بندی
برای جداسازی داده­هایی که به صورت خطی جدا نمی­شوند، ما باید کاری کنیم که حاشیه ماکزیمم شود (Minimize  ) تا عملکرد پیش ­بینی را برای ما تضمین کند. از سوی دیگر ابرصفحه بهینه باید تعداد خطاهای طبقه ­بندی را مینیمم کند. هم چنین میزان خطای داده ­های جداناپذیر را نیز مینیمم کند. به عبارتی، باید مقدار و تعداد متغیرهای کمبود مثبت را مینیمم کند. شرط دومی باعث کاهش حاشیه ابرصفحه می­گردد. یعنی شرط اولی در تناقض با شرط دوم است. برای همین، راهی ساده برای غلبه بر این مشکل ترکیب این دو شرط است.
(‏۴‑۱۹)
برای حلِ این مسأله از تکنیک بهینه­سازی دوگان استفاده می­ شود که تقریباً با تکنیک استفاده شده در حالت جداپذیر مشابه بوده و رابطه (۴-۱۳) به صورت زیر تغییر می­یابد.
(‏۴‑۲۰)
حال ما باید پارامترهای را بیابیم طوری که فرمِ دوگان را ماکزیمم کند. دقیقاً شبیه آنچه که در حالت جداپذیر انجام شد:
(‏۴‑۲۱)
همان ضریب لاگرانژ و  همان تابع لاگرانژ است که به فرم دوگان آن تبدیل شده است. در اینجا نیز مانند حالت جداپذیر، فقط تعدادی از ضرایب  مخالف صفر هستند که معرّف همان بردارهای پشتیبان می­باشند.

حالتی که داده ­ها به صورت خطی جدا نشوند
اگر تعداد داده ­های جاناپذیر زیاد باشد (برای حالتی که ابرصفحه خطی استفاده شود) باید از ابرصفحات غیر خطی استفاده کنیم. در مرحله قبلی، الگوریتم طبقه ­بندی خطی داده ­ها توضیح داده شد که از الگوهای آموزشی استفاده می­ کند تا ابرصفحه بهینه­ای را تعمیم دهد. چنین طبقه ­بندی کننده ­ای برای حالتی که نسبت پیچیده­ای بین پارامترهای ورودی و کلاس هر الگو وجود داشته باشد، مناسب نیستند. برای داده­هایی که به صورت خطی جداپذیر نیستند، مدل SVM می ­تواند به توابع غیر خطی برازش شود تا دسته­کننده­هایی را که برای طبقه ­بندی الگوهای سخت جداپذیر[۳۵] مناسب هستند، فراهم کند.

نگاشت الگوها به فضای ویژگی
سطح جداکننده در بسیاری از مسائل طبقه بندی غیرخطی می­باشد، برای همین ماشین­های بردار پشتیبان این امکان را برای ما فراهم می­ کند که با بهره گرفتن از تابع ویژگی  سطح جداکننده غیرخطی را به کار ببریم.
تعمیم SVM به داده ­های غیرخطی، براساس نگاشت متغیرهای ورودی به فضای ویژگی با ابعاد بالاتر (فضای هیلبرت[۳۶] با ابعاد محدود و یا نامحدود) و در نتیجه به کار بردن یک دسته­بندی خطی در فضای با ابعاد بالا صورت می­گیرد این حالت را در شکل ذیل می­توان دید.
شکل ‏۴‑۵: نگاشت الگوها به فضای ویژگی، در شرایطی که داده ­ها به طور خطی از هم جدا نشوند
واضح است که دسته­کننده خطی، حتی با متغیرهای کمبود برای این نوع از این داده ­ها مناسب نیست. توابع ویژگی غیرخطی  مختصات­های اصلی الگوها را با هم ترکیب و منتقل می­ کند و در فضای ویژگی با ابعاد بالاتر آنها را به صورت خطی جدا می­ کند. این خصوصیت حائز اهمیت می­باشد چون طبقه ­بندی خطی از نظر محاسباتی ساده­تر است و می­توانیم از نتایج بدست آمده برای طبقه ­بندی خطی SVM در مراحل قبلی، استفاده کنیم. مشکل این کار تنها در تشخیص توابع ویژگی می­باشد که این نگاشت را انجام می­دهد.
فرض که یک مجموعه­ N الگویی T همراه با دسته­ی مربوط به خود را داشته باشیم به طوری که X یک الگوی n بعدی است؛
(‏۴‑۲۲)
مجموعه ­ای از توابع ویژگی را به صورت  تعریف می­کنیم. هر الگوی X به بردار حقیقی  نگاشت پیدا می­ کند.
(‏۴‑۲۳)
پس از نگاشت همه الگوها از فضای آموزشی به فضای­ ویژگی، مجموعه ­ای از نقاط در فضای ویژگی IRh را بدست می­آوریم.
شکل ‏۴‑۶: خلاصه­ای تصویری، از نحوه­ نگاشت الگوها و ساخت تابع دسته­بندی
(‏۴‑۲۴)
پس حتی اگر داده ­های ورودی به صورت خطی جدا نشوند، با انتـقال آن به فضـای ویژگی و با بهره گرفتن از توابـع ویژگی، می­توانیم در فضای ویژگی آنها را به صورت خطی از هم جدا کنیم.
(‏۴‑۲۵)
دسته­بندی غیرخطی با معادله بالا تعریف می­ شود. همان­طور که از رابطه بالا معلوم است، برای پیش ­بینی الگوی X لازم است که ضرب داخلی  برای همه بردارهای پشتیبان Xi انجام شود. این ویژگی کلاسه­بندی بسیار مهم است چون نشان می­دهد که نیازی به دانستن عبارت اصلی تابع ویژگی  ندارد. به علاوه گروه ویژه­ای از توابع که کرنل نامیده می­ شود، محاسبات ضرب داخلی  را در فضای اصلی که توسط الگوهای آموزشی تعریف شده، مجاز می­ کند.
برای فهم بهتر این موضوع، یک سری داده را که در جدول زیر نشان داده شده است را می­خواهیم دسته­بندی کنیم. این داده ها دو بعدی هستند و در این فضا به طور خطی از هم جدا نمی­شوند. و می­توان آنها را در فضای ویژگی به صورت خطی از هم جدا کرد. این مجموعه داده­ی دو بعدی با ابعاد x1 و x2، دارای سه الگو در کلاس ۱+ و شش الگو در کلاس ۱- است. از شکل زیر می­توان استنباط کرد که خطی وجود ندارد که دو کلاس را از هم جدا کند.
جدول ‏۴‑۱: نمونه ­ای از نگاشت الگوها به فضای ویژگی
شکل ‏۴‑۷: نحوه قرارگیری داده ­های جدول (۴-۱) بر روی محور مختصات
پس می­توان یک فضای ویژگی با ابعاد بالاتر را در نظر گرفت به طوری که این داده ­ها به صورت خطی از هم جدا شوند که ویژگی­ها ترکیبی از داده ­های ورودی هستند. برای این مثال، x12 را به عنوان بعد جدید در نظر می­گیریم. با این انتقال، داده ­ها در یک فضای ویژگی سه بعدی نمایش داده می­شوند.
سطح f(x1,x2)=x12 در شکل زیر نشان داده شده است. با اضافه کردن این ویژگی ساده، الگو­ها را روی سطح غیر خطی نگاشت کرده­ایم. ویژگی x12 خاصیت جالبی دارد. به طوری که با توجه به جدول بالا، داده ­های مربوط به کلاس ۱+ دارای x12=0 و داده ­های کلاس ۱- دارای ویژگی x12=1 هستند. با نگاشت این داده ­ها به فضای ویژگی می­توانیم آنها را به صورت خطی از هم جدا کرد.
شکل ‏۴‑۸: صفحه­ای که داده ­های نگاشت یافته بر روی آن قرار می­گیرند
شکل ‏۴‑۹: چگونگی قرارگیری داده ­ها پس از نگاشت آنها

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...