با وجود داشتن چنین اطلاعات ساختارمندی می‏توانیم عبارت‏های اسمی هم‏مرجع یا به عبارت بهتر اشاره‏هایی که به یک موجودیت واحد در دنیای واقعی اشاره دارند را بهتر مورد بررسی قرار دهیم. در شکل ۴-۴ نیز اطلاعات تمام واژگان موجود در پیکره نمایش داده می‏شود.

 

 
شکل ۴-۴ : شمایی از نمایش خروجی سیستم نمایش تمام واژگان

۴-۳.تشخیص اشاره‏های هم‏مرجع
جهت استفاده از تکنیک‏های یادگیری بانظارت، به یک مجموعه آموزشی که حاوی اشاره‏های برچسب زده شده ‏باشد، نیاز است. این نمونه‏ها شامل جفت‏های (ویژگی، مقدار) می‏باشد که اطلاعات مورد نیاز موتور یادگیری را فراهم می‏کنند. مجموعه ویژگی‏های انتخاب شده، در موفقیت سیستم تشخیص مرجع مشترک، تاثیر چشم‏گیری دارند، یک مجموعه ویژگی ایده‏‏آل، مجموعه‏ای از ویژگی‏هاست که تا حدامکان حاوی اطلاعات مفید باشد و به بهینه ‏سازی ماشین یادگیر کمک کند.
۴-۳-۱. ویژگی‏ها
به طور کلی پیش از به کارگیری تکنیک‏های یادگیری ماشین در فرایند تشخیص مرجع مشترک، طیف گسترده‏ای از ویژگی‏های زبانی در این فرایند در نظر گرفته می‏شد. استخراج برخی از ویژگی‏ها مانند ویژگی‏های معنایی و ویژگی‏های دانش دامنه[۲۱۴]، فرایند زمان‏بر و پرخطا هستند و به قدرت محاسباتی زیادی احتیاج دارند. پس از گسترش کاربرد تکنیک‏های یادگیری ماشین در تشخیص مرجع مشترک، ویژگی‏هایی که به دانش زبان‏شناسی زیادی نیاز داشتند، جای خود را به وبژگی‏های زبانی ساده و ویژگی‏های آماری دادند. در مورد زبان‏های غنی مانند انگلیسی، نتایج گزارش شده از روش‏های آماری به خوبی و در برخی موارد بهتر از نتایج بدست آمده از روش‏های زبان‏شناسی هستند.
ازآنجائیکه ابزارهای آماری زبان‏شناسی موجود در زبان پارسی بسیار محدود هستند، در این پایان‏ نامه تنها ویژگی‏هایی به کار رفته‏اند که با ابزارهای موجود و به سادگی قابل محاسبه می‏باشند. به عنوان نمونه نقش گرامری هر اشاره در تشخیص مراجع ضمایر و اسامی اشاره بسیار موثر است. اما محاسبه‏ی این ویژگی به یک تجزیه‏گر آماری نیاز دارد؛ زیرا یک تجزیه‏گر غیرآماری با وجود گرامر پرباری مانند گرامر زبان پارسی، تعداد زیادی درخت تجزیه به ازای هر جمله بدست می‏آورد، درنتیجه ممکن است به ازای هر عبارت اسمی، چندین نقش گرامری بدست آید که در این صورت ویژگی نقش گرامری کارایی چندانی نخواهد داشت. ویژگی‏های به کار رفته در این پایان‏ نامه، مطابق ویژگی‏های بکاررفته در [۱۰۵]، انتخاب شده‏اند، جدول۴-۳ فهرست ویژگی‏های به کار رفته را به همراه توصیف آنها برای هرجفت اشاره نشان می‏دهد.
دانلود پایان نامه - مقاله - پروژه
۴-۳-۲. الگوریتم‏های یادگیری
مطالعات نظری انجام شده در زمینه یادگیری ماشین، بیانگر آن است که هیچ یک از الگوریتم‏های استقرائی عموماً بهتر از دیگری عمل نمی‏کند. بدین معنا که از کارائی هر یک از الگوریتم‏های استقرائی، بر روی توزیع یکنواخت، میانگین بگیریم، صفر خواهد شد. به منظور اینکه برای یک مسئله یادگیری زبان، یک یادگیر مناسب انتخاب کنیم( برای مثال می‏توان به [۶۹] مراجعه کرد). هرچقدر که عامل یادگیر، با خصوصیات آن حوزه خاص متناسب‏تر باشد، آنگاه مدل استنتاج شده توسط آن یادگیر، بهتر به داده‏های جدید آن حوزه تعمیم پیدا می‏کند. در زبان‏هایی مثل انگلیسی، عربی و چینی زمینه‏ی چنین مقایسه‏هایی با بوجود آمدن پیکره‏های تحقیقاتی فراگیری مانند MUC ، ACE و OntoNote که روش‏های متفاوتی بر روی آنها ارزیابی شده است، فراهم شده است.
پس از تعیین ویژگی‏ها، نوبت به تعیین نمونه‏های مثبت و منفی مورد نیاز برای الگوریتم یادگیری ماشین می‏رسد. نمونه‏های مثبت با جفت کردن اشاره‏های هم‏مرجع ایجاد می‏شود و نمونه‏های منفی به جفت‏هایی که باهم هم مرجع نیستند، اطلاق می‏گردد. تعداد نمونه‏های منفی در برابر نمونه‏های مثبت بسیار بیشتر خواهد ‏‏‏بود و همین امر موجب می‏شود که داده‏های آموزشی نامتوازن[۲۱۵] شوند. بطوریکه به عنوان مثال داده‏های آموزشی حاصل از پیکره لوتوس، شامل ۱۸۰۴۸۳ نمونه منفی و ۲۴۵۲۴ نمونه مثبت می‏باشد، البته با ایجاد، برخی محدودیت‏ها تعداد نمونه‏های منفی تا ۱۱۱۴۹۲ کاهش پیدا کرد؛ به عنوان نمونه زمانیکه که هر دو اشاره، ضمیر یا شبه ضمیر باشند، آن‏ها را به عنوان جفت در نظر نمی‏گیریم. و یا در متون طولانی، محدودیت جفت‏گیری اشاره‏ها را تا دامنه ۱۰۰ واژه در نظر می‏گیریم. نهایتا حدودً ۱۸% نمونه‏های ایجاد شده، نمونه‏مثبت و حدود ۸۱% آنها، نمونه‏های منفی می‏باشد. نتایج حاصل از جفت‏های مثبت ومنفی که توسط سیستم لوتوس ایجاد شده‏است را در شکل ۴-۵ مشاهده می‏شود.

 

  جدول ۴-۳: فهرست ویژگی‏های به کار رفته در تشخیص مرجع مشترک
  ویژگی مقدار شرح
۱ Num-I-RepeadD ۱,۲,۳,… تعداد تکرار اشاره در متن درچقدر است؟
۲ Num-I-RepeadS ۱,۲,۳,… تعداد تکرار اشاره در جمله آخر چقدر است؟
۳ Num-J-RepeadD ۱,۲,۳,… تعداد تکرار اشاره در متن درچقدر است؟
۴ Num-J-RepeadS ۱,۲,۳,… تعداد تکرار اشاره در جمله آخر چقدر است؟
۵ I-Length
موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...