چالشها و کارهای مرتبط با حوزهی کاوش در نظرات
2-2-1. شناسایی شخص صاحب نظر
بدلایل مختلف اطلاع از هویت شخص اظهارنظر کننده میتواند حائز اهمیت باشد. به عنوان مثال لحاظ کردن میزان تجربه و تخصص شخص در رابطه با موضوع میتواند در جهت تعیین میزان ارزش آن اظهار نظر کمککننده باشد، یا سابقهی شخص میتواند برای شناسایی نظراتی که با اهداف جانبدارانه جعل و منتشر میشوند بکار گرفته شود. [3]، [4]، و [5] نمونههایی از کارهای انجامشده در این رابطه هستند.
2-2-2. تشخیص هدف نظر اظهارشده
مطمئناً اطلاع از نظرات افراد بدون آنکه بدانیم این نظرات در رابطه با چه چیزهایی بیان شدهاند استفادهی چندانی در مقایسه با زمانی که دقیقا از هدف اظهار نظر مطلع باشیم ندارد. بنابراین کشف هدفی که مقصود اظهارنظر بوده است دارای اهمیت ویژهای است. در مطالعات [6]، [7]، [8]، [9]، و [10] در این رابطه کار شده است. در [6] از اطلاعات زبانشناسی مربوط به چگونگی بیان رابطهی بین موضوع و عقیدهی اظهارشده در رابطه با آن موضوع استفاده شده است. [7] به مطالعهی این موضوع در متون خبری به زبان اردو پرداخته است. در [8] با دریافت هدف توسط پرسوجو، از مشخصه های مرتبط با آن هدف استفاده کرده و گرایش توییتها در سایت توییتر نسبت به آن هدف شناسایی میشوند. (توییتر یک شبکهی اجتماعی است که در آن کاربران نظرات و متون خود را بهصورت کوتاه در رابطه با موضوعات دلخواه ارائه میکنند. به این متون کوتاه که از نظر طول محدود هستند توییت گفته میشود).
2-2-3. درجهبندی نظر
برخی اوقات که کاربران به اظهارنظر دربارهی کالایی میپردازند علاوهبر اظهارنظر متنی امکان تعیین درجه یا امتیاز نیز برای آن کالا توسط آن ها وجود دارد (مثلا دادن 3 ستاره از 5 ستاره به یک کتاب). استخراج درجهی گرایش نظر (مثلا میزان رضایت یا عدم رضایت) علاوهبر تعیین صرفاً مثبت یا منفی بودن نظر میتواند کمک کننده باشد. کارهای [11]، [12]، و [13] به این موضوع پرداختهاند. در [11] و [12] به تعیین درجه برای اظهارنظرهای جزئی مختلف انجام گرفته در متن یک اظهارنظر پرداخته شده است (مثلا تمیزی، قیمت، و … برای یک اظهارنظر در رابطه با یک هتل).
2-2-4. جستجو و یافتن متون هدف
بسته به کاربردی که موردنظر است بخشهای خاصی از متون وب مورد بررسی قرار خواهند گرفت و موردنیاز خواهند بود. طبعاً یافتن و جمع آوری اسناد حاوی متون مطلوب دارای اهمیت است. از جمله عملیات لازم برای تفکیک بین اسناد عبارتند از :
2-2-4-1. تشخیص موضوع
تشخیص موضوع متون در هنگامی که بهدنبال نظرات در حوزهی خاصی هستیم ممکن است کمککننده باشد (بهعنوان مثال تشخیص متونی که در رابطه با گوشی تلفنهمراه هستند، هنگامی که به بررسی نظرات کاربران در رابطه با این کالا میپردازیم). این موضوع به خصوص درصورتی که قبل از واکشی اسناد از وب انجام شود، از نقطهنظر صرفهجویی در منابع حائز اهمیت است. [14] مطالعهای دررابطهبا مشخصه ها و الگوریتمهای استفادهشده برای تشخیص موضوع بر اساس آدرس یکتای اسناد تحت وب است که در صورت موفقیت نیاز به واکشی را از بین میبرد.
2-2-4-2. تشخیص زبان
زبان متون هم یکی دیگر از معیارهای جداسازی اسناد است و ممکن است تنها نظرات اظهارشده به یک زبان خاص موردنظر باشند، لذا تشخیص اسنادی که به یک زبان خاص باشند (خصوصا قبل از واکشی اسناد) حائز اهمیت است. در [15] به مطالعهی تشخیص زبان بر اساس آدرس اسناد تحت وب و بدون نیاز به واکشی آن ها پرداخته شده است.
2-2-4-3. تشخیص وجود نظر
تشخیص وجود یا عدم وجود نظر به منظور جداسازی متونی که حاوی نظر و گرایش هستند از متونی که اینچنین نیستند نیز از مباحثی است که در مورد مطالعه قرار گرفته است. از جملهی مطالعاتی که در آن ها به این بحث پرداخته شده است میتوان به [16]، [17]، و [18] اشاره کرد.
2-2-5. سطح مطالعهی گرایش احساس
تعیین گرایش احساس اظهارنظر در تحقیقات انجامگرفته در سطوح مختلفی انجام گرفته است به این معنی که گاهی گرایش مثبت یا منفی یک سند یا نظر بهطور یکجا مورد بررسی قرار گرفته است (سطح سند) مثل کارهای [19] و [20]، گاهی این موضوع برای جملات مورد مطالعه بوده است (سطح جمله) مثل کارهای [21] و [22]، و گاهی نیز برای جنبههای یک شیء تعیین شده است مثل کارهای [23] و [24].
2-2-6. منابع لغوی
یکی از کارهایی که برای کمک به تشخیص گرایش احساس انجام گرفته است تهیهی منابع لغوی متعددی است که حاوی مجموعهای از لغات هستند و اطلاعاتی در رابطه با گرایش آن ها را در خود دارند. از جملهی این مطالعات میتوان به [25] و [26] اشاره کرد. در این دو تحقیق (که دومی مکمل اولی است)، به دستهه ای لغات در یکی از منابع لغوی شناختهشده امتیازاتی نسبت داده شده است که گویای کیفیت مثبت، منفی، یا خنثی بودن آن ها است.
Opinion Target
Tweet
Opinion Rating
Topic Detection
Fetch
URL
Language Detection
Opinion Detection
Document Level
Sentence Level
WordNet
[چهارشنبه 1400-03-05] [ 11:07:00 ب.ظ ]
|