مطالب پایان نامه ها درباره :بررسی روایی و اعتبار آزمون دروس زیست شناسی و ادبیات-فارسی ... |
کمک می کند عبارتند از: تمایز گذاشتن GT میان رویههای اندازه گیری ثابت و تصادفی و همچنین قابلیت این نظریه در پرداختن به طرحهای مختلف مطالعه D ( برنان، b2010).
مفروضات زیربنایی آماری: در CTT مفروضات آزمونهای موازی و آزمونهای اساساً تائو معادل،
اغلب غیرقابل دفاع هستند. در حالیکه GTفرض می کند که آزمونها تصادفی موازی هستند و محتوای آزمون یک نمونه تصادفی از حیطه یا جهان تعریف شده در نظر گرفته می شود. برنان (b2010) بیان می کند که هر دو نوع موازی بودن ایده آل هستند و هیچگاه احتمال اینکه کاملاً واقعیت داشته باشد، نیست. اگر چه یکی یا دیگری ممکن است در زمینهای خاص مناسبتر باشد.
مدلسازی نمرات مشاهده شده: در CTT نمره ی مشاهده شده یک فرد در آزمون مبتنی بر نمره واقعی
شخص در آزمون و خطای اندازه گیری است. در GT هر نمره مشاهده شده معرف یک نمونه از تمام نمرات ممکن فرض می شود و در قالب یک یا چند مؤلفه واریانس بیان می شود. نمره مشاهده شده در یک آزمون از رویههای مختلف مورد استفاده در آزمون تأثیر میپذیرد و با توجه به رویههای مورد استفاده در آزمون معرف عملکرد فرد در همان رویههاست.
منابع چندگانهی خطای اندازه گیری: همانطور که سوئن و لی (۲۰۰۷) مطرح کرده اند؛ در وضعیتهای
اندازه گیری پیچیده که با منابع چندگانهای از خطای اندازه گیری (رویه ها) روبهرو است، نمرهی مشاهده شده نتیجه نمرهی واقعی باضافهی اثرات و تعاملات این منابع چندگانه خطاهای اندازه گیری است. روش معمول CTT در چنین وضعیتهای اندازه گیری برای برآورد اعتبار این است که از روشهای مختلفی (همچون بازآزمایی، بین ارزیابان، همسانی درونی،… ) استفاده می کند. روشهای مختلف، ضرایب اعتبار مختلفی را به دنبال دارند که این نیز به نوبهی خود منجر به خطاهای استاندارد اندازه گیری متفاوتی می شود. مسئلهای که اینجا پیش می آید این است که در چنین وضعیتی دقیقترین برآورد ضریب اعتبار کدام است؟ و به منظور ساخت فاصلههای اطمینان حول نمرات مشاهده، کدام خطای استاندارد اندازه گیری را باید به کار برد؟ متأسفانه CTT قادر به پاسخگویی به این سوالات نیست. در حالیکه در GT میتوان منابع چندگانه خطا را همزمان در ترکیبهای متفاوتی از تصادفی یا ثابت در نظر گرفت. با تشخیص اینکه آیا یک رویه تصادفی یا ثابت باشد امکان برآورد اعتبار و خطای استاندارد ناشی از منابع معین خطا در GT وجود دارد. به بیانی دیگر، GT سهم هر منبع خطا (رویه) را در واریانس نمرات آزمون تعیین می کند و فرصت محاسبهی برآوردهای متفاوتی از اعتبار را میدهد که بستگی به این دارد کدام منبع خطا برای هر استفاده ی خاص از آزمون مهم در نظر گرفته می شود. فن و سان (۲۰۱۳) بیان می کنند که در چنین وضعیتهای اندازه گیری، CTT قادر به برآورد اعتبار نیست زیرا شیوه های سنتی اعتبار تنها برای یک رویه طراحی شده اند. از این رو CTT نمیتواند به بررسی منابع چندگانه خطای اندازه گیری بپردازد. سوئن و لی[۱۰۳](۲۰۰۷) نیز اذعان داشتند، این گونه نیست که CTT وجود منابع چندگانه خطاهای اندازه گیری را انکار کند، بلکه حقیقت این است که این نظریه نمیتواند از لحاظ مفهومی و آماری آن را در خود جای دهد در حالیکه، GT نه تنها می تواند از نظر مفهومی تصور داشتن انواع مختلفی از ضریب اعتبار را در خود لحاظ کند، بلکه می تواند یک مکانیسم عملی برای انجام آن نیز داشته باشد.
سنجشهای ملاکمرجع[۱۰۴] و هنجارمرجع[۱۰۵] : در سنجش ملاکمرجع، هر دو خطای اندازه گیری (منظم و
تصادفی) لازم است که لحاظ شوند. CTT چون نمیتواند خطای اندازه گیری منظم را در خود جای دهد بنابراین تنها برای سنجش هنجار مرجع مناسب است. در حالیکه GT به دلیل انعطاف پذیری که دارد هر دو خطای اندازه گیری نسبی و مطلق را در خود جای می دهد بنابراین هم برای سنجش هنجارمرجع و هم برای ملاکمرجع مناسب است (همان منبع).
نظریه G چند متغیره[۱۰۶]، مسائل اعتبار را در راستای جهانهای تعمیم چندگانه گسترش داده است که
وضعیت متناظر آن در CTT وجود ندارد( برنان، b2010 ).
نظریه کلاسیک آزمون و نظریه تعمیمپذیری در مقابل نظریه پرسش پاسخ
سوئن و لی(۲۰۰۷) معتقدند که از نظر فنی؛GT ، CTT، IRT به طور مستقیم در برابر یکدیگر قابل مقایسه نیستند چرا که آنها کانون توجه متفاوتی دارند. نمرهی مورد نظر درIRT، نمرهی نظری مشاهده نشدهی صفت مکنون است و هدف اصلی این نظریه، برآورد کردن صفت مکنونی است که به طور نظری زیربنای پاسخ مشاهده شده به سوال آزمون را تشکیل میدهد که این صفت مکنون بر اساس مدلهای مفروض برآورد می شود. در حالی که نمره مورد نظر در CTT و GT، نمرهی مشاهده شده آزمون است و هدف اصلی این دو نظریه، ارزیابی کیفیت نمره مشاهده شده آزمون است که از طریق ضرایب اعتبار و خطاهای استاندارد برآورد می شود بدون اینکه تلاشی جهت برآورد نمرهها در صفت مکنون صورت گیرد.
در IRT، نتایج به نقض مفروضات مدل بسیار حساس است. همچنین، این نظریه مستلزم نمونههای
آزمایشی بزرگ است که حداقل حجم نمونه در دامنه ۲۰۰ تا ۱۰۰۰ قرار دارد و این بسته به مدل احتمالی انتخاب شده دارد. در مقابل CTT و GT در برابر نقض مفروضات مدل هایشان مقاومتر هستند. علاوه بر این مستلزم نمونههایی با حجم بزرگ نیستند.
واحد بنیادی تحلیل درIRT، پاسخهای سوال است در صورتی که برای CTT و GT، نمرات آزمون است.
برنان (b2010) مطرح می کند که با بکارگیری IRT، محققان میتوانند به وضوح میان سوالات متفاوت تمیز قائل شوند. در مقابلGT نمیتواند میان سوالات تمیز قائل شود، از این رو که یک مدل نمونه گیری تصادفی است. CTT میتوان میان سوالات تمایز بگذارد تنها اگر سوالات همانند تعریف شده باشند، البته در این صورت نیز، مفروضات موازی اغلب تصوری هستند. برنان، همچنین از CTT و GT بهعنوان نظریه های ارزش مورد انتظار[۱۰۷] نام میبرد و برای اینکه IRT را در مقابل نظریه های ارزش مورد انتظار قرار دهد از تمثیل جنگل – درختان[۱۰۸] استفاده می کند و چنین میگوید؛ سوالات منفرد را به عنوان درختان و جهان سوالات را به عنوان جنگل در نظر بگیرید. اگر ما روی درختان جداگانه تمرکز کنیم همانطور که در IRT عمل میکنیم، آنگاه ما بیتردید نسبت به جنگل بیاطلاع هستیم. اگر ما روی جنگل تمرکز کنیم، آنگاه درختان از هم قابل تشخیص نیستند. از دیگر تقابلهای نظریه های مذکور میتوان به این نکته اشاره کرد که سوالات درIRT (صحیحتر پارامترهای سوال) در واقع ثابت است، هر تکرار اندازه گیری یک مجموعه از سوالات با پارامترهایی همانند را شامل می شود که به آن فرم های کاملاً موازی میگویند. در صورتیکه سوالات در GT تقریباً همیشه به صورت تصادفی مورد بررسی قرار میگیرند و مفهوم فرمهای تصادفی موازی در GT نسبت به فرمهای کاملاً موازی[۱۰۹] کمتر محدود کننده است. حتی مفهومهای مختلف CTT از فرمهای موازی خیلی ضعیفتر از فرمهای کاملاً موازی است.
تصمیمها در آموزش و پرورش و روانشناسی مبتنی بر نتایج به دست آمده از ابزارهای سنجش هستند. از ضروریترین ویژگیهای ابزارهای سنجش، میتوان اعتبار و روایی را ذکر کرد. در این تحقیق علاوه بر اینکه اعتبار امتحاناتنهایی به طور عمده در قالب طرحهای اندازه گیری GT بررسی شده است، به شیوه سنتی نیز اعتبار این امتحانات محاسبه گردیده است. لذا، در بخش زیر در مورد اعتبار و روشهای سنتی محاسبهی آن نیز بحث می شود و در ادامه موضوع روایی مطرح میگردد.
مفهوم اعتبار
اصطلاح اعتبار از نظریه کلاسیک آزمون مشتق شده است. با توجه به این نظریه، هر نمره مشاهده شده در ابزار اندازه گیری متشکل از دو مؤلفه است: نمره واقعی و نمره خطا. تصور می شود که هر اندازه گیری با خطا همراه است. انواع مختلفی از خطای اندازه گیری وجود دارد که می تواند به خود ابزار اندازه گیری، وضعیت اندازه گیری، شخصی که آزمون میگیرد یا فرد مورد آزمایش مربوط باشد. اعتبار نسبت تغییرپذیری در اندازه های مشاهده شده است که در نتیجه تغییرپذیری واقعی بین افراد است، تا نوعی از خطا (اسکولتز[۱۱۰]، تروی[۱۱۱] و رادولف[۱۱۲]، ۲۰۱۱). میلر(۲۰۱۰) معتقد است که اعتبار به درجهای که نمرات آزمون عاری از خطای اندازه گیری هستند، اشاره دارد. برآوردهای اعتبار میزانی از خطای اندازه گیری را در جهت استفاده یا تفسیر خاص آزمون برای یک جامعه مشخص شده، کمی می کنند.
اعتبار فرایند کمیسازی خطاست و یک مفهوم کلی برای نامیدن مجموعه ای از ویژگیهاست و اشاره
می کند تا چه حد آزمون دقیق و حساس است، نتایج آزمون ثبات دارد و تکرارپذیر است، ضریب باز پدیدآوریش چقدر است؟ (جزوه فلسفی نژاد، ۱۳۹۱). آزمونها معمولاً به طور کامل معتبر یا کاملاً نامعتبر نیستند، بلکه یک آزمون تا حدی معتبرست. در ۰= ، نمره مشاهده شده برابر خطای تصادفی است. در نتیجه کل واریانس نمره مشاهده شده منعکس کننده واریانس خطا است. در ۱ = ، نمره مشاهده شده برابر نمره واقعی است. در نتیجه کل واریانس نمره مشاهده شده منعکس کننده واریانس نمره واقعی است. اعتبار یک پارامتر نسبی است و در عمل، ضریب اعتبار چیزی بین این دو کرانه خواهد بود.
تعاریف آماری اعتبار
ضریب اعتبار برابر است با همبستگی بین نمرات مشاهده شده دو آزمون موازی.
ضریب اعتبار در جامعه به عنوان نسبت واریانس نمرات واقعی به واریانس نمرات مشاهده شده
تعریف می شود ( ). یا به طور جایگزین، برحسب واریانس نمره خطا به این صورت ( ) نشان داده می شود.
ضریب اعتبار را میتوان به عنوان مجذور همبستگی بین نمره مشاهده شده و نمره واقعی یک آزمون نشان داد ( ).
ضریب اعتبار برابر است با یک منهای مجذور همبستگی بین نمرات مشاهده شده و نمرات خطا ( ) (آلن و ین، ۱۹۷۹، ترجمه دلاور، ۱۳۸۷، ص۱۱۱).
روشهای برآورد اعتبار
اگر چه اعتبار می تواند به طور کلی در چارچوب همسانی و یا تعمیم پذیری تعریف شود، شاخص های آماری ویژه اعتبار، مبتنی بر الگوی آماری و منابع خطا تغییر می کند. الگوی آماری ممکن است بر پایه نظریه کلاسیک آزمون، نظریه تعمیمپذیری، یا نظریه پرسش – پاسخ باشد. در چارچوب نظریه کلاسیک آزمون انواع مختلفی از ضریب اعتبار وجود دارد که بسته به منابع خطای در نظر گرفته شده، متفاوتند. این تعاریف متفاوت باید بر اساس کاربرد خاص آزمون یا تفسیر نمره به دست آمده، انتخاب شوند و یک نوع اعتبار نباید به عنوان جانشینی برای دیگری در نظر گرفته شود ( میلر، ۲۰۱۰). در این قسمت به روشهای برآورد اعتبار در آزمونهای هنجار مرجع پرداخته و در ادامه، اعتبار بین مصححان[۱۱۳] و اعتبار نمرات اختلاف[۱۱۴] نیز مطرح می شود.
بازآزمایی
نمودار۲-۵ : روش های برآورد اعتبار
دو بار اجرا
یکبار اجرا
همسانی درونی
گوتمان
رولون
اسپیرمن- براون
KR21
کودر ریچاردسون
KR20
آلفای کرونباخ
دو نیمه کردن
فرم های موازی
روشهای برآورد اعتبار آزمون های هنجار مرجع
در آزمونهای هنجار مرجع، عملکرد هر آزمودنی با متوسط عملکرد افراد گروه هنجار، مقایسه و تفسیر می شود.
روش بازآزمایی[۱۱۵]
در این روش، آزمون یکسانی را در دو زمان مختلف بر روی گروه واحدی از آزمودنیها اجرا می کنند. ضریب همبستگی بین نمرات به دست آمده از دو بار اجرای آزمون، ضریب اعتبار آزمون است. این ضریب اعتبار برای بررسی ثبات صفت اندازه گیری شده در طول زمان به کار میرود. در این روش خطای ناشی از تفاوت شرایط وابسته به دو موقعیت زمانی برآورد می شود اما خطای ناشی از منابع خطای درونی به حساب نمیآید. چالشی که محققان در این روش با آن رو به رو هستند انتخاب فاصله زمانی مناسب میان دو اجر است که در این فاصله، تغییر واقعی رخ ندهد و همچنین اولین اندازه گیری، دومین اندازه گیری را تحت تأثیر قرار ندهد. فاصلهای که بیش از حد کوتاه است (به علت انتقال اثر و اثر تمرین) تمایل به بیش برآورد اعتبار خواهد داشت و فاصلهای که خیلی زیاد باشد طوریکه افراد در این فاصله تغییری داشته باشند (مثل یادگیری و رشد) ممکن است به زیربرآوردی از اعتبار منجر شود. یک فاصله معمولی، چند هفته (۴ – ۲ هفته) است. این روش برای سازه هایی که در طول زمان گرایش به تغییر دارند (مانند خلق و خو) مناسب نیست ولی برای صفات و خصایصی که معمولاً در طول زمان پایدار هستند (مانند شخصیت و هوش بزرگسالان) مناسب است (اسکولتز و همکاران، ۲۰۱۱؛ یانگ و گرین، ۲۰۱۱؛ میلر،۲۰۱۰).
روش آزمون های موازی[۱۱۶]
دو فرم موازی یک آزمون بر روی گروه واحدی از آزمودنیها با فاصله زمانی یا بدون فاصله زمانی اجرا می شود. ضریب همبستگی میان نمره ها در دو فرم، ضریب اعتبار آنها محسوب می شود. لازم به ذکر است که دو فرم یک آزمون در صورتی موازی هستند که میانگینها و واریانسهای برابر داشته باشند. مشکل اصلی این روش، این است که تهیه فرمهای موازی به سادگی امکان پذیر نیست. در روش اعتبار آزمونهای موازی بدون فاصله زمانی، واریانس خطای ناشی از نمونههای مختلف سوالات مورد بررسی قرار میگیرد. در روش اعتبار آزمونهای موازی با فاصله زمانی (که اعتبار بازآزمایی فرم موازی نیز نامیده می شود) هم خطای ناشی از نمونههای مختلف سوالات و هم خطای ناشی از نمونه گیری زمانی در نظر گرفته می شود. به همین دلیل، مقدار این نوع اعتبار کمتر از اعتبار فرم موازی بدون فاصله زمانی یا بازآزمایی خواهد بود که هر کدام تنها یک نوع خطای تصادفی را تعیین می کنند و این خود گویای مطلوبتر بودن این روش است (میلر، ۲۰۱۰؛ رین اسکاف[۱۱۷]، ۲۰۰۱؛ مگنوسون، ۱۹۶۷، ترجمه براهنی،۱۳۵۱).
روش همسانی درونی[۱۱۸]
به این دلیل که اجرای دو آزمون محدودیتهای عملی دارد و پیدا کردن آزمون معادل کار دشواری است محققان به استفاده از روشهایی در برآورد اعتبار که مستلزم یکبار اجراست تمایل دارند. به این روشها در کل،روشهای مبتنی بر همسانی درونی گفته می شود. همسانی درونی جهت اندازه گیری همسانی سوالات در یک فرم آزمون به کار میرود و روشهای زیر را در بر میگیرد.
فرم در حال بارگذاری ...
[جمعه 1400-07-23] [ 02:46:00 ق.ظ ]
|