کمک می­ کند عبارتند از: تمایز گذاشتن GT میان رویه­های اندازه ­گیری ثابت و تصادفی و همچنین قابلیت این نظریه در پرداختن به طرح­های مختلف مطالعه D ( برنان، b2010).
مفروضات زیربنایی آماری: در CTT مفروضات آزمون­های موازی و آزمون­های اساساً تائو معادل،
اغلب غیرقابل دفاع هستند. در حالیکه GTفرض می­ کند که آزمون­ها تصادفی موازی هستند و محتوای آزمون یک نمونه تصادفی از حیطه یا جهان تعریف شده در نظر گرفته می­ شود. برنان (b2010) بیان می­ کند که هر دو نوع موازی بودن ایده آل هستند و هیچگاه احتمال اینکه کاملاً واقعیت داشته باشد، نیست. اگر چه یکی یا دیگری ممکن است در زمینه­ای خاص مناسب­تر باشد.
مدلسازی نمرات مشاهده شده: در CTT نمره ی مشاهده شده یک فرد در آزمون مبتنی بر نمره واقعی
شخص در آزمون و خطای اندازه ­گیری است. در GT هر نمره مشاهده شده معرف یک نمونه از تمام نمرات ممکن فرض می­ شود و در قالب یک یا چند مؤلفه واریانس بیان می­ شود. نمره مشاهده شده در یک آزمون از رویه­های مختلف مورد استفاده در آزمون تأثیر می­پذیرد و با توجه به رویه­های مورد استفاده در آزمون معرف عملکرد فرد در همان رویه­هاست.
منابع چندگانه­ی خطای اندازه ­گیریهمان­طور که سوئن و لی (۲۰۰۷) مطرح کرده ­اند؛ در وضعیت­های
اندازه ­گیری پیچیده که با منابع چندگانه­ای از خطای اندازه ­گیری (رویه­ ها) روبه­رو است، نمره­ی مشاهده شده نتیجه­ نمره­ی واقعی باضافه­ی اثرات و تعاملات این منابع چندگانه خطاهای اندازه ­گیری است. روش معمول CTT در چنین وضعیت­های اندازه ­گیری برای برآورد اعتبار این است که از روش­های مختلفی (همچون بازآزمایی، بین ارزیابان، همسانی درونی،… ) استفاده می­ کند. روش­های مختلف، ضرایب اعتبار مختلفی را به دنبال دارند که این نیز به نوبه­ی خود منجر به خطاهای استاندارد اندازه ­گیری متفاوتی می­ شود. مسئله­ای که اینجا پیش می ­آید این است که در چنین وضعیتی دقیق­ترین برآورد ضریب اعتبار کدام است؟ و به منظور ساخت فاصله­های اطمینان حول نمرات مشاهده، کدام خطای استاندارد اندازه ­گیری را باید به کار برد؟ متأسفانه CTT قادر به پاسخ­گویی به این سوالات نیست. در حالیکه در GT می­توان منابع چندگانه خطا را همزمان در ترکیب­های متفاوتی از تصادفی یا ثابت در نظر گرفت. با تشخیص اینکه آیا یک رویه تصادفی یا ثابت باشد امکان برآورد اعتبار و خطای استاندارد ناشی از منابع معین خطا در GT وجود دارد. به بیانی دیگر، GT سهم هر منبع خطا (رویه) را در واریانس نمرات آزمون تعیین می­ کند و فرصت محاسبه­ی برآوردهای متفاوتی از اعتبار را می­دهد که بستگی به این دارد کدام منبع خطا برای هر استفاده ی خاص از آزمون مهم در نظر گرفته می­ شود. فن و سان (۲۰۱۳) بیان می­ کنند که در چنین وضعیت­های اندازه ­گیری، CTT قادر به برآورد اعتبار نیست زیرا شیوه ­های سنتی اعتبار تنها برای یک رویه طراحی شده ­اند. از این رو CTT نمی­تواند به بررسی منابع چندگانه خطای اندازه ­گیری بپردازد. سوئن و لی[۱۰۳](۲۰۰۷) نیز اذعان داشتند، این گونه نیست که CTT وجود منابع چندگانه خطاهای اندازه ­گیری را انکار کند، بلکه حقیقت این است که این نظریه نمی­تواند از لحاظ مفهومی و آماری آن را در خود جای دهد در حالیکه، GT نه تنها می ­تواند از نظر مفهومی تصور داشتن انواع مختلفی از ضریب اعتبار را در خود لحاظ کند، بلکه می ­تواند یک مکانیسم عملی برای انجام آن نیز داشته باشد.
پایان نامه - مقاله - پروژه
سنجش­های ملاک­مرجع[۱۰۴] و هنجار­مرجع[۱۰۵] : در سنجش ملاک­مرجع، هر دو خطای اندازه ­گیری (منظم و
تصادفی) لازم است که لحاظ شوند. CTT چون نمی­تواند خطای اندازه ­گیری منظم را در خود جای دهد بنابراین تنها برای سنجش هنجار مرجع مناسب است. در حالیکه GT به دلیل انعطاف پذیری که دارد هر دو خطای اندازه ­گیری نسبی و مطلق را در خود جای می دهد بنابراین هم برای سنجش هنجار­مرجع و هم برای ملاک­مرجع مناسب است (همان منبع).
نظریه G چند متغیره[۱۰۶]، مسائل اعتبار را در راستای جهان­های تعمیم چندگانه گسترش داده است که
وضعیت متناظر آن در CTT وجود ندارد( برنان، b2010 ).
نظریه کلاسیک آزمون و نظریه تعمیم­پذیری در مقابل نظریه پرسش پاسخ
سوئن و لی(۲۰۰۷) معتقدند که از نظر فنی؛GT ، CTT، IRT به طور مستقیم در برابر یکدیگر قابل مقایسه نیستند چرا که آنها کانون توجه متفاوتی دارند. نمره­ی مورد نظر درIRT، نمره­ی نظری مشاهده نشده­ی صفت مکنون است و هدف اصلی این نظریه، برآورد کردن صفت مکنونی است که به طور نظری زیربنای پاسخ مشاهده شده به سوال آزمون را تشکیل می­دهد که این صفت مکنون بر اساس مدل­های مفروض برآورد می­ شود. در حالی که نمره مورد نظر در CTT و GT، نمره­ی مشاهده شده آزمون است و هدف اصلی این دو نظریه، ارزیابی کیفیت نمره مشاهده شده آزمون است که از طریق ضرایب اعتبار و خطاهای استاندارد برآورد می­ شود بدون اینکه تلاشی جهت برآورد نمره­ها در صفت مکنون صورت گیرد.
در IRT، نتایج به نقض مفروضات مدل بسیار حساس است. همچنین، این نظریه مستلزم نمونه­های
آزمایشی بزرگ است که حداقل حجم نمونه در دامنه­ ۲۰۰ تا ۱۰۰۰ قرار دارد و این بسته به مدل احتمالی انتخاب شده دارد. در مقابل CTT و GT در برابر نقض مفروضات مدل هایشان مقاوم­تر هستند. علاوه بر این مستلزم نمونه­هایی با حجم بزرگ نیستند.
واحد بنیادی تحلیل درIRT، پاسخ­های سوال است در صورتی که برای CTT و GT، نمرات آزمون است.
برنان (b2010) مطرح می کند که با بکارگیری IRT، محققان می­توانند به وضوح میان سوالات متفاوت تمیز قائل شوند. در مقابلGT نمی­تواند میان سوالات تمیز قائل شود، از این رو که یک مدل نمونه گیری تصادفی است. CTT می­توان میان سوالات تمایز بگذارد تنها اگر سوالات همانند تعریف شده باشند، البته در این صورت نیز، مفروضات موازی اغلب تصوری هستند. برنان، همچنین از CTT و GT به­عنوان نظریه­ های ارزش مورد انتظار[۱۰۷] نام می­برد و برای اینکه IRT را در مقابل نظریه­ های ارزش مورد انتظار قرار دهد از تمثیل جنگل – درختان[۱۰۸] استفاده می­ کند و چنین می­گوید؛ سوالات منفرد را به عنوان درختان و جهان سوالات را به عنوان جنگل در نظر بگیرید. اگر ما روی درختان جداگانه تمرکز کنیم همانطور که در IRT عمل می­کنیم، آنگاه ما بی­تردید نسبت به جنگل بی­اطلاع هستیم. اگر ما روی جنگل تمرکز کنیم، آنگاه درختان از هم قابل تشخیص نیستند. از دیگر تقابل­های نظریه­ های مذکور می­توان به این نکته اشاره کرد که سوالات درIRT (صحیح­تر پارامتر­های سوال) در واقع ثابت است، هر تکرار اندازه ­گیری یک مجموعه از سوالات با پارامترهایی همانند را شامل می­ شود که به آن فرم های کاملاً موازی می­گویند. در صورتیکه سوالات در GT تقریباً همیشه به صورت تصادفی مورد بررسی قرار می­گیرند و مفهوم فرم­های تصادفی موازی در GT نسبت به فرم­های کاملاً موازی[۱۰۹] کمتر محدود کننده است. حتی مفهوم­های مختلف CTT از فرم­های موازی خیلی ضعیف­تر از فرم­های کاملاً موازی است.
تصمیم­ها در آموزش و پرورش و روان­شناسی مبتنی بر نتایج به دست آمده از ابزار­های سنجش هستند. از ضروری­ترین ویژگی­های ابزار­های سنجش، می­توان اعتبار و روایی را ذکر کرد. در این تحقیق علاوه بر اینکه اعتبار امتحانات­نهایی به طور عمده در قالب طرح­های اندازه ­گیری GT بررسی شده است، به شیوه­ سنتی نیز اعتبار این امتحانات محاسبه گردیده است. لذا، در بخش زیر در مورد اعتبار و روش­های سنتی محاسبه­ی آن نیز بحث می­ شود و در ادامه موضوع روایی مطرح می­گردد.
مفهوم اعتبار
اصطلاح اعتبار از نظریه کلاسیک آزمون مشتق شده است. با توجه به این نظریه، هر نمره مشاهده شده در ابزار اندازه گیری متشکل از دو مؤلفه است: نمره واقعی و نمره خطا. تصور می­ شود که هر اندازه گیری با خطا همراه است. انواع مختلفی از خطای اندازه گیری وجود دارد که می ­تواند به خود ابزار اندازه ­گیری، وضعیت اندازه ­گیری، شخصی که آزمون می­گیرد یا فرد مورد آزمایش مربوط باشد. اعتبار نسبت تغییرپذیری در اندازه­ های مشاهده شده است که در نتیجه­ تغییر­پذیری واقعی بین افراد است، تا نوعی از خطا (اسکولتز[۱۱۰]، تروی[۱۱۱] و رادولف[۱۱۲]، ۲۰۱۱). میلر(۲۰۱۰) معتقد است که اعتبار به درجه­ای که نمرات آزمون عاری از خطای اندازه ­گیری هستند، اشاره دارد. برآورد­های اعتبار میزانی از خطای اندازه ­گیری را در جهت استفاده یا تفسیر خاص آزمون برای یک جامعه مشخص شده، کمی می­ کنند.
اعتبار فرایند کمی­سازی خطاست و یک مفهوم کلی برای نامیدن مجموعه ­ای از ویژگی­هاست و اشاره
می­ کند تا چه حد آزمون دقیق و حساس است، نتایج آزمون ثبات دارد و تکرار­پذیر است، ضریب باز پدیدآوریش چقدر است؟ (جزوه فلسفی نژاد، ۱۳۹۱). آزمون­ها معمولاً به­ طور کامل معتبر یا کاملاً نامعتبر نیستند، بلکه یک آزمون تا حدی معتبرست. در ۰= ، نمره مشاهده شده برابر خطای تصادفی است. در نتیجه کل واریانس نمره مشاهده شده منعکس کننده واریانس خطا است. در ۱ = ، نمره مشاهده شده برابر نمره واقعی است. در نتیجه کل واریانس نمره مشاهده شده منعکس کننده واریانس نمره واقعی است. اعتبار یک پارامتر نسبی است و در عمل، ضریب اعتبار چیزی بین این دو کرانه خواهد بود.
تعاریف آماری اعتبار
ضریب اعتبار برابر است با همبستگی بین نمرات مشاهده شده دو آزمون موازی.
ضریب اعتبار در جامعه به عنوان نسبت واریانس نمرات واقعی به واریانس نمرات مشاهده شده
تعریف می شود ( ). یا به طور جایگزین، برحسب واریانس نمره خطا به این صورت ( ) نشان داده می شود.
ضریب اعتبار را می­توان به عنوان مجذور همبستگی بین نمره مشاهده شده و نمره واقعی یک آزمون نشان داد ( ).
ضریب اعتبار برابر است با یک منهای مجذور همبستگی بین نمرات مشاهده شده و نمرات خطا ( ) (آلن و ین، ۱۹۷۹، ترجمه دلاور، ۱۳۸۷، ص۱۱۱).
روش­های برآورد اعتبار
اگر چه اعتبار می ­تواند به طور کلی در چارچوب همسانی و یا تعمیم پذیری تعریف شود، شاخص­ های آماری ویژه اعتبار، مبتنی بر الگوی آماری و منابع خطا تغییر می­ کند. الگوی آماری ممکن است بر پایه نظریه کلاسیک آزمون، نظریه تعمیم­پذیری، یا نظریه پرسش – پاسخ باشد. در چارچوب نظریه کلاسیک آزمون انواع مختلفی از ضریب اعتبار وجود دارد که بسته به منابع خطای در نظر گرفته شده، متفاوتند. این تعاریف متفاوت باید بر اساس کاربرد خاص آزمون یا تفسیر نمره به دست آمده، انتخاب شوند و یک نوع اعتبار نباید به عنوان جانشینی برای دیگری در نظر گرفته شود ( میلر، ۲۰۱۰). در این قسمت به روش­های برآورد اعتبار در آزمون­های هنجار مرجع پرداخته و در ادامه، اعتبار بین مصححان[۱۱۳] و اعتبار نمرات اختلاف[۱۱۴] نیز مطرح می شود.
بازآزمایی
نمودار۲-۵ : روش های برآورد اعتبار
دو بار اجرا
یکبار اجرا
همسانی درونی
گوتمان
رولون
اسپیرمن- براون
KR21
کودر ریچاردسون
KR20
آلفای کرونباخ
دو نیمه کردن
فرم های موازی
روش­های برآورد اعتبار آزمون های هنجار مرجع
در آزمون­های هنجار مرجع، عملکرد هر آزمودنی با متوسط عملکرد افراد گروه هنجار، مقایسه و تفسیر می­ شود.
روش بازآزمایی[۱۱۵]
در این روش، آزمون یکسانی را در دو زمان مختلف بر روی گروه واحدی از آزمودنی­ها اجرا می­ کنند. ضریب همبستگی بین نمرات به دست آمده از دو بار اجرای آزمون، ضریب اعتبار آزمون است. این ضریب اعتبار برای بررسی ثبات صفت اندازه گیری شده در طول زمان به کار می­رود. در این روش خطای ناشی از تفاوت شرایط وابسته به دو موقعیت زمانی برآورد می­ شود اما خطای ناشی از منابع خطای درونی به حساب نمی­آید. چالشی که محققان در این روش با آن رو به رو هستند انتخاب فاصله زمانی مناسب میان دو اجر است که در این فاصله، تغییر واقعی رخ ندهد و همچنین اولین اندازه ­گیری، دومین اندازه ­گیری را تحت تأثیر قرار ندهد. فاصله­ای که بیش از حد کوتاه است (به علت انتقال اثر و اثر تمرین) تمایل به بیش برآورد اعتبار خواهد داشت و فاصله­ای که خیلی زیاد باشد طوریکه افراد در این فاصله تغییری داشته باشند (مثل یادگیری و رشد) ممکن است به زیربرآوردی از اعتبار منجر شود. یک فاصله معمولی، چند هفته (۴ – ۲ هفته) است. این روش برای سازه ­هایی که در طول زمان گرایش به تغییر دارند (مانند خلق و خو) مناسب نیست ولی برای صفات و خصایصی که معمولاً در طول زمان پایدار هستند (مانند شخصیت و هوش بزرگسالان) مناسب است (اسکولتز و همکاران، ۲۰۱۱؛ یانگ و گرین، ۲۰۱۱؛ میلر،۲۰۱۰).
روش آزمون های موازی[۱۱۶]
دو فرم موازی یک آزمون بر روی گروه واحدی از آزمودنی­ها با فاصله زمانی یا بدون فاصله زمانی اجرا می شود. ضریب همبستگی میان نمره ها در دو فرم، ضریب اعتبار آنها محسوب می­ شود. لازم به ذکر است که دو فرم یک آزمون در صورتی موازی هستند که میانگین­ها و واریانس­های برابر داشته باشند. مشکل اصلی این روش، این است که تهیه فرم­های موازی به سادگی امکان پذیر نیست. در روش اعتبار آزمون­های موازی بدون فاصله زمانی، واریانس خطای ناشی از نمونه­های مختلف سوالات مورد بررسی قرار می­گیرد. در روش اعتبار آزمون­های موازی با فاصله زمانی (که اعتبار بازآزمایی فرم موازی نیز نامیده می­ شود) هم خطای ناشی از نمونه­های مختلف سوالات و هم خطای ناشی از نمونه گیری زمانی در نظر گرفته می­ شود. به همین دلیل، مقدار این نوع اعتبار کمتر از اعتبار فرم موازی بدون فاصله زمانی یا بازآزمایی خواهد بود که هر کدام تنها یک نوع خطای تصادفی را تعیین می­ کنند و این خود گویای مطلوب­تر بودن این روش است (میلر، ۲۰۱۰؛ رین اسکاف[۱۱۷]، ۲۰۰۱؛ مگنوسون، ۱۹۶۷، ترجمه براهنی،۱۳۵۱).
روش همسانی درونی[۱۱۸]
به این دلیل که اجرای دو آزمون محدودیت­های عملی دارد و پیدا کردن آزمون معادل کار دشواری است محققان به استفاده از روش­هایی در برآورد اعتبار که مستلزم یکبار اجراست تمایل دارند. به این روش­ها در کل،روش­های مبتنی بر همسانی درونی گفته می­ شود. همسانی درونی جهت اندازه ­گیری همسانی سوالات در یک فرم آزمون به کار می­رود و روش­ها­ی زیر را در بر می­گیرد.

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...