از آنجا که آزمون­های پارامتری، نسبتاً ” خدشه ناپذیر” هستند، حتی در شرایطی که مفروضه­های مربوط به استفاده از این آزمون­ها رعایت نمی­ شود، نیز می­توان از آن­ها استفاده کرد؛ مگر آنکه توزیع کلی نمره­ها تفاوت چشمگیری با یک توزیع طبیعی داشته باشد. همچنین در صورتی که تعداد آزمودنی­های هر موقعیت مساوی باشد، دیگر همگنی تغییرپذیری نمرات در موقعیت­های مختلف اهمیت چندانی ندارد (گرین و دی- الیویرا، ترجمه­ی دلاور و پژهان، ۱۳۹۲). با توجه به مطلب بالا، از آزمون t مستقل برای پاسخ­گویی به سوال مطرح شده استفاده شده است.
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت nefo.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))

از آنجا که قدرمطلق مقدار t مشاهده شده در دو آزمون ادبیات­فارسی (۵۹۸ df= ،۱۸/۹- t= ) و زیست­شناسی (۵۹۸ df=، ۵۶/۷- t=) بزرگتر از مقدار t بحرانی (۶۱/۲) برای سطح معناداری (۰۱/۰) می باشد، بنابراین با ۹۹ درصد اطمینان می­توان گفت که آزمودنی­های دختر و پسر در دو آزمون، عملکرد متفاوتی داشته اند.
فصل پنجم
بحث و نتیجه ­گیری
مقدمه
امتحانات­نهایی نقش مهمی در ارزشیابی آموخته­های دانش ­آموزان، چگونگی کیفیت تدریس، فرایند آموزش و ارتقاء سطح تحصیلی دارند، همچنین از نتایج این امتحانات برای گزینش کارجویان نیز استفاده می­ شود. علاوه بر این، طرح جدید سنجش و پذیرش دانشجو در کشورمان که افزایش تاثیر سوابق تحصیلی در پذیرش دانشجویان را به دنبال دارد، بیش از پیش بر حساسیت و اهمیت امتحانات نهایی افزوده است.
علی­رغم کاربرد گسترده­ی این امتحانات و تصمیمات سرنوشت­سازی که بر اساس این امتحانات گرفته می­ شود، تحقیقات نظام­مندی که بر روی کیفیت آن­ها بر اساس روش­های جدید اندازه ­گیری صورت گرفته باشد وجود نداشته و یا خیلی اندک است. همچنین کیفیت نمره­گذاری و تصحیح این امتحانات در هاله­ای از ابهام قرار دارد. لذا در این تحقیق، مسائل زیر به همراه روش­های تحلیل آن­ها به شرح زیر مورد مطالعه قرار گرفته است؛
بررسی روایی امتحانات­نهایی شامل بررسی ساختاری، محتوایی، توزیع طبقه ­بندی سوالات و میزان
پوشش محتوای کتاب با بهره گرفتن از نظرات متخصصان موضوعی که با اصول اندازه ­گیری آشنایی داشتند.
بررسی اعتبار امتحانات­نهایی، با بهره گرفتن از طرح­های اندازه ­گیری در نظریه تعمیم­پذیری و با بکارگیری نرم افزار ۵٫۰ EDUG.
ویژگی­های روان­سنجی سوالات بر­اساس CTT؛ در پاسخ به این سوال بعد از محاسبه اعتبار آزمون، آن را با بهره گرفتن از روش لوپ مورد بررسی قرار داده و سپس، شاخص­ های آماری سوالات (درجه دشواری و ضریب تمیز سوال) براساس داده ­های خام و کد­گذاری شده محاسبه شد.
ویژگی­های روان سنجی سوالات بر اساس IRT؛ بعد از اینکه نتایج نشان از برقراری مفروضات
اساسی این نظریه (تک بعدی بودن و استقلال موضعی) داشت، با بهره گرفتن از نرم­افزار بایلوگ پارامترهای سوال و توانایی آزمودنی­ها برآورد و برازش تک تک سوالات با مدل بررسی گردید. همچنین، منحنی ویژگی سوالات به تفکیک مدل­ها و منحنی ویژگی و تابع آگاهی یک سوال نمونه، مقادیر بیشینه آگاهی سوالات و تتای ماکسیمم، تابع آگاهی آزمون و خطای استاندارد اندازه ­گیری، هیستوگرام توزیع توانایی آزمودنی­ها طبق مدل دو پارامتری که بهترین برازش را با داده ­ها داشت (با بکارگیری آزمون خی دو)، ترسیم گردید.
بررسی وضعیت قبولی آزمودنی ها و مقایسه عملکرد آن ها بر اساس جنسیت که از شاخص­ های
توصیفی و آزمون tمستقل برای پاسخ­گویی به آن استفاده شد.
بحث و نتیجه ­گیری
بررسی روایی امتحانات نهایی دروس ادبیات­فارسی و زیست­شناسی
در درس ادبیات فارسی، ارزیابی ساختاری سوالات نشان داد تقریباً ۹۵ درصد سوالات بدون اشکال
ساختاری هستند که بیانگر وضعیت بسیار مطلوبی است. ۵ درصد سوالات یک هدف آموزشی یا یک موضوع مهم را اندازه نگرفته­اند و این، تنها اشکال ساختاری در درس مذکور می­باشد. در درس زیست­شناسی، بیشترین اشکال ساختاری سوالات، در عدم تناسب بارم با میزان دشواری سوالات مشاهده شد. عدم تناسب بارم با میزان اهمیت سوال (۷۵/۱۸% سوالات) و نامناسب بودن نوع سوال برای اندازه ­گیری هدف مورد نظر (۵/۱۲% سوالات) از دیگر اشکالات ساختاری مهم در درس زیست­شناسی می­باشد. همچنین، (۹۴/۱۰% سوالات) یک موضوع مهم یا یک هدف آموزشی را اندازه نگرفته و در همین درصد از سوالات، بارم به طور منطقی به هر بخش از پاسخ اختصاص داده نشده است. سراسری و با اهمیت بودن امتحانات­نهایی، ضرورت برگزاری کارگاه­های آموزشی برای طراحان سوال را موجب می­ شود تا اشکالات ساختاری این امتحانات، به حداقل رسیده و ارتقاء کیفی آن ها را به دنبال داشته باشد.
ارزیابی محتوایی سوالات بر اساس ارزش های بحرانی CVR، در درس ادبیات فارسی نشان داد
که هیچ سوالی از طرف متخصصان موضوعی ضروری تشخیص داده نشده است و بر­اساس ملاک سهل­گیرانه (۶/۰)، تنها ۳۱/۲۶ درصد سوالات ضروری و دیگر سوالات مفید یا غیر­ضروری شناسایی شده ­اند. همچنین، در درس زیست شناسی بر اساس ارزش بحرانی CVR، ۲۵ درصد سوالات و بر اساس ملاک سهل­گیرانه، ۱۹/۶۷ درصد سوالات ضروری تشخیص داده شده ­اند.
زمانی که با یک آزمون پایانی و از طریق نمونه ­ای از سوالات، قصد آن است که کل محتوای کتاب و توانایی واقعی آزمودنی­ها سنجیده شود، بهتر است سوالات به مباحث ضروری اختصاص یابد. اگر بر اساس ملاک سهل­گیرانه قضاوت شود، درس زیست شناسی وضعیت مناسبی دارد، اما تقریباً دانش موجود در سه چهارم سوالات ادبیات­فارسی، ضروری نبوده و آگاهی یا عدم آگاهی از آن­ها در اندازه ­گیری توانایی واقعی آزمودنی­ها تأثیر چندانی ندارد. لازم به ذکر است که با توجه به ماهیت درس ادبیات­فارسی، ذوق و سلیقه­ی متخصصان موضوعی را نیز، نمی­ توان نادیده گرفت. با این وجود، در طراحی سوالات دروس مورد مطالعه به­ ویژه درس ادبیات­فارسی، به جدول دو بعدی هدف – محتوا توجه لازم صورت نگرفته است.
بررسی توزیع سوالات بر اساس سطوح یادگیری، در درس ادبیات­فارسی نشان داد که تمام سوالات
متعلق به سطوح پایین شناختی است. به طوریکه، ۱۶/۶۳ درصد سوالات متعلق به سطح دانش می­باشد. در درس زیست­شناسی نیز، تقریباً ۹۴ درصد سوالات سطوح پایین شناختی را سنجیده­اند که از این میان، حدوداً ۶۰ درصد سوالات متعلق به سطح دانش می­باشد و تنها ۶ درصد سوالات به سطح تحلیل اختصاص یافته است. در مطالعات رحیمی(۱۳۸۷)، واحدی و فزون­مهر(۱۳۸۴)، شاطریان محمدی(۱۳۸۴)، سلیمانی(۱۳۸۴) و سادئی(۱۳۷۶) نیز بیشتر سوالات در سطوح پایین شناختی طرح شده بودند. در مطالعه­ الزیبی(۲۰۱۴) در خصوص امتحانات دیپلم دبیرستان، ۶/۶۹ درصد از کل سوالات بر سطوح پایین شناختی متمرکز بودند. در سوالات بررسی شده ریاضیات در مطالعه­ گزیلر و همکاران (۲۰۱۲) نیز وضعیت به همین شکل بود. بیش از ۹۰ درصد سوالات، در مطالعه­ آزار (۲۰۰۵) و همچنین در مطالعه­ کارا مصطفی اوقل (۲۰۰۳) در خصوص سوالات فیزیک و شیمی دبیرستان، در سطوح پایین شناختی طرح شده بودند.
در شیوه نامه طراحی سوالات استاندارد و مفهومی مقطع متوسطه که توسط وزارت آموزش و پرورش تدوین شده، آمده است که سوالات باید طوری طراحی شوند تا همه حیطه شناختی، مورد سنجش قرار گیرد و البته باید توجه داشت؛ تعداد سوالاتی که سطح دانش و فهمیدن را می­سنجد، بیش از بقیه سطوح باشد. یافته­های بدست آمده از تحقیق حاضر، هر چند نشان می­دهد که بیشتر سوالات متعلق به سطوح دانش و فهمیدن است لذا سوالات دروس مورد مطالعه، همه سطوح را پوشش نداده است. با توجه به اینکه سوالات سطوح بالاتر، درک عمیق تر آزمودنی­ها را مورد ارزیابی قرار می­ دهند این سطوح نباید از نظر طراحان دور بماند.
وضعیت توزیع سوالات دروس ادبیات­فارسی و زیست­شناسی، به ترتیب نسبتاً متناسب و متناسب
با حجم فصل­های کتاب است. در آزمون زیست­شناسی، ترتیب سوالات بر اساس فصل­های کتاب بود.
یک آزمون پیشرفت تحصیلی مطلوب آزمونی است که سوالات آن نمونه­ معرفی از تمامی اهداف
آموزشی و کل محتوای درس مربوطه باشد و آن را به بهترین شکل پوشش دهد. همچنین از نظر ساختار، بدون ایراد بوده و تمام سطوح شناختی را شامل شود. در مجموع می­توان گفت؛ آزمون ادبیات­فارسی از نظر ساختاری وضعیت بسیار بهتری نسبت به محتوا، توزیع سوالات بر اساس سطوح شناختی و پوشش مطالب کتاب دارد. همچنین، به غیر از توزیع سوالات بر اساس سطوح شناختی، سایر موارد مذکور در آزمون زیست­شناسی به نسبت رعایت شده است.
بررسی اعتبار امتحانات نهایی دروس ادبیات فارسی و زیست شناسی
در وضعیت­های اندازه ­گیری همچون امتحانات­نهایی، منابع متفاوتی از خطا از قبیل؛ سوالات، مصححان، موقعیت، جنسیت و … وجود دارد که نمرات مشاهده شده را متأثر می­ کند. در چنین شرایطی، هنگام برآورد اعتبار، CTT قادر به تفکیک منابع چندگانه خطای اندازه ­گیری نیست و همه آن­ها را به عنوان خطای تصادفی در نظر می­گیرد. در صورتی­که GT منابع چندگانه خطای منظم را به دقت مشخص می­ کند و ضمن تفکیک آن­ها، اثر هر یک را بر روی اعتبار اندازه ­گیری تعیین می­ کند. با در نظر گرفتن منابع چندگانه خطا، نتایج به­دست آمده را با دقت بیشتری می­توان به سایر موقعیت­های اندازه ­گیری تعمیم داد(وب و شیولسون، ۱۹۹۱؛ برنان،۲۰۰۱). بدین منظور در این پژوهش، برای بررسی اعتبار امتحانات نهایی دو درس ادبیات­فارسی و زیست­شناسی از نظریه تعمیم­پذیری استفاده گردید. خلاصه­ی نتایج تحلیل واریانس در هر یک از دروس به این شرح است:
در درس ادبیات­فارسی، رویه­ی سوالات، اثر تعاملی سوالات با دانش ­آموزان و رویه­ی دانش ­آموزان به ترتیب ۸/۴۳% ، ۳/۳۹% و ۳/۸% از واریانس نمره­ی کل را به خود اختصاص داده­اند. همچنین، در درس زیست­شناسی، سهم اثر تعاملی سوالات با دانش ­آموزان، رویه­ی دانش ­آموزان و رویه­ی سوالات از واریانس نمره­ی کل به ترتیب ۴/۶۴%، ۹/۲۱% و ۹/۱۰% است. سهم دیگر رویه­ ها ناچیز بود.
کمازاوا (۲۰۰۹)، دو دلیل احتمالی برای عدم تغییرپذیری در اثر شخص را در آزمون­های ملاک­مرجع عنوان می­ کند؛ یکی اندازه نمونه و دیگری همگنی گروه. با توجه به اینکه اندازه نمونه در هر دو درس مورد مطالعه یکسان بوده و با در نظر گرفتن سهم واریانس دانش ­آموزان در هر دو درس، می­توان گفت: توانایی دانش ­آموزان در درس ادبیات­فارسی در مقایسه با درس زیست­شناسی از تجانس بیشتری برخوردار بوده است. برای آزمون­های نرم­مرجع، اثر شخص باید بزرگ باشد در حالی که اثر سوال باید حدود یک سوم کمتر از اثر شخص باشد. در حالیکه در آزمون­های ملاک­مرجع، به دلیل اینکه دانش ­آموزان بر حسب سطح تسلط­شان همگن هستند، واریانس شخص ممکن است پایین باشد. از این رو در آزمون­های ملاک­مرجع که سوالات یک ملاک یا هدف خاصی را اندازه می­گیرند، بدست آمدن مقدار بزرگی برای واریانس سوال مطلوب است (براون و راس، ۱۹۹۶، به نقل از کمازاوا، ۲۰۰۹؛ کمازاوا ، ۲۰۰۹). با توجه به ملاک­مرجع بودن امتحانات نهایی، در درس ادبیات­فارسی، سوالات بیشترین واریانس را به خود اختصاص داده­اند. در صورتی که در درس زیست­شناسی، سوالات سومین منبع تشکیل دهنده واریانس هستند و اثر سوال یک دوم اثر شخص است.
بنا بر اصل تقارن، در یک مطالعه هر کدام از رویه­ ها می­توانند به عنوان رویه­ی تفکیکی (هدف اندازه ­گیری) در نظر گرفته شوند(کاردینت و همکاران، ۱۹۷۶). استفاده از GT و خاصیت تقارن پذیری آن، به ارزشیابان و محققان آموزشی این امکان را می­دهد که هر کدام از اجزاء یک سیستم آموزشی را می­توانند به عنوان هدف اندازه گیری خود انتخاب کنند. به بیانی دیگر، در پژوهش­های آموزشی علاوه بر دانش ­آموزان سایر ابعاد آموزشی نیز از قبیل؛ برنامه ­های آموزشی، اهداف آموزشی، محیط آموزشی، سال تحصیلی، روش­های تدریس، ارزیابان، معلمان، حجم کتاب، فصول کتاب، سوالات و غیره می ­تواند به عنوان هدف اندازه ­گیری انتخاب شوند. در پژوهش حاضر با بکارگیری این اصل، رویه­های دانش ­آموزان، سوالات و مصححان در قالب سه طرح برای هر یک از دروس مورد مطالعه به عنوان هدف اندازه ­گیری در نظر گرفته شدند.
نتایج مطالعه­ G مربوط به طرح­های اندازه ­گیری SGR/I و I/SGR نشان داد که هم نمرات دانش ­آموزان و هم سوالات از اعتبار بالایی برخوردارند. به طوریکه دامنه ضرایب تعمیم­پذیری برای هر دو نوع اندازه ­گیری نسبی و مطلق، (۹۰/۰ تا ۹۹/۰) است. همانطور که وب و همکاران (۲۰۰۷) مطرح کرده ­اند، برای گرفتن تصمیم­هایی در مورد افراد مبتنی بر نمرات مشاهده شده­شان، ضریب اعتبار۸۰/۰ و بالاتر غالباً به قدر کافی معتبر تلقی می­ شود و در صورتی که تصمیمات، پیامدهای چشمگیری داشته باشند، مقادیر ۹۰/۰ به بالاتر ترجیح داده می­ شود. در مطالعه­ گولار و گلبال (۲۰۱۰) نیز که با هدف بررسی اعتبار سوالات باز پاسخ ریاضی صورت گرفته بود، ضرایب تعمیم پذیری نسبی و مطلق بالاتر از ۹۰/۰ بدست آمده بود.
در طرح اندازه­گیریR/SGI که مصححان هدف اندازه ­گیری بودند، ضرایب تعمیم­پذیری بدست آمده برای اندازه ­گیری مطلق در هر دو درس مورد مطالعه، کمتر از ۷۰/۰ است که نشان دهنده نامطلوب بودن نمره­گذاری مصححان می باشد. در طرح مذکور، بالا بودن ضریب تعمیم­پذیری نسبی بدست آمده(۹۲/۰) در درس ادبیات­­فارسی نشان می­دهد که تغییر­پذیری بین مصححان زیاد بوده و آن­ها به طور معتبری (در یک مقیاس سخت­گیری- سهل­گیری) یا (برحسب میانگین نمره­گذاری­هایشان) از هم قابل تفکیک هستند. به بیانی دیگر، مصححان روند تصحیح مشابه­ای نداشته­اند. پایین بودن ضریب تعمیم­پذیری نسبی در درس زیست­شناسی، به این معناست که بیشتر مصححان در نمره­گذاری­هایشان مشابه عمل کرده ­اند و نمی­ توان آن­ها را از هم متمایز کرد. ضرایب تعمیم­پذیری در مطالعه­ سودویک و همکاران (۲۰۰۵) نیز، که با هدف بهبود رویه ارزیابی توانایی نگارش دانشجویان در قالب طرحی کاملاً متقاطع انجام شده بود، کمتر از ۳۵/۰ بدست آمد.
نتایج امتحانات­نهایی به دلیل تشریحی بودن، وابسته به دقت تصحیح مصصحان است. از این­رو ضروری است به ­منظور ارتقاء کیفیت تصحیح، در پژوهش­های جداگانه­ ای با بکارگیری دیگر طرح­های متنوع، به خصوص طرح­های متقاطع این مسئله بررسی شود. همچنین، می­توان سایر ویژگی­های مصححان از قبیل؛ سابقه­ تصحیح، سن، جنسیت و دیگر عوامل را در طرح­های اندازه ­گیری مناسبی وارد کرده و سهم واریانس آن­ها را برآورد کرد.
از آن­جا که طرح سوال و روند تصحیح مستلزم صرف هزینه و زمان است با انجام مطالعات D می­توان ترکیب مناسبی از سوالات و مصححان را با توجه به اندازه اعتبار مورد نظر، به­دست آورد و با در نظر گرفتن دیگر محدودیت­های عملی، طرح اندازه ­گیری مطلوبی برای برآورد اعتبار این امتحانات طراحی کرد. در این پژوهش برای هر طرح اندازه ­گیری، مطالعه­ D جداگانه­ ای صورت گرفت. در مطالعه­ رستگاری مقدم(۱۳۷۸)، تعداد درجه بندی کنندگان مورد استفاده توسط سازمان سنجش کافی ولی تعداد سوالات مورد استفاده کم بود که برای دستیابی به ضرایب تعمیم­پذیری مطلوب می­بایست بر تعداد سوالات آزمون افزود. همچنین، در مطالعه­ بوالحسنی(۱۳۹۰) با دو مصحح نیز می­توان به ضرایب مطلوب دست یافت.
در مطالعاتی که در آینده جهت بررسی اعتبار امتحانات­نهایی انجام می­گیرد، محققین در صورت استفاده از طرح­های اندازه ­گیری مشابه طرح­های به کار رفته در این پژوهش (و همچنین مشابه بودن وضعیت اندازه ­گیری) می­توانند با توجه به نتایج بدست­آمده از تحلیل­های مطالعه­ D و با در نظر داشتن سایر ملاحظات منطقی و عملی، تعداد سطوح رویه­های بکار رفته را برای دستیابی به ضرایب دلخواه خود تغییر دهند.
ارزیابی کمی آزمون بر طبق نظریه ی کلاسیک اندازه گیری
در آزمون­های سرنوشت­ساز که به تصمیم ­گیری­های مهم درباره افراد مربوط می­ شود، ضریب
اعتبار باید ۹۵/۰ و بالاتر باشد. این اصل در هر دو آزمون رعایت شده است. همچنین، نتایج بدست آمده از روش لوپ، نشان داد که دو آزمون مورد مطالعه، فاقد سوالاتی بوده ­اند که با حذفشان، اعتبار افزایش می­یافت و این نشان از همسانی درونی مناسب سوالات با هم دارد.
بررسی شاخص­ های کلاسیک دروس مورد مطالعه نشان داد که بر­اساس هر دو نوع تحلیل (داده­
های خام و کدگذاری شده)، بیش از ۹۰% درصد سوالات دارای ضریب تمیز بالاتر از ۳/۰ هستند که بیانگر
وضعیت بسیار مطلوبی است.
در درس ادبیات­فارسی؛ بر اساس داده ­های خام، سوالات ۲، ۳، ۱۴، ۲۵ و ۴۶ و بر اساس داده ­های
کدگذاری شده فقط سوال ۳ و همچنین، در درس زیست شناسی؛ بر اساس داده های خام، سوالات ۴ج، ۲۴ و بر اساس داده ­های کدگذاری شده سوالات ۱د، ۲الف و ۴ج دارای ضریب تمیز کمتر از ۳/۰ هستند و قادر به تفکیک آزمودنی­های قوی و ضعیف نبوده و نامناسبند.
آزمون ادبیات فارسی (بر اساس داده ­های خام و کدگذاری شده) فاقد سوالات دشوار بوده که بهتر است
در طراحی سوالات این درس در آینده، سوالات دشوار نیز در آزمون گنجانده شود. در درس زیست­شناسی، سوالات دشوار و آسان به ترتیب ۸% و ۵۴/۱۱% سوالات را به خود اختصاص داده­اند. بهتر است برای ترغیب و ایجاده انگیزه برای پاسخ­گویی آزمودنی­های ضعیف، بر تعداد سوالات آسان این امتحان افزوده شود.
میانگین ضرایب دشواری و تمیز سوالات آزمون ادبیات فارسی برای داده ­های خام (۶۵/۰ و ۵۷/۰) و
برای داده ­های کدگذاری شده (۶۶/۰ و ۵۰/۰)، همچنین میانگین ضرایب دشواری و تمیز سوالات آزمون زیست شناسی برای داده ­های خام (۵۰/۰ و ۶۵/۰) و برای داده ­های کدگذاری شده (۵۰/۰ و ۵۳/۰) نشان می­دهد در کل سوالات دروس مورد مطالعه، دشواری متوسطی داشته اند و در عین حال توانسته ­اند به نحو مناسبی بین آزمودنی­های قوی و ضعیف تمیز قائل شوند و از این حیث عملکرد قابل قبولی داشته اند. به بیانی دیگر؛ سوالات این دروس با توجه به شاخص­ های مذکور، بر طبق نظریه کلاسیک از ویژگی­های روان­سنجی مطلوب برخوردارند.
ضریب اعتبار دروس مورد مطالعه در این تحقیق، از اعتبار بدست آمده در مطالعه­ واحدی و

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...