بررسی روایی و اعتبار آزمون دروس زیست ... - منابع مورد نیاز برای پایان نامه : دانلود پژوهش های پیشین |
از آنجا که آزمونهای پارامتری، نسبتاً ” خدشه ناپذیر” هستند، حتی در شرایطی که مفروضههای مربوط به استفاده از این آزمونها رعایت نمی شود، نیز میتوان از آنها استفاده کرد؛ مگر آنکه توزیع کلی نمرهها تفاوت چشمگیری با یک توزیع طبیعی داشته باشد. همچنین در صورتی که تعداد آزمودنیهای هر موقعیت مساوی باشد، دیگر همگنی تغییرپذیری نمرات در موقعیتهای مختلف اهمیت چندانی ندارد (گرین و دی- الیویرا، ترجمهی دلاور و پژهان، ۱۳۹۲). با توجه به مطلب بالا، از آزمون t مستقل برای پاسخگویی به سوال مطرح شده استفاده شده است.
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت nefo.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
از آنجا که قدرمطلق مقدار t مشاهده شده در دو آزمون ادبیاتفارسی (۵۹۸ df= ،۱۸/۹- t= ) و زیستشناسی (۵۹۸ df=، ۵۶/۷- t=) بزرگتر از مقدار t بحرانی (۶۱/۲) برای سطح معناداری (۰۱/۰) می باشد، بنابراین با ۹۹ درصد اطمینان میتوان گفت که آزمودنیهای دختر و پسر در دو آزمون، عملکرد متفاوتی داشته اند.
فصل پنجم
بحث و نتیجه گیری
مقدمه
امتحاناتنهایی نقش مهمی در ارزشیابی آموختههای دانش آموزان، چگونگی کیفیت تدریس، فرایند آموزش و ارتقاء سطح تحصیلی دارند، همچنین از نتایج این امتحانات برای گزینش کارجویان نیز استفاده می شود. علاوه بر این، طرح جدید سنجش و پذیرش دانشجو در کشورمان که افزایش تاثیر سوابق تحصیلی در پذیرش دانشجویان را به دنبال دارد، بیش از پیش بر حساسیت و اهمیت امتحانات نهایی افزوده است.
علیرغم کاربرد گستردهی این امتحانات و تصمیمات سرنوشتسازی که بر اساس این امتحانات گرفته می شود، تحقیقات نظاممندی که بر روی کیفیت آنها بر اساس روشهای جدید اندازه گیری صورت گرفته باشد وجود نداشته و یا خیلی اندک است. همچنین کیفیت نمرهگذاری و تصحیح این امتحانات در هالهای از ابهام قرار دارد. لذا در این تحقیق، مسائل زیر به همراه روشهای تحلیل آنها به شرح زیر مورد مطالعه قرار گرفته است؛
بررسی روایی امتحاناتنهایی شامل بررسی ساختاری، محتوایی، توزیع طبقه بندی سوالات و میزان
پوشش محتوای کتاب با بهره گرفتن از نظرات متخصصان موضوعی که با اصول اندازه گیری آشنایی داشتند.
بررسی اعتبار امتحاناتنهایی، با بهره گرفتن از طرحهای اندازه گیری در نظریه تعمیمپذیری و با بکارگیری نرم افزار ۵٫۰ EDUG.
ویژگیهای روانسنجی سوالات براساس CTT؛ در پاسخ به این سوال بعد از محاسبه اعتبار آزمون، آن را با بهره گرفتن از روش لوپ مورد بررسی قرار داده و سپس، شاخص های آماری سوالات (درجه دشواری و ضریب تمیز سوال) براساس داده های خام و کدگذاری شده محاسبه شد.
ویژگیهای روان سنجی سوالات بر اساس IRT؛ بعد از اینکه نتایج نشان از برقراری مفروضات
اساسی این نظریه (تک بعدی بودن و استقلال موضعی) داشت، با بهره گرفتن از نرمافزار بایلوگ پارامترهای سوال و توانایی آزمودنیها برآورد و برازش تک تک سوالات با مدل بررسی گردید. همچنین، منحنی ویژگی سوالات به تفکیک مدلها و منحنی ویژگی و تابع آگاهی یک سوال نمونه، مقادیر بیشینه آگاهی سوالات و تتای ماکسیمم، تابع آگاهی آزمون و خطای استاندارد اندازه گیری، هیستوگرام توزیع توانایی آزمودنیها طبق مدل دو پارامتری که بهترین برازش را با داده ها داشت (با بکارگیری آزمون خی دو)، ترسیم گردید.
بررسی وضعیت قبولی آزمودنی ها و مقایسه عملکرد آن ها بر اساس جنسیت که از شاخص های
توصیفی و آزمون tمستقل برای پاسخگویی به آن استفاده شد.
بحث و نتیجه گیری
بررسی روایی امتحانات نهایی دروس ادبیاتفارسی و زیستشناسی
در درس ادبیات فارسی، ارزیابی ساختاری سوالات نشان داد تقریباً ۹۵ درصد سوالات بدون اشکال
ساختاری هستند که بیانگر وضعیت بسیار مطلوبی است. ۵ درصد سوالات یک هدف آموزشی یا یک موضوع مهم را اندازه نگرفتهاند و این، تنها اشکال ساختاری در درس مذکور میباشد. در درس زیستشناسی، بیشترین اشکال ساختاری سوالات، در عدم تناسب بارم با میزان دشواری سوالات مشاهده شد. عدم تناسب بارم با میزان اهمیت سوال (۷۵/۱۸% سوالات) و نامناسب بودن نوع سوال برای اندازه گیری هدف مورد نظر (۵/۱۲% سوالات) از دیگر اشکالات ساختاری مهم در درس زیستشناسی میباشد. همچنین، (۹۴/۱۰% سوالات) یک موضوع مهم یا یک هدف آموزشی را اندازه نگرفته و در همین درصد از سوالات، بارم به طور منطقی به هر بخش از پاسخ اختصاص داده نشده است. سراسری و با اهمیت بودن امتحاناتنهایی، ضرورت برگزاری کارگاههای آموزشی برای طراحان سوال را موجب می شود تا اشکالات ساختاری این امتحانات، به حداقل رسیده و ارتقاء کیفی آن ها را به دنبال داشته باشد.
ارزیابی محتوایی سوالات بر اساس ارزش های بحرانی CVR، در درس ادبیات فارسی نشان داد
که هیچ سوالی از طرف متخصصان موضوعی ضروری تشخیص داده نشده است و براساس ملاک سهلگیرانه (۶/۰)، تنها ۳۱/۲۶ درصد سوالات ضروری و دیگر سوالات مفید یا غیرضروری شناسایی شده اند. همچنین، در درس زیست شناسی بر اساس ارزش بحرانی CVR، ۲۵ درصد سوالات و بر اساس ملاک سهلگیرانه، ۱۹/۶۷ درصد سوالات ضروری تشخیص داده شده اند.
زمانی که با یک آزمون پایانی و از طریق نمونه ای از سوالات، قصد آن است که کل محتوای کتاب و توانایی واقعی آزمودنیها سنجیده شود، بهتر است سوالات به مباحث ضروری اختصاص یابد. اگر بر اساس ملاک سهلگیرانه قضاوت شود، درس زیست شناسی وضعیت مناسبی دارد، اما تقریباً دانش موجود در سه چهارم سوالات ادبیاتفارسی، ضروری نبوده و آگاهی یا عدم آگاهی از آنها در اندازه گیری توانایی واقعی آزمودنیها تأثیر چندانی ندارد. لازم به ذکر است که با توجه به ماهیت درس ادبیاتفارسی، ذوق و سلیقهی متخصصان موضوعی را نیز، نمی توان نادیده گرفت. با این وجود، در طراحی سوالات دروس مورد مطالعه به ویژه درس ادبیاتفارسی، به جدول دو بعدی هدف – محتوا توجه لازم صورت نگرفته است.
بررسی توزیع سوالات بر اساس سطوح یادگیری، در درس ادبیاتفارسی نشان داد که تمام سوالات
متعلق به سطوح پایین شناختی است. به طوریکه، ۱۶/۶۳ درصد سوالات متعلق به سطح دانش میباشد. در درس زیستشناسی نیز، تقریباً ۹۴ درصد سوالات سطوح پایین شناختی را سنجیدهاند که از این میان، حدوداً ۶۰ درصد سوالات متعلق به سطح دانش میباشد و تنها ۶ درصد سوالات به سطح تحلیل اختصاص یافته است. در مطالعات رحیمی(۱۳۸۷)، واحدی و فزونمهر(۱۳۸۴)، شاطریان محمدی(۱۳۸۴)، سلیمانی(۱۳۸۴) و سادئی(۱۳۷۶) نیز بیشتر سوالات در سطوح پایین شناختی طرح شده بودند. در مطالعه الزیبی(۲۰۱۴) در خصوص امتحانات دیپلم دبیرستان، ۶/۶۹ درصد از کل سوالات بر سطوح پایین شناختی متمرکز بودند. در سوالات بررسی شده ریاضیات در مطالعه گزیلر و همکاران (۲۰۱۲) نیز وضعیت به همین شکل بود. بیش از ۹۰ درصد سوالات، در مطالعه آزار (۲۰۰۵) و همچنین در مطالعه کارا مصطفی اوقل (۲۰۰۳) در خصوص سوالات فیزیک و شیمی دبیرستان، در سطوح پایین شناختی طرح شده بودند.
در شیوه نامه طراحی سوالات استاندارد و مفهومی مقطع متوسطه که توسط وزارت آموزش و پرورش تدوین شده، آمده است که سوالات باید طوری طراحی شوند تا همه حیطه شناختی، مورد سنجش قرار گیرد و البته باید توجه داشت؛ تعداد سوالاتی که سطح دانش و فهمیدن را میسنجد، بیش از بقیه سطوح باشد. یافتههای بدست آمده از تحقیق حاضر، هر چند نشان میدهد که بیشتر سوالات متعلق به سطوح دانش و فهمیدن است لذا سوالات دروس مورد مطالعه، همه سطوح را پوشش نداده است. با توجه به اینکه سوالات سطوح بالاتر، درک عمیق تر آزمودنیها را مورد ارزیابی قرار می دهند این سطوح نباید از نظر طراحان دور بماند.
وضعیت توزیع سوالات دروس ادبیاتفارسی و زیستشناسی، به ترتیب نسبتاً متناسب و متناسب
با حجم فصلهای کتاب است. در آزمون زیستشناسی، ترتیب سوالات بر اساس فصلهای کتاب بود.
یک آزمون پیشرفت تحصیلی مطلوب آزمونی است که سوالات آن نمونه معرفی از تمامی اهداف
آموزشی و کل محتوای درس مربوطه باشد و آن را به بهترین شکل پوشش دهد. همچنین از نظر ساختار، بدون ایراد بوده و تمام سطوح شناختی را شامل شود. در مجموع میتوان گفت؛ آزمون ادبیاتفارسی از نظر ساختاری وضعیت بسیار بهتری نسبت به محتوا، توزیع سوالات بر اساس سطوح شناختی و پوشش مطالب کتاب دارد. همچنین، به غیر از توزیع سوالات بر اساس سطوح شناختی، سایر موارد مذکور در آزمون زیستشناسی به نسبت رعایت شده است.
بررسی اعتبار امتحانات نهایی دروس ادبیات فارسی و زیست شناسی
در وضعیتهای اندازه گیری همچون امتحاناتنهایی، منابع متفاوتی از خطا از قبیل؛ سوالات، مصححان، موقعیت، جنسیت و … وجود دارد که نمرات مشاهده شده را متأثر می کند. در چنین شرایطی، هنگام برآورد اعتبار، CTT قادر به تفکیک منابع چندگانه خطای اندازه گیری نیست و همه آنها را به عنوان خطای تصادفی در نظر میگیرد. در صورتیکه GT منابع چندگانه خطای منظم را به دقت مشخص می کند و ضمن تفکیک آنها، اثر هر یک را بر روی اعتبار اندازه گیری تعیین می کند. با در نظر گرفتن منابع چندگانه خطا، نتایج بهدست آمده را با دقت بیشتری میتوان به سایر موقعیتهای اندازه گیری تعمیم داد(وب و شیولسون، ۱۹۹۱؛ برنان،۲۰۰۱). بدین منظور در این پژوهش، برای بررسی اعتبار امتحانات نهایی دو درس ادبیاتفارسی و زیستشناسی از نظریه تعمیمپذیری استفاده گردید. خلاصهی نتایج تحلیل واریانس در هر یک از دروس به این شرح است:
در درس ادبیاتفارسی، رویهی سوالات، اثر تعاملی سوالات با دانش آموزان و رویهی دانش آموزان به ترتیب ۸/۴۳% ، ۳/۳۹% و ۳/۸% از واریانس نمرهی کل را به خود اختصاص دادهاند. همچنین، در درس زیستشناسی، سهم اثر تعاملی سوالات با دانش آموزان، رویهی دانش آموزان و رویهی سوالات از واریانس نمرهی کل به ترتیب ۴/۶۴%، ۹/۲۱% و ۹/۱۰% است. سهم دیگر رویه ها ناچیز بود.
کمازاوا (۲۰۰۹)، دو دلیل احتمالی برای عدم تغییرپذیری در اثر شخص را در آزمونهای ملاکمرجع عنوان می کند؛ یکی اندازه نمونه و دیگری همگنی گروه. با توجه به اینکه اندازه نمونه در هر دو درس مورد مطالعه یکسان بوده و با در نظر گرفتن سهم واریانس دانش آموزان در هر دو درس، میتوان گفت: توانایی دانش آموزان در درس ادبیاتفارسی در مقایسه با درس زیستشناسی از تجانس بیشتری برخوردار بوده است. برای آزمونهای نرممرجع، اثر شخص باید بزرگ باشد در حالی که اثر سوال باید حدود یک سوم کمتر از اثر شخص باشد. در حالیکه در آزمونهای ملاکمرجع، به دلیل اینکه دانش آموزان بر حسب سطح تسلطشان همگن هستند، واریانس شخص ممکن است پایین باشد. از این رو در آزمونهای ملاکمرجع که سوالات یک ملاک یا هدف خاصی را اندازه میگیرند، بدست آمدن مقدار بزرگی برای واریانس سوال مطلوب است (براون و راس، ۱۹۹۶، به نقل از کمازاوا، ۲۰۰۹؛ کمازاوا ، ۲۰۰۹). با توجه به ملاکمرجع بودن امتحانات نهایی، در درس ادبیاتفارسی، سوالات بیشترین واریانس را به خود اختصاص دادهاند. در صورتی که در درس زیستشناسی، سوالات سومین منبع تشکیل دهنده واریانس هستند و اثر سوال یک دوم اثر شخص است.
بنا بر اصل تقارن، در یک مطالعه هر کدام از رویه ها میتوانند به عنوان رویهی تفکیکی (هدف اندازه گیری) در نظر گرفته شوند(کاردینت و همکاران، ۱۹۷۶). استفاده از GT و خاصیت تقارن پذیری آن، به ارزشیابان و محققان آموزشی این امکان را میدهد که هر کدام از اجزاء یک سیستم آموزشی را میتوانند به عنوان هدف اندازه گیری خود انتخاب کنند. به بیانی دیگر، در پژوهشهای آموزشی علاوه بر دانش آموزان سایر ابعاد آموزشی نیز از قبیل؛ برنامه های آموزشی، اهداف آموزشی، محیط آموزشی، سال تحصیلی، روشهای تدریس، ارزیابان، معلمان، حجم کتاب، فصول کتاب، سوالات و غیره می تواند به عنوان هدف اندازه گیری انتخاب شوند. در پژوهش حاضر با بکارگیری این اصل، رویههای دانش آموزان، سوالات و مصححان در قالب سه طرح برای هر یک از دروس مورد مطالعه به عنوان هدف اندازه گیری در نظر گرفته شدند.
نتایج مطالعه G مربوط به طرحهای اندازه گیری SGR/I و I/SGR نشان داد که هم نمرات دانش آموزان و هم سوالات از اعتبار بالایی برخوردارند. به طوریکه دامنه ضرایب تعمیمپذیری برای هر دو نوع اندازه گیری نسبی و مطلق، (۹۰/۰ تا ۹۹/۰) است. همانطور که وب و همکاران (۲۰۰۷) مطرح کرده اند، برای گرفتن تصمیمهایی در مورد افراد مبتنی بر نمرات مشاهده شدهشان، ضریب اعتبار۸۰/۰ و بالاتر غالباً به قدر کافی معتبر تلقی می شود و در صورتی که تصمیمات، پیامدهای چشمگیری داشته باشند، مقادیر ۹۰/۰ به بالاتر ترجیح داده می شود. در مطالعه گولار و گلبال (۲۰۱۰) نیز که با هدف بررسی اعتبار سوالات باز پاسخ ریاضی صورت گرفته بود، ضرایب تعمیم پذیری نسبی و مطلق بالاتر از ۹۰/۰ بدست آمده بود.
در طرح اندازهگیریR/SGI که مصححان هدف اندازه گیری بودند، ضرایب تعمیمپذیری بدست آمده برای اندازه گیری مطلق در هر دو درس مورد مطالعه، کمتر از ۷۰/۰ است که نشان دهنده نامطلوب بودن نمرهگذاری مصححان می باشد. در طرح مذکور، بالا بودن ضریب تعمیمپذیری نسبی بدست آمده(۹۲/۰) در درس ادبیاتفارسی نشان میدهد که تغییرپذیری بین مصححان زیاد بوده و آنها به طور معتبری (در یک مقیاس سختگیری- سهلگیری) یا (برحسب میانگین نمرهگذاریهایشان) از هم قابل تفکیک هستند. به بیانی دیگر، مصححان روند تصحیح مشابهای نداشتهاند. پایین بودن ضریب تعمیمپذیری نسبی در درس زیستشناسی، به این معناست که بیشتر مصححان در نمرهگذاریهایشان مشابه عمل کرده اند و نمی توان آنها را از هم متمایز کرد. ضرایب تعمیمپذیری در مطالعه سودویک و همکاران (۲۰۰۵) نیز، که با هدف بهبود رویه ارزیابی توانایی نگارش دانشجویان در قالب طرحی کاملاً متقاطع انجام شده بود، کمتر از ۳۵/۰ بدست آمد.
نتایج امتحاناتنهایی به دلیل تشریحی بودن، وابسته به دقت تصحیح مصصحان است. از اینرو ضروری است به منظور ارتقاء کیفیت تصحیح، در پژوهشهای جداگانه ای با بکارگیری دیگر طرحهای متنوع، به خصوص طرحهای متقاطع این مسئله بررسی شود. همچنین، میتوان سایر ویژگیهای مصححان از قبیل؛ سابقه تصحیح، سن، جنسیت و دیگر عوامل را در طرحهای اندازه گیری مناسبی وارد کرده و سهم واریانس آنها را برآورد کرد.
از آنجا که طرح سوال و روند تصحیح مستلزم صرف هزینه و زمان است با انجام مطالعات D میتوان ترکیب مناسبی از سوالات و مصححان را با توجه به اندازه اعتبار مورد نظر، بهدست آورد و با در نظر گرفتن دیگر محدودیتهای عملی، طرح اندازه گیری مطلوبی برای برآورد اعتبار این امتحانات طراحی کرد. در این پژوهش برای هر طرح اندازه گیری، مطالعه D جداگانه ای صورت گرفت. در مطالعه رستگاری مقدم(۱۳۷۸)، تعداد درجه بندی کنندگان مورد استفاده توسط سازمان سنجش کافی ولی تعداد سوالات مورد استفاده کم بود که برای دستیابی به ضرایب تعمیمپذیری مطلوب میبایست بر تعداد سوالات آزمون افزود. همچنین، در مطالعه بوالحسنی(۱۳۹۰) با دو مصحح نیز میتوان به ضرایب مطلوب دست یافت.
در مطالعاتی که در آینده جهت بررسی اعتبار امتحاناتنهایی انجام میگیرد، محققین در صورت استفاده از طرحهای اندازه گیری مشابه طرحهای به کار رفته در این پژوهش (و همچنین مشابه بودن وضعیت اندازه گیری) میتوانند با توجه به نتایج بدستآمده از تحلیلهای مطالعه D و با در نظر داشتن سایر ملاحظات منطقی و عملی، تعداد سطوح رویههای بکار رفته را برای دستیابی به ضرایب دلخواه خود تغییر دهند.
ارزیابی کمی آزمون بر طبق نظریه ی کلاسیک اندازه گیری
در آزمونهای سرنوشتساز که به تصمیم گیریهای مهم درباره افراد مربوط می شود، ضریب
اعتبار باید ۹۵/۰ و بالاتر باشد. این اصل در هر دو آزمون رعایت شده است. همچنین، نتایج بدست آمده از روش لوپ، نشان داد که دو آزمون مورد مطالعه، فاقد سوالاتی بوده اند که با حذفشان، اعتبار افزایش مییافت و این نشان از همسانی درونی مناسب سوالات با هم دارد.
بررسی شاخص های کلاسیک دروس مورد مطالعه نشان داد که براساس هر دو نوع تحلیل (داده
های خام و کدگذاری شده)، بیش از ۹۰% درصد سوالات دارای ضریب تمیز بالاتر از ۳/۰ هستند که بیانگر
وضعیت بسیار مطلوبی است.
در درس ادبیاتفارسی؛ بر اساس داده های خام، سوالات ۲، ۳، ۱۴، ۲۵ و ۴۶ و بر اساس داده های
کدگذاری شده فقط سوال ۳ و همچنین، در درس زیست شناسی؛ بر اساس داده های خام، سوالات ۴ج، ۲۴ و بر اساس داده های کدگذاری شده سوالات ۱د، ۲الف و ۴ج دارای ضریب تمیز کمتر از ۳/۰ هستند و قادر به تفکیک آزمودنیهای قوی و ضعیف نبوده و نامناسبند.
آزمون ادبیات فارسی (بر اساس داده های خام و کدگذاری شده) فاقد سوالات دشوار بوده که بهتر است
در طراحی سوالات این درس در آینده، سوالات دشوار نیز در آزمون گنجانده شود. در درس زیستشناسی، سوالات دشوار و آسان به ترتیب ۸% و ۵۴/۱۱% سوالات را به خود اختصاص دادهاند. بهتر است برای ترغیب و ایجاده انگیزه برای پاسخگویی آزمودنیهای ضعیف، بر تعداد سوالات آسان این امتحان افزوده شود.
میانگین ضرایب دشواری و تمیز سوالات آزمون ادبیات فارسی برای داده های خام (۶۵/۰ و ۵۷/۰) و
برای داده های کدگذاری شده (۶۶/۰ و ۵۰/۰)، همچنین میانگین ضرایب دشواری و تمیز سوالات آزمون زیست شناسی برای داده های خام (۵۰/۰ و ۶۵/۰) و برای داده های کدگذاری شده (۵۰/۰ و ۵۳/۰) نشان میدهد در کل سوالات دروس مورد مطالعه، دشواری متوسطی داشته اند و در عین حال توانسته اند به نحو مناسبی بین آزمودنیهای قوی و ضعیف تمیز قائل شوند و از این حیث عملکرد قابل قبولی داشته اند. به بیانی دیگر؛ سوالات این دروس با توجه به شاخص های مذکور، بر طبق نظریه کلاسیک از ویژگیهای روانسنجی مطلوب برخوردارند.
ضریب اعتبار دروس مورد مطالعه در این تحقیق، از اعتبار بدست آمده در مطالعه واحدی و
فرم در حال بارگذاری ...
[سه شنبه 1401-04-14] [ 05:49:00 ب.ظ ]
|