آمار به زبان ساده | آنالیز واریانس با یک عامل اندازه گیری شده مستقل
27 مهر 1400
دقیقه
پس از مطالعه فصل نهم آمار به زبان ساده – مقدمهای بر آنالیز واريانس, در این فصل به آنالیز واریانس با یک عامل اندازه گیری شده مستقل خواهیم پرداخت. آنالیز واریانس (ANOVA) با یک عامل اندازه گیری شده مستقل شبيه آزمون مستقل t است اما به ما امكان مقايسه بيش از دو سطح را...

پس از مطالعه فصل نهم آمار به زبان ساده – مقدمهای بر آنالیز واريانس, در این فصل به آنالیز واریانس با یک عامل اندازه گیری شده مستقل خواهیم پرداخت.
آنالیز واریانس (ANOVA) با یک عامل اندازه گیری شده مستقل شبيه آزمون مستقل t است اما به ما امكان مقايسه بيش از دو سطح را مي دهد. آنالیز واریانس داده را در يك طرح اندازهگيريهاي مستقل تحليل ميكند و بنابراين عنوان های موضوعی متفاوتي را در هر حالت به كار ميگيرد. اگر بخواهيم كه فقط دو گروه، همانند كودكان 5 ساله را با كودكان 7 ساله در يك آزمون خواندن مقايسه كنيم ميتوانيم از آزمون t، يا آنالیز واریانس استفاده كنيم. صرفنظر از نوع آزموني كه به كار ميبريم خروجي يكساني خواهيم گرفت. ليكن اگر بخواهيم گروههاي بيشتري را مقايسه كنيم مثلاً 5، 6 و هفت ساله، آنگاه بايد آنالیز واريانس را به كار بگيريم. (اين شكل از آنالیز واریانس ، آنالیز واریانس با طرح كاملاً تصادفي ناميده ميشود)
تحليل تغييرپذيري در آنالیز واریانس با اندازه گیری های مستقل
در فصل پيش ديديم كه تغييرپذيري نمرات بين سطوح از تفاوتهاي سيستماتيك بين معادلات باضافه خطاي تصادفي ناشي ميشود. در طرح اندازهگيريهاي مستقل عنوان های موضوعی متفاوتي بودند كه نمرات را براي سطوح مختلف مهيا ميكردند بنابراين بخشي از واريانس ميان سطوح نشان از تفاوتهاي انفرادي بين آزمودنی ها خواهد بود. اين يك خطاي تصادفي است زيرا ما به صورت سيستماتيك آزمودنی ها را در طول سطوح تغيير نميدهيم. خطاي تصادفي ديگر را ميتوان با اصطلاح خطاي آزمايشي عنوان كرد زیرا ما عليرغم آنكه قصد داريم شرايط يكساني براي آزمودنی ها مهيا كنيم، هميشه مقداري خطاي تصادفي در هر آزمايش ميگيريم.
واريانس بین گروهی ميتواند به عنوان چيزي برخاسته از سه منبع ديده شود: تفاوتهاي سيستماتيك بين سطوح ، تفاوتهاي جداگانه و خطاي آزمايشي.
اگر به تغييرپذيري نمرات درون سطوح نظر كنيم تفاوتهاي سيستماتيكي نخواهيم ديد (اگر آزمايش را به درستي انجام داده باشيم) اما هنوز آزمودنی های متفاوتي درون يك سطح وجود دارد كه ميتوانيم انتظار داشته باشيم كه تغییر پذیری آن ها ناشي از تفاوتهاي فردي باشد. مجدداً از آنجائيكه همواره ما انتظار خطاهاي تصادفي ديگري را داريم كه اصطلاح خطاي آزمايشي را براي آنها عنوان كرديم، ميتوان انتظار داشت كه آنان به صورت تصادفي در هر جاي آزمايش اتفاق بيفتند. از اينرو واريانس درون گروهی شامل دو جزء: تفاوتهاي فردي و خطاي آزمايشي است. بنابراين واريانس درون گروهی ، واريانس خطا را كه نيازمنديم به ما ميدهد همچنانکه این شاخص جدای از خطای سیستماتیک بین سطوح، مانند واریانس بین گروهی تحت تاثیر تغییر پذیری مشابهی قرار می گیرد. مقايسه ميان واريانس بین گروهی با واريانس درون گروهی به ما نسبت واريانسي را ميدهد كه ميتوان آن را محاسبه كرده و آن را با توزيع F براي جستجوي تأثير متغير مستقلمان بر متغير وابسته، مقايسه نمود ميخواهيم F را كه نسبت زير است توليد كنيم.
جدول خلاصه آنالیز واریانس
براي محاسبه F نياز است كه اجزاء چندي از آنالیز واريانس را بسازيم. مانند مجموع مربعات، درجه آزادي، واريانسها و غيره. براي انجام اين امر و نمايش شفافه محاسبات جدول خلاصه آنالیز واریانس را درست ميكنيم.
اين خلاصه منابع تغییرات را به عنوان رديفهای جدول در نظر ميگيرد. در آنالیز واریانس (ANOVA) با یک عامل اندازه گیری شده مستقل ما با واريانس درون گروهی و واريانس بین گروهی درگير هستيم. همچنين براي محاسبه مجموع مربعات نياز به كل تغييرپذيري دادهها نيازمنديم. ستونهاي جدول به ترتیب مراحل مياني توليد واريانسهاي لازم براي نسبت واريانس، در كنار محاسبه نهايي F و معناداربودن آن را به ما مي دهند. براي محاسبه واريانس به مجموع مربعات و درجه آزادي نياز داريم. در اصطلاح آنالیز از واريانس به عنوان میانگین مربعات ياد ميكنيم (MS) اين يك عنوان ديگر است که به صورت ساده تر بیان می شود. از آنجائيكه تقسيم مجموع مربعات بر درجه آزادي، میانگین مربعات را ايجاد ميكند، به صورت توصیفی مناسب تر باشد.
معنادار بودن يا نبودن مقدار محاسبه شده F در جدول به دو شكل ميتواند نشان داده شود. معین کردن احتمال مقدار F تحت فرض صفر داده شده، براي مثال 0145/0=P. در اين حالت خواننده ميتواند مشاهده كند كه آيا احتمال از سطح معنی داری انتخاب شده مثل 05/0=P، بزرگتر يا كوچكتر است. دوم احتمال ميتواند در رابطه با سطح معنی داری داده شود. مثل 05/0P< تا روشن كند كه مقدار F در سطح 05/0=P معنادار بوده و 05/0P> تا دلالت كند كه در سطح معنی داری 05/0، معنادار نيست. من قاعده دوم را به كار ميبرم.
براي آنالیز واریانس (ANOVA) با یک عامل اندازه گیری شده مستقل جدول خلاصه به روش زير چيده ميشود.
توجه كنيد كه تنها سلول هايی را در جدول پر ميكنيم كه براي محاسبه نسبت واريانس نياز داشته باشيم. براي مثال ما نيازي مجموع كل واريانس نداريم چون در محاسبه F به آن نيازي نيست. در زير فرمولهای مورد نياز برای محاسبه آمده است.
يك مثال کاربردی
يك محقق به اثر راهنمايي در مسابقه كلمهسازي علاقمند بوده است. زماني كه طول كشيده تا يك شركتكننده 5 كلمه 8 حرفي بسازد اندازه گرفته شده است. همان كلمات 5 گانه در سه سطح به كار برده شدهاند: حرف اول (در جايي كه حرف اول كلمه داده شده) آخرين حرف (جائيكه حرف آخر كلمه داده شده) و بدون حرف (جائيكه هيچ كمكي نشده است)، سي شركتكننده برگزيده شده و به صورت تصادفي در هر سطح 10 نفر اختصاص داده شدند. زماني كه برای حل 5 كلمه استفاده شد محاسبه و ثبت گرديد. نتايج در زير نشان داده شدهاند. آيا اثري از نوع راهنمايي (متغير مستقل) روي زمان حل مسئله (متغير وابسته) وجود دارد؟
از جدول توزيع F (جدول A3 ضميمه) درمی یابيم كه در 05/0=P 35/3=F(2,27) است. از آنجا كه مقدار ما يعني 26/33 بزرگتر از مقدار جدول است فرض صفر را رد كرده و ادعا ميكنيم كه زمان حل كلمهسازي از نوع راهنمايي داده شده تأثير ميپذيرد. توجه كنيد كه نتيجه به شدت معنادار است بنابراين ميتوانيم سطح معنی داری محافظهكارانهتري را نيز بپذيريم. در 01/0=P F(2,27)=5.49 است بنابراين يافتههاي ما براي مقادير 01/0P< هم همچنان معنادار هستند.
اين واقعيت كه يك اثر معنادار يافتهايم به ما نميگويد كه كدام سطح به صورت معناداري متفاوت است بهرحال ميتوانيم اين را با نگاهكردن به ميانگينها بدست بياوريم. در فصلهاي بعدي قادر خوهيم بود كه بسيار دقيقتر به بررسی این مورد بپردازیم. اگرچه آزمون F ما تفاوتهاي معناداري بين حالات يافته است اما علت آن را براي ما بيان نميكند. ما اميدواريم كه آزمايش آنقدر خوب كنترلشده باشد كه تفاوتها تنها ناشي از نوع راهنمايي باشند اما اگر محقق هر فاكتور اختلاط گری را به صورت غيرعمدي وارد كرده باشد اين مسئله ميتواند تفاوتهاي سيستماتيكي را توليد كند كه در آنالیز واريانس آمده باشند.
جدول خلاصه آنالیز واریانس ANOVA
جدول بالا بوضوح تجزيه و تحليل را خلاصه ميكند. همچنين به ما اجازه ميدهد كه محاسباتمان را بررسي كنيم يعني آيا درجه آزادي و مجموع مربعها به جمع كل افزوده شدهاند؟ مجموع مربعات شما نبايد هيچوقت منفي باشد زيرا جمع مربعات بايد مثبت باشد (نميتواند منفي باشد) اگر شما عدد منفي بدست آوردهايد محاسبات را بررسي كنيد قطعاً خطايي وجود دارد.
ردكردن فرض صفر
وقتيكه كه در يك آنالیز واریانس فرض صفر را رد ميكنيم همانند آنچه در مثال بالا انجام دادهايم فقط نتيجه ميگيريم كه تفاوتهاي سيستماتيكي بين حالات وجود دارد اما نه اينكه آنها در كدام بخش هستند. در مورد سه حالتي چهار جايگزين براي فرض صفر موجود است: 1- هر سه سطح به صورت معناداري متفاوتند و نمونههاي آنها از جمعیت هایی با توزیع های متفاوت ميآيند. 2- سطح اول به صورت معناداري با حالات دوم و سوم متفاوت است ولي حالات دوم و سوم به صورت معناداري متفاوت نيستند. نمونه سطح اول از توزيع متفاوتي از نمونههاي حالات دوم و سوم ميآيد. 3- سطح دوم به صورت معناداري متفاوت از سطوح اول و سوم است اما سطوح اول و سوم به صورت معنادار متفاوت نيستند. یعنی نمونه سطح دوم از توزيع متفاوتي نسبت به نمونههاي اول و سوم ميآيد. 4- سطح سوم تفاوت معناداري نسبت به سطح اول و دوم داشته اما سطح دوم و سوم تفاوت معناداري با هم ندارند. یعنی نمونه سطح سوم از يك توزيع متفاوتي نسبت به نمونههاي سطح اول و دوم ميآيد.
با سطوح بيشتر، تعداد فرضهاي جايگزين افزايش مييابد. يك مقدار F معنادار به آساني دلالت بر آن دارد كه فرض صفر بسيار غيرمحتمل است و بنابراين ما آن را رد ميكنيم. ما براي اينكه تصميم بگيريم كه كداميك از فرضهاي جايگزين را بپذيريم نيازمند آن هستيم كه آزمايشهاي بيشتري را انجام دهيم.
نمونههاي با اندازه متفاوت معمولاً زماني رخ ميدهد كه شما براي تعداد متساوي در هر سطح برنامهريزي كردهايد ولي به دلايلي يك آزمودنی قادر به دادن يك نمره نيست. در مثال كلمهسازي، ممكن است فردي را بيابيم كه نتواند هر چه قدر هم كه به او زمان بدهيم كلمهاي بسازد. يك راه حل آن است كه يك مشاركتكننده را با ديگري جايگزين كنيم. بهرحال تغيير در فرمول آنقدر كوچك است كه نمونههاي با اندازه متفاوت واقعاً يك مشكل نيست (تا زمانيكه فرض مساويبودن واريانس جمعيتها باقي ماند.)
يك مثال کاربردی
به عنوان مثالی از محاسبات با اندازه نمونه های نامساوی بايد داده هاي به كار رفته در آزمون مستقل t در فصل 8 را به كار ببرم. اين مثال اثر قرصهاي خوابآور را روی 6 مرد و 8 زن مقايسه ميكرد. نمرات مردان (سطح اول) 4، 6، 5، 4، 5 و 6 و نمرات زنان (سطح دوم) 3، 8، 7، 6، 7، 6، 7 و 6 ساعت خواب اضافي براي آنان بودند.
جدول خلاصه آنالیز واریانس
از جدول توزیع F (جدول A.3 در پیوست) در میابیم که F(1,12)=4/75 در p=0/05. چون مقدار محاسبه شده F برابر 30/3 کمتر از مقدار جدول است فرض صفر با این سطح معنی داری رد نمی شود.
رابطه توزیع F با t
مثال بخش بالا به ما اجازه مي دهد كه يك آنالیز واریانس را با يك آزمون t مستقل در روي همان دو نمونه مقايسه كنيم. اگر برگرديد و به محاسبات t نظري بياندازيد ميتوانيد مشابهتهايي بين محاسبات ببينيد براي مثال به در پائين محاسبات t توجه كنيد. اگر بيشتر جستجو كنيم ميتوانيم ببينيم كه دو فرمول چگونه بهم مرتبط هستند. مقدار محاسبه شده F يعني 30/3 مسلماً مربع مقدار محاسبه شده 82/1=t ميباشد. به صورت مشابه مقادير جدول F و t به همان ترتيب مرتبط هستند و ما همان خروجي را از دادهها، در هر كدام از آزمونها که روي آنها انجام دهيم خواهيم داشت.
جزئيات محاسبه اندازه آنالیز واریانس با اندازه گیری های مستقل با استفاده از بسته نرمافزاري SPSS را ميتوانيد در فصل 10 كتاب هينتن و دیگران (2004) بيابيد.
مترجمین: دکتر هدی کامرانی فر – حسن اسکندری نیا