آمار به زبان ساده – مقايسه‌های چندگانه

07 آبان 1400

دقیقه

آزمون توکی Tukey (برای همه مقایسه های دو به دو) آزمون شفه Scheffé (برای مقایسه های پيچيده) وقتيكه بيشتر از دو گروه را در آنالیز واریانس مقايسه مي‌كنيم مقدار معنادار F مشخص نمي‌كند كه اثر در كجاست، و فقط به صورت خيلي ساده بیان می کند که جايي بين سطوح اثري معنی دار وجود دارد....

آمار به زبان ساده – مقايسه‌های چندگانه

آزمون توکی Tukey (برای همه مقایسه های دو به دو)

آزمون شفه Scheffé (برای مقایسه های پيچيده)

وقتيكه بيشتر از دو گروه را در آنالیز واریانس مقايسه مي‌كنيم مقدار معنادار F مشخص نمي‌كند كه اثر در كجاست، و فقط به صورت خيلي ساده بیان می کند که جايي بين سطوح اثري معنی دار وجود دارد. يك محقق 4 گروه از كودكان (6، 8، 10 و 12 ساله) را در يك آزمون رفتار اجتماعي مقايسه نمود. او يك مقدار F معنادار يافته و نتيجه گرفت كه نمرات اين چهار سطح از يك توزيع نمي‌آيند. اما اين نتيجه‌گيري حقيقتاً به محقق اطلاعاتي درباره آنكه كدام محدوده سني تفاوت معناداري دارد را نشان نمي‌دهد. اجازه دهيد فرض كنيم كه ميانگين آنها به ترتيب 10، 12، 18 و 23 (از 50) است. با اين داده‌ها كه نسبت واريانس‌ معناداري را در خود دارند محتمل به نظر مي‌آيد كه نمرات 6 ساله‌ها به صورت معناداري از 12 ساله‌ها متفاوت بوده زيرا اين مقايسه بيشترين تفاوت در ميانگين را نشان ميدهد. آيا تفاوت بين 6 و 8 ساله‌ها يا 8 ساله و 10 ساله‌ها نيز معنادار است؟ و همچنين درباره كمترين اختلاف بين 6 و8 ساله‌ها؟ براي يافتن يك مقدار F معنادار، مي‌بايستي داده‌ها را مورد وارسي قرار داد. راهي كه، به اين سؤالات بتوانيم پاسخ دهيم آن است كه يك آزمون پست هاک انجام دهيم.( post hoc  اين نام از لاتين گرفته شده و به معناي «بعد از اين» است.) اولين مرحله در تحليل اين است كه يك مقدار معنادار F در آنالیز واریانس بيابيم. تنها پس از آن است كه مي‌توانيم يك آزمون پست هاک انجام دهيم. اين آزمونها، آزمونهاي مقايسه‌اي چندگانه ناميده مي‌شوند زيرا به ما اجازه مي دهند كه مقايسه‌هاي مختلفي بين سطوح انجام دهيم. در مثال بالا ما مي‌خواهيم كه هر يك از چهار گروه را با ديگر گروه‌ها مقايسه كرده تا نشان دهيم كه تفاوتهاي معنادار در كجا هستند.

مشكل با مقايسه‌هاي چندگانه آن است كه هر چه مقايسه‌هاي بيشتري با همين داده‌ها انجام دهيم، ريسك ایجاد خطاي نوع اول را بالاتر مي‌بريم. در فصل 10 ديديم كه اين همان مشكلي است كه با انجام آزمونهاي چندگانه t داشتيم يعني وقتيكه شروع به انجام آزمونهاي چندگانه بر روي داده‌ها مي‌كرديم ريسك يافتن اختلافهاي شانسي را افزايش مي داديم. راه ‌حل آن است كه يك آزمون پست هاک كه اين ريسك فزاينده را در نظر گرفته و آن را كنترل مي‌كند انجام دهيم.

محدوده‌اي از آزمونهاي چندگانه وجود دارد. بعضي از آنها مشكل را به كلي ناديده مي‌گيرند. آزمون كمترين تفاوت معنادار توجهي به تعداد مقايسه‌هاي انجام شده ندارد و ريسك خطاي نوع اول نيز در آن به راحتي پذيرفته شده است. ديگر آزمونها مثل آزمون نيومن – كيولز و دانكن  تعداد مقايسه‌هاي انجام شده را در نظر گرفته و متناسب با آن مقادير متفاوت را محاسبه مي‌كنند. در محافظه‌كارانه‌ترين حالت از اين محدوده از آزمونها، آزمونهاي توکی و شفه اجازه همه مقايسه‌ها را مي دهند، همچنانکه آزمون ريسك فزاينده خطای نوع اول را با كاهش سطح معنی داری مقايسه‌هاي جداگانه، اصلاح مي‌كند. آسان ترين و محافظه‌كارانه‌ترين روش اعمال اصلاح بن فروني را به سطح معنی داری است. براي مثال اگر آنالیز واریانس (ANOVA)  با یک عامل اندازه گیری شده مستقل مقدار F معناداري را نشان دهد. ، آنگاه مي‌توان آزمونهاي t را به دنبال آن بر روي 6 جفت از سطوح با يك اصلاح  بن فرونی براي درست‌كردن سطح معنی داری اين آزمونها انجام داد. اصلاح بن فرونی ( Bonferroni) ما را ملزم مي‌كند كه سطح معنی داری را بر تعداد آزمونها تقسيم كنيم بنابراين در اين حالت هر آزمون بايد در مقابل سطح معنی داری 6/05/0=P (0083/0=P) ونه سطح معنی داری 05/0 انجام شود. اين مسئله بر توان آزمون تأثير گذاشته (فصل 9 را ببينيد) و مي‌تواند به عنوان محافظه‌كاري افراطي به دليل كاهش توان باشد. من بدلايلي كه در زير مي‌آيد مي‌خواهم هر دوي آزمونهايي بسيار محافظه‌كارانه توکی و شفه را تشريح كنم. معمولاً وقتيكه ما يك نسبت واريانس معنادار آنالیز واریانس را مي‌يابيم، مي‌خواهيم كه همه حالات را براي يافتن تفاوتهاي جالب (معناداري) مقايسه كنيم همانطور كه در آزمون رفتار اجتماعي بالا آمد. آزمونهاي توكي و شفه به ما اجازه اين كار را داده بدون اينكه بيش از حد نگران ريسك ایجاد خطاي نوع اول باشيم. ديگر آنكه انجام آنها خصوصا آزمون توكي آسان است. اين واقعيت كه آنها مقادير بحرانی بالايي براي معناداری تعيين مي‌كنند، ما را به از دست دادن يافته‌هاي معنادار بالقوه نمي‌كشاند زيرا ما يك معيار معناداری بسيار سختيگيرانه داريم. ممكن است زمانيكه اين آزمونها را مورد استفاده قرار مي دهيم بعضي تفاوتها را همانند وقتيكه آزمونهاي ديگري را به كار مي‌بريم معنادار ندانيم اما اين مشكلي ايجاد نخواهد كرد اگر ما به ياد داشته باشيم كه قضاوت خود را به عنوان يك محقق به كار ببريم. اگر تفاوتي وجود دارد كه در اين آزمونها به حد كفايت معنادار بودن نرسيده است اما ما هنوز دلايلي براي باور اينكه تفاوتها مهم هستند داريم، آنگاه همانند ديگر حالاتي از اين نوع، ما بايد به قضاوت خود اطمينان كرده و آن را دنبال كنيم: يعني آزمايشها را تكرار كنيم، عنوان های موضوعی بيشتري را به كار ببريم، طراحي حساس‌تري را به كار ببريم و اساساً معيارهايي را براي بهبود آزمون خود به كار ببريم. اگر تفاوتی واقعی وجود داشته باشد حتي با يك آزمون توكي بتدريج ظاهر خواهد شد. آمار تنها ابزاري براي كمك به ماست و جايگزين مهارت و هوش آزمايش‌كننده نخواهد شد. براي من هم پيش آمده است كه براي اطمينان از نتيجه تحليل يك آزمون محافظه‌كارانه را ترجيح داده باشم. اما اجازه نمي‌دهم مزاحم علاقه من براي مقايسه‌هايي كه كاملاً به سطح معناداربودن نرسيده‌اند بشود و آنها را در آزمايشهاي بعدي بررسي مي‌كنم. دليل من براي ارائه آزمونهاي توكي و شفه آن است كه آزمون توكي براي مقايسه‌هاي دوتايي، مقايسه دو سطح در يك زمان حساس‌تر از آزمون شفه است و احتمال بيشتري هست كه يك تفاوت را به عنوان معنادار بودن بپذيرد. اما آزمون شفه در مقايسه‌هاي پيچيده، تركيب سطوح و مقايسه سطوح تركيبي با سایرین، حساس‌تر از آزمون توكي است همانند مقايسه 8 ساله‌ها با تركيب 10 و 12 ساله‌ها در آزمون رفتارهاي اجتماعي.

آزمون توكي (براي همه مقايسه‌هاي دوگانه)

آزمون HSD توكي (تفاوت معنادار صادقانه) به ما اجازه مي دهد هر جفت از سطوح را براي موجود بودن تفاوت معنادار بررسي كنيم. آنچه اين آزمون انجام مي دهد آن است كه به ميزان تغيير تصادفي ميان ميانگين هر يك از اين جفت ها نظر مي‌كند، كه خطاي استاندارد تفاوت ميان ميانگين جفتها باشد. اگر پس از آن ما تفاوت بين دو ميانگين را با اين خطاي استاندارد مقايسه كنيم، يك آماره در دست داريم كه به ما مي‌گويد كه تفاوت بين ميانگين‌ها در قياس با تغییر تصادفي ميان آنها چقدر بزرگ است. اين آماره را q مي‌ناميم.

اما در q ما از يك خطاي استاندارد «همه منظوره» كه مي‌توان آن را براي هر جفتي به كاربرد استفاده مي‌كنيم. مثل t مي‌توانيم توزيع q را تحت فرض صفر بيابيم. با استفاده از اين توزيع مي‌توانيم تصميم بگيريم كه يك تفاوت خاص در ميانگين‌ها با توجه به اينكه q محاسبه شده از مقدار q موجود در جدول براي سطح معنی داری انتخاب‌‌شده تجاوز مي‌كند، معنادار است يا خير؟ آزمون توكي با قراردادن سطح معنی داری رويهم، که در آزمون های t چندگانه رخ می دهد، بر مشكل افزايش ريسك خطاي نوع اول غلبه مي‌كند. اين بدان معناست كه ريسك خطاي نوع اول در هنگام مقايسه هر جفت احتمالي مثلاً برابر 05/0 است. بنابراين آزمون توكي اجازه مقايسه هر جفت را به ما ميدهد به شكلي كه مي‌توان q را براي هر جفت بدست آورد با علم به اينكه ريسك خطاي نوع اول از 05/0 تجاوز نخواهد كرد. در مثال آزمون رفتار اجتماعي چون چهار سطح داريم مي‌توانيم شش مقايسه انجام دهيم. اگر ما 4 گروه سني داشتيم يعني 6، 8، 10، 12 و 14 ساله همانگونه كه در يك F معنادار در آنالیز واریانس انجام داديم، آزمون توكي به ما اجازه مي داد كه 24 جفت مقايسه ميان ميانگين‌هاي سطوح انجام دهيم.

فراتر از بدست آوردن مقدار q در هر موردي كه يك جفت از ميانگين‌ها را مقايسه مي‌كنيم مي‌توان فرمول را به شكل زير تغييرسازمان داد.

همه آنچه ما نياز داريم نگاه‌كردن به q در سطح معنی داری انتخاب شده و بدست آوردن توكي HSD و به كار بردن آن براي هر کدام يا همه تفاوتها در ميانگين‌هاست. اگر تفاوت در ميانگين‌ها بزرگتر از HSD باشد آنگاه تفاوت  معنادار است (صادقانه!)  .

يك مثال کاربردی

مثال كلمه‌سازي در فصل گذشته نمونه خوبي است زيرا ما در آن يك اثر معنادار از نوع راهنمايي در زمان حل معماي كلمه‌سازي يافتيم. مقدار F معنادار به ما اجازه انجام آزمونهاي پُست هاک را مي دهد تا ببينيم تفاوت میان کدام میانگین ها معنادار هستند. ميانگين‌ها در جدول زير نمايش داده شده‌اند.

تفاوت بين سطوح راهنمايي با حرف اول  و سطوح راهنمايي بدون حرف (13) و سطوح راهنمايي با حرف اول و راهنمايي با حرف دوم (9) در 05/0=P به شدت معنادار هستند زيرا هر دو از HSD بيشترند. تفاوت بين سطوح راهنمايي باحرف آخر و راهنمايي بدون حرف (4) در سطح 05/0=P معنادار نيست، اما تحقيقات بيشتر در اين مورد ممكن است اثري را بيابد زيرا اختلاف در اين مورد اگرچه به سطح معناداری نرسيده اما به آن نزديك است. اكنون كه مي دانيم كه تفاوت معنادار در كدام قسمت وجود دارد بررسي مي‌كنيم كه به چه روشي تفاوت ايجاد مي‌شود (كدام سطح زمان سريعتري توليد مي‌كند) تا نتيجه‌گيري خود را كامل كنيم.

آنچه مي‌توان نتيجه گرفت آن است كه راهنمايي با حرف اول به صورت معناداري، زمان حل سريعتري از سطح حرف آخر و سطح بدون حرف دارد. زمان سطح راهنمايي با حرف آخر به صورت معناداري سريعتر از سطح بدون حرف نيست (اگرچه گرايش غيرمعناداري، براي اينكه سطح حالت حرف آخر مي‌خواهد سريعتر باشد، نشان داده مي‌شود)

خيلي آسان مي‌توانيم بازه اطمينان مقايسه‌هايمان را بدست آوريم زيرا تفاوت ميانگين‌ها، مقدار بحراني مناسب و هم‌چنين خطاي استاندارد را مي‌دانيم (فصل 6 را براي معرفي بازه اطمينان ببينيد). بنابراين مي‌توانيم بازه اطمينان را به صورت زير بنويسيم.

جالب است كه توجه كنيم براي دو مقايسه اول، تفاوتها در طول بازه اطمينان سازگار بوده و حتي در بدترين حالت هم هنوز به اندازه كافي بزرگ است (96/4 و 96/8 ثانيه تفاوت). ليكن حالت سوم شامل صفر است بنابراين اگرچه در بهترين حالت اختلاف 04/8 ثانيه‌اي به ما ميدهد، اختلاف ممكن است همچنان صفر باشد. اگرچه صفر به انتهاي بازه نزديك است ولي با اطمينان نمي‌توانيم اين احتمال را استثناء كنيم. بازه اطمينان يافته‌ها را به روش ديگري نسبت به آزمون معناداربودن توصيف مي‌كند اما معناي يكساني از هر دو برمي‌خيزد: يعني ما مي‌توانيم مطمئن باشيم كه فقط دو تفاوت اولي، اختلافهاي جمعيتي واقعی را اظهار مي‌كنند.

 

آزمون شفه (براي مقايسه‌هاي پيچيده)

بواسطه «مجموع مربعات بین گروهی » آزمون شفه ، بخشي از آن را متناسب با مقايسه انجام شده محاسبه مي‌كند. آنگاه از مجموع مربعات مقايسه مي‌توانيم به توليد ميانگين مربعات و سپس مقدار F به طرف مقايسه برويم. اين مقدار را مي‌توانيم با مقدار توزيع F مقايسه كرده تا ببينيم كه آيا مقايسه معنادار است يا خير. براي اصلاح افزايش ريسك خطاي نوع اول كه مي‌تواند از مقايسه‌هاي چندگانه  ناشي شود، . مقدار F جدول را با توجه به اصلاح شفه تنظيم مي‌كنيم. پيش از آنكه بتوانيم تفاوت معناداري بين حالات مقايسه شده را ادعا كنيم مقدار محاسبه شده F براي مقايسه‌ مي‌بايستي بزرگتر از مقدار اصلاح شده جدول باشد.

آزمون شفه سودمندترين آزمون براي مقايسه‌هاي پيچيده پست هاکی است. در مثال مهارتهاي رفتاري اجتماعي كه در ابتداي اين فصل آمد بايد فرض كنيم كه محقق علاقمند بود كه تفاوتهاي بين كودكان زير 10 سال را با گروه كودكان 10 ساله بداند. در اين صورت ما يك مقايسه مركب داريم زيرا دو گروه تركيب شده‌اند (6 و 8 ساله‌ها) تا با گروه 10 ساله مقايسه شوند، يك گروه هم (12 ساله‌ها) از مقايسه كنار گذاشته شده‌اند.

به دو طرف مقايسه وزن 1+ و 1- داده شده است (در واقع اعداد انتخاب شده براي ضرايب تا زمانيكه شرايط بالا در آنها صادق باشد مي‌توانند هر چيزي باشند مثلاً مي‌توانستيم 2+، 1- و 1- يا 10+، 5- و 5- را انتخاب كنيم. معمولاً عددهايي را انتخاب مي‌كنيم كه محاسبه‌‌ها را آسان‌تر كنند).

نتيجه‌ انتخاب ضرايب تنها منجر به مجموع مربعات برای انجام يك مقايسه است. اين مقايسه هميشه مابين دو سطح جديد بوده كه تركيبي از سطوح آزمايش شده‌اند. در مثال بالا، دو سطح جديد عبارتند از: سطح اول اصلي آزمايش به عنوان سطح جديد اول و تركيبي از سطوح دوم و سوم كه دومين سطح جديد را تشكيل ميدهند. از آنجائيكه هميشه دو طرف در مقايسه وجود دارد بنابراين درجه آزادي مقايسه هميشه برابر 1 است. در نتيجه ميانگين مربعات مقايسه عبارت است از:

يك مثال کاربردی

در ابتداي اين فصل بطور خلاصه درباره مطالعه مهارتهاي اجتماعي كه بر روي چهار گروه مختلف سني از كودكان انجام شده صحبت كرديم. در اين آزمون محقق به دنبال تاثير سن در مهارتهاي اجتماعي است. تحليل ما جدول خلاصه زير را براي يك آنالیز واریانس با یک عامل اندازه گیری شده مستقل با مقدار F که در سطح بالایی معنی دار است توليد كرده است.

محقق تصميم به انجام يك آزمون پست هاک گرفت تا بداند آيا تفاوت معناداري بين كودكان 10 ساله و كوچكترها يعني تركيبي از 6 و 8 ساله‌ها وجود دارد. براي توليد اين مقايسه او ضرايب ، ،  و  را در نظر گرفت.

اين ضرايب سطح چهارم را مستثني كرده، سطح يك و دو را تركيب نموده كه در مقابل طرف ديگر مقايسه يعني سطح سوم قرار مي‌گيرند.

مجموع مربعات مقايسه از فرمول زير محاسبه مي‌شود.

مترجمین:  دکتر هدی کامرانی فر – حسن اسکندری نیا

اشتراک گذاری در شبکه های اجتماعی
@

لطفا شکبیا باشید...