آمار به زبان ساده – مقايسه های چندگانه

07 آبان 1400

دقیقه

در این مقاله به بررسی مقايسه های چندگانه‌ی آزمون توكی Tukey (برای همه مقایسه‌های دوگانه) و آزمون شفه Scheffé (برای مقایسه های پیچیده) می پردازیم.

آمار به زبان ساده

آخرین به‌روزرسانی: 24 دی 1401

در این مقاله به بررسی مقايسه های چندگانه‌ی آزمون توكی Tukey (برای همه مقایسه‌های دوگانه) و آزمون شفه Scheffé (برای مقایسه های پیچیده) می پردازیم. برای مطالعه بیشتر می‌توانید به مقالات آمار به زبان ساده مراجعه نمایید.

فهرست محتوا پنهان

آزمون توكی Tukey (برای همه مقایسه‌های دوگانه)

یك مثال کاربردی

آزمون شفه Scheffé (برای مقایسه‌های پیچیده)

یك مثال کاربردی

وقتیكه بیشتر از دو گروه را در آنالیز واریانس مقایسه می‌كنیم مقدار معنادار F مشخص نمی‌كند كه اثر در كجاست، و فقط به صورت خیلی ساده بیان می کند که جایی بین سطوح اثری معنی دار وجود دارد. یك محقق 4 گروه از كودكان (6، 8، 10 و 12 ساله) را در یك آزمون رفتار اجتماعی مقایسه نمود. او یك مقدار F معنادار یافته و نتیجه گرفت كه نمرات این چهار سطح از یك توزیع نمی‌آیند. اما این نتیجه‌گیری حقیقتاً به محقق اطلاعاتی درباره آنكه كدام محدوده سنی تفاوت معناداری دارد را نشان نمی‌دهد.

اجازه دهید فرض كنیم كه میانگین آنها به ترتیب 10، 12، 18 و 23 (از 50) است. با این داده‌ها كه نسبت واریانس‌ معناداری را در خود دارند محتمل به نظر می‌آید كه نمرات 6 ساله‌ها به صورت معناداری از 12 ساله‌ها متفاوت بوده زیرا این مقایسه بیشترین تفاوت در میانگین را نشان میدهد. آیا تفاوت بین 6 و 8 ساله‌ها یا 8 ساله و 10 ساله‌ها معنادار است؟ و همچنین درباره كمترین اختلاف بین 6 و8 ساله‌ها؟ برای یافتن یك مقدار F معنادار، می‌بایستی داده‌ها را مورد وارسی قرار داد. راهی كه، به این سؤالات بتوانیم پاسخ دهیم آن است كه یك آزمون پست هاک انجام دهیم (post hoc این نام از لاتین گرفته شده و به معنای «بعد از این» است.)

اولین مرحله در تحلیل این است كه یك مقدار معنادار F در آنالیز واریانس بیابیم. تنها پس از آن است كه می‌توانیم یك آزمون پست هاک انجام دهیم. این آزمونها، آزمونهای مقایسه‌ای چندگانه نامیده می‌شوند زیرا به ما اجازه می دهند كه مقایسه‌های مختلفی بین سطوح انجام دهیم. در مثال بالا ما می‌خواهیم كه هر یك از چهار گروه را با دیگر گروه‌ها مقایسه كرده تا نشان دهیم كه تفاوتهای معنادار در كجا هستند.

مشكل با مقایسه‌های چندگانه آن است كه هر چه مقایسه‌های بیشتری با همین داده‌ها انجام دهیم، ریسك ایجاد خطای نوع اول را بالاتر می‌بریم. در فصل 10 دیدیم كه این همان مشكلی است كه با انجام آزمونهای چندگانه t داشتیم یعنی وقتیكه شروع به انجام آزمونهای چندگانه بر روی داده‌ها می‌كردیم ریسك یافتن اختلافهای شانسی را افزایش می دادیم. راه ‌حل آن است كه یك آزمون پست هاک كه این ریسك فزاینده را در نظر گرفته و آن را كنترل می‌كند انجام دهیم.

محدوده‌ای از آزمونهای چندگانه وجود دارد. بعضی از آنها مشكل را به كلی نادیده می‌گیرند. آزمون كمترین تفاوت معنادار توجهی به تعداد مقایسه‌های انجام شده ندارد و ریسك خطای نوع اول در آن به راحتی پذیرفته شده است. دیگر آزمونها مثل آزمون نیومن – كیولز و دانكن تعداد مقایسه‌های انجام شده را در نظر گرفته و متناسب با آن مقادیر متفاوت را محاسبه می‌كنند. در محافظه‌كارانه‌ترین حالت از این محدوده از آزمونها، آزمونهای توکی و شفه اجازه همه مقایسه‌ها را می دهند، همچنانکه آزمون ریسك فزاینده خطای نوع اول را با كاهش سطح معنی داری مقایسه‌های جداگانه، اصلاح می‌كند.

آسان ترین و محافظه‌كارانه‌ترین روش اعمال اصلاح بن فرونی را به سطح معنی داری است. برای مثال اگر آنالیز واریانس (ANOVA) با یک عامل اندازه گیری شده مستقل مقدار F معناداری را نشان دهد.، آنگاه می‌توان آزمونهای t را به دنبال آن بر روی 6 جفت از سطوح با یك اصلاح بن فرونی برای درست‌كردن سطح معنی داری این آزمونها انجام داد. اصلاح بن فرونی (Bonferroni) ما را ملزم می‌كند كه سطح معنی داری را بر تعداد آزمونها تقسیم كنیم بنابراین در این حالت هر آزمون باید در مقابل سطح معنی داری 6/05/0=P (0083/0=P) ونه سطح معنی داری 05/0 انجام شود.

مقاله مرتبط: ویژگی Get & Transform

این مسئله بر توان آزمون تأثیر گذاشته و می‌تواند به عنوان محافظه‌كاری افراطی به دلیل كاهش توان باشد. من بدلایلی كه در زیر می‌آید می‌خواهم هر دوی آزمونهایی بسیار محافظه‌كارانه توکی و شفه را تشریح كنم. معمولاً وقتیكه ما یك نسبت واریانس معنادار آنالیز واریانس را می‌یابیم، می‌خواهیم كه همه حالات را برای یافتن تفاوتهای جالب (معناداری) مقایسه كنیم همانطور كه در آزمون رفتار اجتماعی بالا آمد. آزمونهای توكی و شفه به ما اجازه این كار را داده بدون اینكه بیش از حد نگران ریسك ایجاد خطای نوع اول باشیم. دیگر آنكه انجام آنها خصوصا آزمون توكی آسان است.

این واقعیت كه آنها مقادیر بحرانی بالایی برای معناداری تعیین می‌كنند، ما را به از دست دادن یافته‌های معنادار بالقوه نمی‌كشاند زیرا ما یك معیار معناداری بسیار سختیگیرانه داریم. ممكن است زمانیكه این آزمونها را مورد استفاده قرار می دهیم بعضی تفاوتها را همانند وقتیكه آزمونهای دیگری را به كار می‌بریم معنادار ندانیم اما این مشكلی ایجاد نخواهد كرد اگر ما به یاد داشته باشیم كه قضاوت خود را به عنوان یك محقق به كار ببریم.

اگر تفاوتی وجود دارد كه در این آزمونها به حد كفایت معنادار بودن نرسیده است اما ما هنوز دلایلی برای باور اینكه تفاوتها مهم هستند داریم، آنگاه همانند دیگر حالاتی از این نوع، ما باید به قضاوت خود اطمینان كرده و آن را دنبال كنیم: یعنی آزمایشها را تكرار كنیم، عنوان های موضوعی بیشتری را به كار ببریم، طراحی حساس‌تری را به كار ببریم و اساساً معیارهایی را برای بهبود آزمون خود به كار ببریم. اگر تفاوتی واقعی وجود داشته باشد حتی با یك آزمون توكی بتدریج ظاهر خواهد شد.

آمار تنها ابزاری برای كمك به ماست و جایگزین مهارت و هوش آزمایش‌كننده نخواهد شد. برای من هم پیش آمده است كه برای اطمینان از نتیجه تحلیل یك آزمون محافظه‌كارانه را ترجیح داده باشم. اما اجازه نمی‌دهم مزاحم علاقه من برای مقایسه‌هایی كه كاملاً به سطح معناداربودن نرسیده‌اند بشود و آنها را در آزمایشهای بعدی بررسی می‌كنم.

دلیل من برای ارائه آزمونهای توكی و شفه آن است كه آزمون توكی برای مقایسه‌های دوتایی، مقایسه دو سطح در یك زمان حساس‌تر از آزمون شفه است و احتمال بیشتری هست كه یك تفاوت را به عنوان معنادار بودن بپذیرد. اما آزمون شفه در مقایسه‌های پیچیده، تركیب سطوح و مقایسه سطوح تركیبی با سایرین، حساس‌تر از آزمون توكی است همانند مقایسه 8 ساله‌ها با تركیب 10 و 12 ساله‌ها در آزمون رفتارهای اجتماعی.

آزمون توكی Tukey (برای همه مقایسه‌های دوگانه)

آزمون HSD توكی (تفاوت معنادار صادقانه) به ما اجازه می دهد هر جفت از سطوح را برای موجود بودن تفاوت معنادار بررسی كنیم. آنچه این آزمون انجام می دهد آن است كه به میزان تغییر تصادفی میان میانگین هر یك از این جفت ها نظر می‌كند، كه خطای استاندارد تفاوت میان میانگین جفتها باشد. اگر پس از آن ما تفاوت بین دو میانگین را با این خطای استاندارد مقایسه كنیم، یك آماره در دست داریم كه به ما می‌گوید كه تفاوت بین میانگین‌ها در قیاس با تغییر تصادفی میان آنها چقدر بزرگ است. این آماره را q می‌نامیم.

مقاله مرتبط: تملیک های شرکت ورایزن

مقايسه های چندگانه

اما در q ما از یك خطای استاندارد «همه منظوره» كه می‌توان آن را برای هر جفتی به كاربرد استفاده می‌كنیم. مثل t می‌توانیم توزیع q را تحت فرض صفر بیابیم. با استفاده از این توزیع می‌توانیم تصمیم بگیریم كه یك تفاوت خاص در میانگین‌ها با توجه به اینكه q محاسبه شده از مقدار q موجود در جدول برای سطح معنی داری انتخاب‌‌شده تجاوز می‌كند، معنادار است یا خیر؟

آزمون توكی با قراردادن سطح معنی داری رویهم، که در آزمون های t چندگانه رخ می دهد، بر مشكل افزایش ریسك خطای نوع اول غلبه می‌كند. این بدان معناست كه ریسك خطای نوع اول در هنگام مقایسه هر جفت احتمالی مثلاً برابر 05/0 است. بنابراین آزمون توكی اجازه مقایسه هر جفت را به ما میدهد به شكلی كه می‌توان q را برای هر جفت بدست آورد با علم به اینكه ریسك خطای نوع اول از 05/0 تجاوز نخواهد كرد.

در مثال آزمون رفتار اجتماعی چون چهار سطح داریم می‌توانیم شش مقایسه انجام دهیم. اگر ما 4 گروه سنی داشتیم یعنی 6، 8، 10، 12 و 14 ساله همانگونه كه در یك F معنادار در آنالیز واریانس انجام دادیم، آزمون توكی به ما اجازه می داد كه 24 جفت مقایسه میان میانگین‌های سطوح انجام دهیم.

فراتر از بدست آوردن مقدار q در هر موردی كه یك جفت از میانگین‌ها را مقایسه می‌كنیم می‌توان فرمول را به شكل زیر تغییرسازمان داد.

همه آنچه ما نیاز داریم نگاه‌كردن به q در سطح معنی داری انتخاب شده و بدست آوردن توكی HSD و به كار بردن آن برای هر کدام یا همه تفاوتها در میانگین‌هاست. اگر تفاوت در میانگین‌ها بزرگتر از HSD باشد آنگاه تفاوت معنادار است (صادقانه!) .

یك مثال کاربردی

مثال كلمه‌سازی در فصل گذشته نمونه خوبی است زیرا ما در آن یك اثر معنادار از نوع راهنمایی در زمان حل معمای كلمه‌سازی یافتیم. مقدار F معنادار به ما اجازه انجام آزمونهای پُست هاک را می دهد تا ببینیم تفاوت میان کدام میانگین ها معنادار هستند. میانگین‌ها در جدول زیر نمایش داده شده‌اند.

تفاوت بین سطوح راهنمایی با حرف اول و سطوح راهنمایی بدون حرف (13) و سطوح راهنمایی با حرف اول و راهنمایی با حرف دوم (9) در 05/0=P به شدت معنادار هستند زیرا هر دو از HSD بیشترند. تفاوت بین سطوح راهنمایی باحرف آخر و راهنمایی بدون حرف (4) در سطح 05/0=P معنادار نیست، اما تحقیقات بیشتر در این مورد ممكن است اثری را بیابد زیرا اختلاف در این مورد اگرچه به سطح معناداری نرسیده اما به آن نزدیك است. اكنون كه می دانیم كه تفاوت معنادار در كدام قسمت وجود دارد بررسی می‌كنیم كه به چه روشی تفاوت ایجاد می‌شود (كدام سطح زمان سریعتری تولید می‌كند) تا نتیجه‌گیری خود را كامل كنیم.

آنچه می‌توان نتیجه گرفت آن است كه راهنمایی با حرف اول به صورت معناداری، زمان حل سریعتری از سطح حرف آخر و سطح بدون حرف دارد. زمان سطح راهنمایی با حرف آخر به صورت معناداری سریعتر از سطح بدون حرف نیست (اگرچه گرایش غیرمعناداری، برای اینكه سطح حالت حرف آخر می‌خواهد سریعتر باشد، نشان داده می‌شود)

خیلی آسان می‌توانیم بازه اطمینان مقایسه‌هایمان را بدست آوریم زیرا تفاوت میانگین‌ها، مقدار بحرانی مناسب و هم‌چنین خطای استاندارد را می‌دانیم (فصل 6 را برای معرفی بازه اطمینان ببینید). بنابراین می‌توانیم بازه اطمینان را به صورت زیر بنویسیم.

جالب است كه توجه كنیم برای دو مقایسه اول، تفاوتها در طول بازه اطمینان سازگار بوده و حتی در بدترین حالت هم هنوز به اندازه كافی بزرگ است (96/4 و 96/8 ثانیه تفاوت). لیكن حالت سوم شامل صفر است بنابراین اگرچه در بهترین حالت اختلاف 04/8 ثانیه‌ای به ما میدهد، اختلاف ممكن است همچنان صفر باشد.

مقاله مرتبط: تحولات در روش‌ تحلیل

اگرچه صفر به انتهای بازه نزدیك است ولی با اطمینان نمی‌توانیم این احتمال را استثناء كنیم. بازه اطمینان یافته‌ها را به روش دیگری نسبت به آزمون معناداربودن توصیف می‌كند اما معنای یكسانی از هر دو برمی‌خیزد: یعنی ما می‌توانیم مطمئن باشیم كه فقط دو تفاوت اولی، اختلافهای جمعیتی واقعی را اظهار می‌كنند.

آزمون شفه Scheffé (برای مقایسه‌های پیچیده)

بواسطه «مجموع مربعات بین گروهی » آزمون شفه، بخشی از آن را متناسب با مقایسه انجام شده محاسبه می‌كند. آنگاه از مجموع مربعات مقایسه می‌توانیم به تولید میانگین مربعات و سپس مقدار F به طرف مقایسه برویم. این مقدار را می‌توانیم با مقدار توزیع F مقایسه كرده تا ببینیم كه آیا مقایسه معنادار است یا خیر.

برای اصلاح افزایش ریسك خطای نوع اول كه می‌تواند از مقایسه‌های چندگانه ناشی شود، . مقدار F جدول را با توجه به اصلاح شفه تنظیم می‌كنیم. پیش از آنكه بتوانیم تفاوت معناداری بین حالات مقایسه شده را ادعا كنیم مقدار محاسبه شده F برای مقایسه‌ می‌بایستی بزرگتر از مقدار اصلاح شده جدول باشد.

آزمون شفه سودمندترین آزمون برای مقایسه‌های پیچیده پست هاکی است. در مثال مهارتهای رفتاری اجتماعی كه در ابتدای این فصل آمد باید فرض كنیم كه محقق علاقمند بود كه تفاوتهای بین كودكان زیر 10 سال را با گروه كودكان 10 ساله بداند. در این صورت ما یك مقایسه مركب داریم زیرا دو گروه تركیب شده‌اند (6 و 8 ساله‌ها) تا با گروه 10 ساله مقایسه شوند، یك گروه هم (12 ساله‌ها) از مقایسه كنار گذاشته شده‌اند.

به دو طرف مقایسه وزن 1+ و 1- داده شده است (در واقع اعداد انتخاب شده برای ضرایب تا زمانیكه شرایط بالا در آنها صادق باشد می‌توانند هر چیزی باشند مثلاً می‌توانستیم 2+، 1- و 1- یا 10+، 5- و 5- را انتخاب كنیم. معمولاً عددهایی را انتخاب می‌كنیم كه محاسبه‌‌ها را آسان‌تر كنند).

نتیجه‌ انتخاب ضرایب تنها منجر به مجموع مربعات برای انجام یك مقایسه است. این مقایسه همیشه مابین دو سطح جدید بوده كه تركیبی از سطوح آزمایش شده‌اند. در مثال بالا، دو سطح جدید عبارتند از: سطح اول اصلی آزمایش به عنوان سطح جدید اول و تركیبی از سطوح دوم و سوم كه دومین سطح جدید را تشكیل میدهند. از آنجائیكه همیشه دو طرف در مقایسه وجود دارد بنابراین درجه آزادی مقایسه همیشه برابر 1 است. در نتیجه میانگین مربعات مقایسه عبارت است از:

یك مثال کاربردی

در ابتدای این فصل بطور خلاصه درباره مطالعه مهارتهای اجتماعی كه بر روی چهار گروه مختلف سنی از كودكان انجام شده صحبت كردیم. در این آزمون محقق به دنبال تاثیر سن در مهارتهای اجتماعی است. تحلیل ما جدول خلاصه زیر را برای یك آنالیز واریانس با یک عامل اندازه گیری شده مستقل با مقدار F که در سطح بالایی معنی دار است تولید كرده است.

محقق تصمیم به انجام یك آزمون پست هاک گرفت تا بداند آیا تفاوت معناداری بین كودكان 10 ساله و كوچكترها یعنی تركیبی از 6 و 8 ساله‌ها وجود دارد. برای تولید این مقایسه او ضرایب،، و را در نظر گرفت.

این ضرایب سطح چهارم را مستثنی كرده، سطح یك و دو را تركیب نموده كه در مقابل طرف دیگر مقایسه یعنی سطح سوم قرار می‌گیرند.

مجموع مربعات مقایسه از فرمول زیر محاسبه می‌شود.