آمار به زبان ساده – آزمون فرضیه با دو نمونه

03 مهر 1400

دقیقه

آمار به زبان ساده

آخرین به‌روزرسانی: 24 دی 1401

يك آموزگار از الگوي جديدي براي خواندن كه در كشور ديگر معرفي شده آگاه مي‌شود و مي‌خواهد بداند كه اين الگو در اينجا كاربرد دارد يا خير. گزارشهايي در مطالب چاپي آموزشي آن كشور مدعي بود اين الگوي جديد ، موجب كارآيي بهتر كودكان در خواندن شده است. مشكل اين بود كه اين داده‌ها متعلق به زبانی ديگر بود. اين معلم مي‌خواست بداند كه آيا اين الگوي جديد بهتر از الگوي فعلي خواندن است كه اكنون كشورش به كار برده مي‌شود يا خير.

آموزگار تصميم گرفت در كلاس بعدي كه مي‌گيرد نصف كودكان را با روش جديد و نصف ديگر را با روش قديم آموزش دهد. كودكان به صورت تصادفي به دو الگو اختصاص داده شدند تا در نمونه‌ها از بزرگنمايي در فاكتورهايي مثل هوش خودداري شده باشد بدين ترتيب پذيرفته شده كه كودكان به صورت سيستماتيك تنها در يك متغير مورد مطالعه يعني الگوي خواندن تفاوت دارند. آموزگار اكنون نمونه‌ها را مقايسه مي‌كند. او واقعاً علاقه‌اي به خود نمونه‌ها نداشت بلكه جمعيتي كه اين كودكان بعنوان نمونه از ميان آنها انتخاب شده بودند. مورد نظر او بود، آيا الگوي جديد براي كودكان در اين سن و نه فقط كودكان اين كلاس بهتر است؟ سوال اين است كه آیا توزيع جمعيت الگوي جديد كارآيي بهتري از الگوي قديم دارد؟ متأسفانه آموزگار جزئياتي از اين جمعيت‌ها نداشت و هر دوی آنها ناشناخته بودند.

چگونه مي‌توان از اين نمونه‌ها براي آزمون فرض استفاده كرد؟ در ابتدا پيش از هر چيز مي‌توانيم بپرسيم كه آيا اين نمونه‌ها نمايانگر جمعيتي هستند كه ما مي‌خواهيم نتيجه را بر آنها تعميم دهيم. كودكان اين مدرسه چگونه انتخاب شده‌اند؟ آنها از چه گروه اجتماعي هستند؟ اين فاكتورها ممكن است تعميم دادن را محدود كند. دوّم، مي‌توانيم به كارآيي دو نمونه در يك آزمون خواندن نظر كنيم. اگرتفاوت بين دو نمونه كوچك باشد مي‌بايستي به وجود تفاوت در جمعيت‌ها شك كنيم، اگر تفاوت زياد باشد ممكن است تصميم بگيريم كه يافته‌ها دلالت بر تفاوت احتمالی بين جمعيتها دارد. مشكلي كه در اين جا رخ مي‌نمايد. اين است كه اين تفاوت بايد چقدر بزرگ باشد تا فرض صفر را رد كرده و تصميم بگيريم كه نمونه‌ها واقعاً از جمعيت‌هايي با توزيعهاي گوناگون مي‌آيند.

به مشكل مذكور مي‌توان به اين شكل حمله برد كه: اجازه دهيد فرض كنيم كه دو نمونه واقعاً از یك توزيع مي‌آيند و فرض صفر صحيح بوده و هيچ تفاوتي از نظر كارآيي خواندن بين دو جمعيت وجود ندارد. چه تفاوتهايي را مي‌بايستي ما تنها به صورت شانسي بين دو نمونه انتظار داشته باشيم؟ مي‌توانيم با گرفتن ميانگين از هر نمونه ممكن با همان اندازه‌اي كه مورد نظر ماست و مقايسه آن با ميانگين هر نمونه ديگري ازهمين اندازه، پاسخ را بيابيم. اين تفاوتها (در ميانگين نمونه‌ها) به ما مي‌گويد كه چه اختلافاتي بين نمونه‌ها را وقتي كه فرض صفر صحيح است بايد انتظار داشته باشيم. اگر اين تفاوتها را رسم كنيم توزيعي از تفاوت‌هاي ميان ميانگين‌هاي نمونه‌ها را بدست خواهيم آورد.

همانند توزيع ميانگين‌ نمونه‌ها اين توزيع نيز بنظر يك توزيع نرمال مي‌آيد و همچنان که میدانیم این توزیع يك توزيع نمونه‌گيري است. اگر اندازه نمونه‌ها بزرگ باشد این مورد نیز مانند حالت قبل خواهد بود. ميانگين اين توزيع صفر خواهد بود زيرا وقتي ما از يك توزيع نمونه مي‌گيريم تفاوتها در حول صفر حلقه خواهند زد زيرا ميان اغلب ميانگين‌ نمونه‌ها تفاوتي نيست يا تفاوت بسيار كمي وجود دارد. تنها به ندرت زماني اختلاف زيادي موجود خواهد بود كه يك نمونه همه كودكان خوب در خواندن را در خود داشته وديگري همه كودكان ضعيف را شامل شده باشد.

مقاله مرتبط: داده های جغرافیایی و سهام

توزيع تفاضل بين ميانگين‌ نمونه‌ها وقتي كه فرض صفر صحيح باشد در تصوير 8.1 نشان داده شده است.

تصویر 8.1 توزيع تفاوتها بين ميانگين‌ نمونه‌ها

اكنون بنگر و ببين ما يك توزيع شناخته شده داريم يعني يك توزيع نرمال با يك ميانگين صفر. همچنين نمره‌اي براي بررسي داريم يعني تفاضل ميانگين‌ نمونه‌ها، آزمون فرض، تماماً درباره مقايسه يك نمره با يك توزيع شناخته شده است.

اگر احتمال اینکه تفاضل میانگین نمونه های ما از توزیع شناخته شده (همان توزیع با میانگین صفر) بدست آمده اند بالا باشد، شانس اینکه فرض صفر درست باشد وجود دارد.

اگر احتمال کمی یافت شود که تفاضل میانگین نمونه های ما از توزیع شناخته شده موجود در کل جمعیت آمده اند، فرض صفر می تواند رد شود. تمام آنچه اكنون نياز داريم توليد يك نمره z (تفاضل ميان ميانگين‌نمونه‌هايمان) بوده كه آنگاه مي‌توانيم احتمال اين نمره را كه از توزيع شناخته شده است (توزيع تفاضل بين ميانگين‌ نمونه‌ها) بدست بياوريم تا ببينيم كه احتمال درست بودن فرض صفر چقدر است.

از فصل 6 به ياد بياوريد كه ما همه چيز را درباره توزيع t مي‌دانيم بنابراين قادر هستيم مقادير محتمل را در جدول بيابيم. نبايد فراموش كنيم كه توزيع t از درجه آزادي نمونه‌ها تأثير مي‌پذيرد. يعني هر چه نمونه‌ها بزرگتر باشند توزيع تقريباً به توزيع نرمال نزديكتر خواهد بود. اگر بخواهيم مقدار t محاسبه شده خودمان را با توزيع t درست مقايسه كنيم بايد درجه آزادي نمونه‌‌هايمان را بدست بياوريم.

مفروضات آزمون t دو نمونه‌اي

مفروضات اساسي براي هر آزمون t هر چه كه مي‌خواهد باشد يكسان است. ما نيازمنديم كه توزيع نمونه‌گيري‌ها به صورت نرمال باشد. بنابراين معمولاً فرض مي‌كنيم كه نمونه‌هاي ما از جمعيتهاي با توزيع نرمال آمده‌اند. خوشبختانه آزمون t بگونه‌اي محكم است كه اگر توزيع‌ها فقط به صورت مبهم نرمال باشند يعني قوسي در ميانه و دنباله های اطراف داشته باشند، آنگاه آزمونt همچنان شايسته معتبر بودن است. اين به طور خاص در مورد نمونه‌هاي بزرگ (بيشتر از 30) درست است. مجدداً ما بايد فرض كنيم كه نمونه‌ها به صورت تصادفي از ميان جمعيت‌ها برگزيده شده‌اند تا بتوانيم آماره های نمونه (ميانگين، انحراف استاندارد) را بعنوان برآورد های نااریب از پارامترهاي جمعيت به كار ببريم. در انتهاي بايد فرض كنيم كه دو نمونه از جمعيت‌هاي با واريانس مساوي (و انحراف استاندارد مساوي چون يكي مربع ديگري است) آمده‌اند تا بتوانيم اطلاعات نمونه را براي برآورد انحراف استاندارد جمعيت به كار ببريم. بنابراين فرض مي‌كنيم هر اثر متغير مستقل ، انتقال توزيع متغير غيرمستقل ، در طول مقیاس خواهد بود (يعني بر ميانگين جمعيت اثر مي‌گذارد) و تغييري در شكل جمعيت (واريانس يا انحراف استاندارد) آن نخواهد گذاشت.

نمونه‌هاي مستقل يا نمونه‌هاي وابسته

همانگونه كه در فصل پيشين ديديم نمونه‌هاي مرتبط در موضوع ، نمراتي براي هر دو نمونه عرضه مي‌كنند در حاليكه با نمونه‌هاي مستقل ، هر موضوع تنها با يك نمره فقط براي يك نمونه مشاركت مي‌كند. روشي كه ما بوسيله آن دو نمونه آزمون z را محاسبه مي‌كنيم بستگي به آن دارد كه آنها مستقل بوده يا وابسته باشند چون لازمه اين تفاوت ، فرمولهاي متفاوتي است. براي نمونه اگر ما 10 عنوان موضوعی در دو نمونه خود داشته باشيم در نمونه‌هاي مرتبط و وابسته، تنها به 10 عنوان موضوعی نيازمنديم زيرا هر يك دوبار مورد استفاده قرارمي‌گيرند در حاليكه با نمونه‌هاي مستقل ما به 20 عنوان موضوعی يعني 10 عدد براي هر نمونه نياز داريم جزئيات اختلاف در فرمولها در زير خواهد آمد.

مقاله مرتبط: تحلیل حساسیت با جداول داده (data tables)

آزمون t وابسته

با فرمول خود براي t آغاز مي‌كنيم

یک مثال كار شده

يك آموزگار معتقد است كه شاگردان او صبح‌ها در كارهايشان بهتر از بعدازظهر هستند. او تصميم گرفت اين مسئله را با يك امتحان رياضي كه نياز به تمركز دارد بيازمايد. اگر در كارآيي پس از نهار ، نزولي باشد اين آزمون باید آن را آشكار كند. او به صورت تصادفي يك نمونه 8 تايي از كودكان را برگزيده و به آنها دو آزمون با سختي يكسان داد. نمونه‌ها براي جلوگيري از انتقال اثرات جانبي ديگر، بر روي دو نسخه از امتحان ، و زماني كه در ابتدا مورد آزمون قرار گرفتند ، تنظيم شدند. نمره‌ آزمونها 10 بوده و نمره بالاتر نمايانگر كارايي بالاتري مي‌باشد. نتايج آزمونها به شرح ذيل بود:

درجه آزادي براي آزمون t مرتبط هميشه n-1 بوده و بنابراين df=7 مي‌شود.

اين يك آزمون يك طرفه است زيرا پيش بيني بر آن بود كه كودكان در صبح كارآيي بهتري دارند و نمرات نمونه اول بزرگتر از نمونه دوم هستند. همانطور كه از ميانگين‌ها ديده مي‌شود اين همان حالت است اما نياز است كه آزمون معنادار بودن اختلاف نمرات را انجام دهيم. در سطح معنی داری ، از جدول توزيع t (در ضميمه A.2) درمي‌يابيم كه براي آزمون يك طرفه است.

مقدار محاسبه شده ما براي t براي 2.65 بزرگتر از مقدار 1.895 جدول است كه به ما اين اجازه را مي‌دهد که فرض صفر را در سطح معنی داری رد کرده و نتيجه بگيريم كه كودكان به طور معناداري در آزمون رياضي صبح كارآيي بهتري نسبت به آزمون رياضي بعدازظهر داشتند.

گاهي اوقات مقدار t محاسبه شده علامت منفي دارد. اين به سادگي بيانگر آن است كه ميانگين نمونه 1 كوچكتر از ميانگين نمونه 2 است. اگر ما در مثال بالا علامت منفي مي‌داشتيم مي‌بايستي پيش‌بيني يك طرفه را رد مي‌كرديم زيرا اين به معناي آن بود كه نمرات بعدازظهر بهتر بوده‌اند. اگر پيش‌بيني ما بر آن بود كه نمرات نمونه 2 بزرگتر خواهند بود و يا يك پيش‌بيني دو طرفه انجام مي‌داديم، در هنگام مقايسه مقدار محاسبه شده با مقدار جدول ، علامت منفي را ناديده مي‌گرفتيم.

مشكل ما براي ايجاد فرمولي براي t هنوز پايان نيافته است. مي‌دانيم كه هر چند اندازه نمونه بزرگتر باشد انحراف استاندارد نمونه برآورد بهتري از پارامتر جمعيت است و همچنين آزمون t فرض را بر اين مي‌گذارد كه نمونه‌ها از جمعيتهايي با انحراف استاندارد يكسان مي‌آيند. بنابراین مي‌توانيم نتيجه بگيريم وقتي نمونه‌هايي با اندازه‌هاي متفاوت داريم نمونه بزرگتر به احتمال زياد برآورد بهتري از نمونه كوچكتر براي انحراف استاندارد جمعیت است. آنچه که ما انجام می دهیم وزن دادن به میزان انحراف استاندارد های دو نمونه متناسب با اندازه هر نمونه است (بطور دقيق‌تر، واريانس آنها را با درجه آزاديشان) و يك برآورد جمعيت براساس میانگین وزنی انحراف استاندارد نمونه‌ها توليد كنيم ، که باشد.

يك مثال کاربردی

آزمايش يك قرص خواب جديد براي روي تعداد داوطلب شروع شده است. پيش‌بيني مي‌شود كه اين قرص بر روي مردان و زنان اثرات متفاوتي داشته باشد. 6 مرد و 8 زن پذيرفته‌اند كه در اين آزمايش مشاركت كنند. در مدت دو هفته به آنها يك دارو نما (قرصي كه تأثيري ندارد) يا قرص خواب داده شده است. شركت‌كنندگان نمي‌دانند كه هر شب كدام يك از اين قرصها به آنها داده شده است. ساعت خواب اضافي افراد در هفت شب كه به آنها قرص خواب داده شده و در هفت شب كه شبه دارو و مصرف كرده‌اند محاسبه شده است مردان 4، 6، 5، 4 و5 و 6 ساعت و زنان 3، 8، 7، 6، 7 و 6 و7 و 6ساعت اضافه خوابيده‌اند. آيا اين مويد پيش‌بيني ماست؟

مقاله مرتبط: ادغام چرا و چگونه صورت می پذیرد؟

براي يافتن t از فرمول بايد مقادير مورد نياز را پيدا كنيم.

بايد مردان را به عنوان نمونه 1 و زنان را به عنوان نمونه 2 نامگذاری می‌كنيم .

با وارد كردن ارقام در فرمول t مقدار آن حاصل مي‌شود:

درجه آزادي نيز برابر 12 است با:

علامت منفي بيانگر بزرگتر بودن نمرات نمونه دوم (زنان) است. از آنجائيكه اين يك آزمون دو طرفه است آن را به عنوان 82/1+ تلقي مي کنيم. از جدول توزيع t (جدول A2 در ضميمه) بدست مي‌آيد كه:

از آنجائيكه مقدار t محاسبه شده بوسيله ما يعني 82/1 از مقدار جدول يعني 18/2 بزرگتر نيست نمي‌توانيم فرض صفر را رد كنيم: يعني تفاوت معنا‌داري در ساعات خواب اضافي بين زنان و مردان در سطح معنی داری 5 درصد وجود ندارد.

بهرحال اين نتيجه جالبي است توجه كنيد تفاضل ميانگين‌ها 25/1 به نفع زنان است. تفاضل ميانگين‌ها به صورت شانسي به ميزان 688/0 مورد انتظار است (در بخش پائين‌ محاسبه t) و حتي با وجود آنكه در اين معنادار نيست مقدار احتمال واقعي 0945/0 است كه هنوز مقدار كاملاً ناچيزي محسوب مي‌شود. ممكن است يك اثر واقعي زير سطح مورد نظر باشد اما اين اثر آنقدر قوي نيست كه از اين داده‌ها برداشت شود. اگر مشاركت‌كنندگان بيشتري داشتيم يا آزمونt يك طرفه بود شايد مي‌توانستيم معنا‌دار بودن را محقق كنيم. علت اين مسئله در فصل بعد تشريح خواهد شد.

بازه‌هاي اطمينان

وقتي دو نمونه را مقايسه مي‌كنيم مي‌توانيم بازه‌هاي اطمينان را براي تفاضل در مقادير ميانگين‌ها بدست آوريم. از فصل 6 به ياد بياوريد كه CI يا بازده اطمينان برابر است با تفاضل ميانگين‌ها، بعلاوه منهاي حاصلضرب مقدار بحراني t در خطاي استاندارد تفاضل ميانگين‌ها.

بعنوان مثال براي آزمون t مرتبط كه در اين فصل آمده، 95 درصد بازده اطمينان به شرح زير محاسبه مي‌شود.

در جدول براي در يك آزمون دو دمي با درجه آزادي مقدار بحراني t عدد را مي‌يابيم. خطاي استاندارد محاسبه شده مخرج فرمول محاسبه مقدار t است. توجه داشته باشيد كه بازه شامل صفر نشده بنابراين مي‌توانيم با اطمينان نتيجه بگيريم كه اختلاف ميانگين‌هاي نمونه صفر نبوده بلكه عددي مثبت است.

براي مثال در آزمون t مستقل ، بازه اطمينان 95 درصد به اين شكل محاسبه مي‌شود.

براي يك آزمون دو طرفه با مقدار بحراني t در جدول عدد 179. 2 یافت مي‌شود. مجدداً مي‌گوئيم مقدار ، خطاي استاندارد است که از محاسبه آزمون مربوط به گرفته مي‌شود. توجه كنيد كه در اين مثال بازه اطمينان شامل صفر مي‌شود. در اين حالت ما مطمئن نيستيم كه تفاوت واقعي در ميانگين‌ها، غير از صفر باشد. همانگونه كه مقدار t به سطح معنادار بودن نرسيد، این مسئله در مورد فاصله اطمینان هم به همین صورت است، در حاليكه اغلب موارد نزدیک به صفر همچنان صفر را در خود دارند. هر دو تحليل به ما مي‌گويند كه شواهد كافي از داده‌ها براي ادعاي تفاوت در ميانگين‌هاي نمونه وجود ندارد.

مترجمین: دکتر هدی کامرانی فر – حسن اسکندری نیا