آمار به زبان ساده – نمونه گیری

25 مرداد 1400

دقیقه

 نمونه گیری جامعه‌ها و نمونه‌ها در این کتاب تا اینجا بدنبال چیزی بوده‌ایم که آن را جامعه می‌نامیم که خود مجموعه‌ کامل چیزی است که به آن علاقه‌مندیم. توزیع فراوانی همه نمرات مورد علاقه ما را در خود دارد مانند نمرات یکصد دانشجویی که امسال از آنها آزمون گرفتیم همان مثالی که در فصل 2...

 نمونه گیری

جامعه‌ها و نمونه‌ها

در این کتاب تا اینجا بدنبال چیزی بوده‌ایم که آن را جامعه می‌نامیم که خود مجموعه‌ کامل چیزی است که به آن علاقه‌مندیم. توزیع فراوانی همه نمرات مورد علاقه ما را در خود دارد مانند نمرات یکصد دانشجویی که امسال از آنها آزمون گرفتیم همان مثالی که در فصل 2 آوردیم. جامعه نیازی نیست که مجموعه‌ای از افراد و اشخاص باشد مثل جامعه مردم بریتانیا ، اگرچه ما عادت کرده‌ایم که این واژه را اینگونه بشنویم. جامعه می‌تواند یک مجموعه کامل از هر چیزی باشد. در آمار جامعه به یک مجموعه از نمرات اطلاق می‌شود همانند موارد زیر: تعداد صفحات هر کتاب در کتابخانه، نمره آزمون بهره هوشی دخترهای 15 ساله‌ای که در لندن زندگی‌ می‌کنند، تعداد گلها در هر مسابقه فوتبال لیگ در یک روز شنبه خاص، زمانی که طول کشید تا خانواده رابینسون یک اره بسازند، تعداد حبه غذاهایی که هر موش در آزمون یادگیری خورده است. بطور واضح جامعه اعضاء گروه خاصی است که ما روی آن مطالعه می‌کنیم.

اغلب به دلیل حجم بزرگ جامعه نمی‌توان همه آن را مورد مطالعه قرار داد. در این صورت یک نمونه از آن را انتخاب می‌کنیم. نمونه زیر مجموعه‌ای از جامعه است. اگرچه تقریباً همیشه فقط می‌توان نمونه‌ها را مورد آزمون قرار داد ولی ما می‌خواهیم درباره جامعه و نه نمونه‌ها بدانیم. این مسئله مشکل اساسی تحلیلهای آماری است. اما چه زمانی و چگونه اطلاعات از یک نمونه ، به ما اطلاعاتی راجع به جامعه میدهد؟ این بخش از کتاب درباره این سوال کلیدی است ابتدا برای تشریح دشواری مسئله مثالی می‌زنیم.

یک دکتر مایل است میزان شیوع بیماری‌های تنفسی در مردان بالای 50 سال انگلیسی را بداند. این جامعه زیادی است و بسیار دشوار است که همه آنها را مورد آزمون قرار دهیم. به جای آن باید نمونه‌ای برای آزمون انتخاب کرد. اما دکتر به نمونه فی‌نفسه علاقه‌ای ندارد بلکه به چیزی که نمونه درباره جامعه خواهد گفت علاقه‌مند است. اگر تخمین جزئیات جامعه از نمونه ممکن نباشد، مطالعه آن بی‌ارزش است. آنچه که این دکتر و محققین به طور کلی نیازمندند اطلاعات نمونه‌ای است که برای برآورد جزئیات جامعه سودمند باشد.

انتخاب یک نمونه

یکی از مشکلات به کار بردن نمونه‌ها به عنوان نمایانگر یک جامعه ، انتخاب افراد نمونه است. در اغلب حالات می‌خواهیم نمونه ما واقعاً نمایانگر جامعه باشد تا بتوان یافته‌ها را به جامعه تعمیم داد و ادعا نمود که جامعه‌ همانند نمونه عمل خواهد کرد. اگر یک نمونه با همان ویژگیهای جامعه داشته باشیم، یک نمونه نمایانگر داریم. اگر ویژگیهای نمونه متفاوت از جامعه باشد آنگاه یافته‌های مبتنی بر نمونه می‌تواند دارای اریبی بوده و نمی‌تواند به جامعه تعمیم داده شود. در نظرسنجی ها گاهی اوقات تلاش می‌کنند تا یک نمونه نمایانگر جامعه رأی دهنده  برای پاسخ به سوالات بدست آورند ، مثلا نسبتی از زنان و مردان‌ همانند آنچه در جامعه است.

به مثال مشکلات تنفسی توجه کنید. اغلب افراد موافقند که یک نمونه از مردان زیر 50 سال یا یک نمونه از زنان بالای 50 سال به خوبی نمی‌تواند نمایانگر جامعه ای باشد که ما می‌خواهیم نتایج را به آن تعمیم دهیم، در هر حال آیا هر گروهی از مردان بالای 50 سال قابل قبول است. اگر همه مردان را از یک روستای کوهستانی که در آنجا هوا بسیار پاکیزه است یا از یک معدنی که با غبار زغال‌سنگ آلوده است انتخاب کنیم محتملاً نمونه اریبی برگزیده‌ایم زیرا همه اعضاء جامعه در روستای کوهستانی یا شهر معدنی زندگی نمی‌کنند. بایستی نمونه‌ها را از محدوده‌ای از مناطق یا جائیکه موقعیت آن ویژگی خاصی  از نظر مکانی نداشته باشد که به عبارتی در آن اریبی ای از لحاظ مکانی  وجود ندارد برگزینیم. طبعاً سن را هم باید مورد توجه قرار داد. اگر نمونه ما فقط مردان بین 50 تا 60 سال را در بر داشته باشد آیا می‌توان نتایج را به جامعه ای تعمیم داد که افراد بسیار زیادی بالای 60 سال دارد؟

هر تفاوتی میان نمونه و جامعه می‌تواند منجر به خطای تعمیم گردد از قبیل: منطقه، سن، شغل و طبقه افراد، سیگاری باشند یا نه. تقریباً محال است که نمونه‌ای بدست آورد که واقعاً نمایانگر بوده و همه ویژگی های نمونه‌ مطابق ویژگی‌ جامعه باشد. به جای تسلیم شدن، محققین با منابع موجود تمام تلاش خود را کرده و سعی می‌کنند از هر تفاوتی میان نمونه و جامعه آگاه باشند. در اینجا قضاوت کاملاً آماری نیست بلکه به خبرگی محقق در موضوع نیز بستگی دارد.

 

یک پزشک فاکتورهایی را که قطعاً در مشکلات تنفسی مهم هستند دانسته بنابراین تلاش می‌کند نمونه‌ای نمایانگر در این فاکتورهای کلیدی با جامعه انتخاب کند مانند آنکه آیا شخص سیگاری است و نه فاکتورهایی مثل رنگ موی اشخاص که بعید است به تحقیق ارتباط داشته باشند. این به قضاوت حرفه‌ای محقق (و نه دانش‌آماری او) بستگی دارد که تصمیم بگیرد کدامین ویژگیهای نمونه باید مطابق جامعه بوده و کدامین فاکتورها را می‌توان نادیده گرفت. راه دیگر برای انتخاب یک نمونه که بتواند نمایانگر جامعه باشد از طریق انتخاب تصادفی است. در مورد نمونه‌های تصادفی، نمونه‌ها بصورت تصادفی از کل جامعه انتخاب شده‌اند در حالیکه هر عضو جامعه شانس یکسانی برای برگزیده شدن به عنوان نمونه داشته است. اگر 100 توپ پینگ پنگ برداشته بر روی آنها از شماره 1 تا 100 نوشته و آنها را در کیسه‌ای بیاندازیم. سپس بدون نگاه کردن 5 عدد از آنها را بیرون آوریم یک نمونه تصادفی با 5 عضو از میان جامعه از یک تا صد خواهیم داشت. به طور مشابه اگر یک نظرسنجی انجام دهیم می‌توانیم نامها را به صورت تصادفی از راهنمای تلفن برگزیده و برگه نظرسنجی را برای افراد بفرستیم. من نمی‌دانم که آن افراد چه کسانی هستند و آن را به شانس واگذار کرده‌ام. با انتخاب تصادفی، عمدا اریبی ای در نمونه رخ نمی دهد، زیرا هر نوع اختلاف میان نمونه و جامعه باید تصادفی بوده و بنابراین به هیچ‌وجه داده‌ها به صورت سیستماتیک تحت تأثیر قرار نخواهند گرفت.

اگرچه بعد از همه اینها نمونه‌گرفتنی که تصادفی نامیده می‌شود هم ممکن است کاملاً تصادفی نباشد. اگر به صورت تصادفی عابرهای خیابان را برای نظرسنجی انتخاب کنیم، همه افرادی را که از آن خیابان نمی‌گذرند استثناء کرده‌ایم. اگر نظرخواهی را ساعت 3 بعدازظهر انجام دهیم، افرادی را که در آن ساعت سرکار باشند در نظر نخواهیم گرفت. ممکن است اصلاً انتخاب تصادفی از جامعه ای که به آن علاقه‌مندیم نداشته باشیم. برگزیدن افراد به صورت تصادفی از روی راهنمای تلفن، همه افرادی را که در آن فهرست نشده‌اند استثناء می‌کند. اگر جامعه مورد نظر ، همه افراد ثبت شده در دفترچه تلفن باشند این عالیست در غیر اینصورت لازم است احتیاط کنم و مراقب باشم. اغلب اوقات جمع‌آوری نمونه تصادفی واقعی از جامعه موردنظر سخت است ولی یکبار دیگر ذکر می‌کنیم که باید با تصمیم‌گیری روی فاکتورهای کلیدی و گزینش تصادفی از میان این فاکتورهای تمام تلاش خود را بکنیم.

در بسیاری از حالات نمایانگر واقعی بودن یا تصادفی انتخاب کردن ممکن نیست اما یک محقق خوب روشن می‌کند که نمونه‌ها چگونه برگزیده شده‌اند تا دیگر محققین بتواند تصمیم بگیرند که آیا اریبی و انحراف سیستماتیکی در فاکتورهای مهم وجود دارد یا خیر؟ در انتها نکات مفیدی درباره نگرش عملگرایانه به نمونه‌گیری وجود دارد که بسیاری از محققین آنها را قبول دارند.

  • این تنها نمونه‌ای است که من دارم یا قادر به آزمایش آن هستم، بنابراین اگرچه ممکن است مشکلاتی در مورد نمونه‌گیری وجود داشته باشد، بهرحال آن را مورد آزمایش قرار خواهم داد. اگر نتایج جالب توجه بود می‌توانم با آگاهی از مشکلات بالقوه در نمونه، تحقیق بیشتری انجام دهم.
مقاله های مرتبط:   دیگرتوابع مالی اکسل

وقتی به سادگی نمونه در دسترس را برمی‌گزینیم به آن نمونه در دسترس می‌گویند. آزمایشات زیادی در روانشناسی وجود دارد که از دانشجویان روانشناسی به عنوان نمونه استفاده شده، که ممکن است نمایانگر مردم به صورت عمومی نباشند. اما بهرحال آنها برای آزمایش همیشه در دسترس هستند اگر نتیجه خیره‌کننده‌ای بدست آمد به خوبی می‌توان نمونه‌های غیر دانشجو را مورد آزمون قرار داد. علاوه بر آن ممکن است تصمیم بگیرید که هیچ دلیل جدی وجود ندارد که فرض کنیم دانشجویان متفاوت از عموم جامعه در آزمایشات جواب می‌دهند.

  • اگر نمونه ای با میزان اریبی موردنظر ما، یافت نشد، ارزشی ندارد که منابع بیشتری را صرف یافتن نمونه ای که نماینده بهتری باشد بکنیم.

اگر فرضیه ای را بررسی کنم که می‌گوید مردم بریتانیا تلویزیون را به رادیو ترجیح میدهند، ممکن است عمداً کج راهه رفته و افرادی را که الآن رادیو خریده‌اند انتخاب کنم. انتظار بر این است که این افراد نسبت به کل جامعه بیشتر به رادیو علاقه داشته باشند . اگر کشف کنم که آنها رادیو را ترجیح میدهند شگفت‌ زده نخواهم شد ولی اگر کشف کنم که حتی این افراد هم علیرغم خطای من در انتخاب علاقمندان رادیو برای نمونه، تلویزیون را به رادیو ترجیح می‌دهند آنگاه غیر معقول نخواهد بود که نتیجه‌گیری کنیم بقیه جامعه هم تلویزیون را ترجیح خواهند داد.

آماره های نمونه و پارامترهای جامعه

آماره ها و پارامترها

در اینجا ارزش دارد که چند اصطلاح را شرح دهیم. برای تشخیص بین جزئیات نمونه و جزئیات جامعه، کلمه آماره را برای ارجاع به ارقام نمونه و پارامتر را برای ارجاع به ارقام جامعه بکار می‌بریم، بنابراین میانگین نمونه یک آماره بوده ولی میانگین جامعه یک پارامتر است. (در فصلهای پیشین من در جایی که باید از کلمه پارامتر استفاده می‌کردم از کلمه آماره استفاده کردم دلیل آن بود که همه ما با کلمه آماره آشنا بودیم ولی با کلمه پارامتر خیر. در این بخش از کتاب است که معتقدم این جداسازی باید صورت گیرد). اصطلاح پارامتر برای ویژگیهای جامعه تفسیر می‌کند که چرا آزمونهایی را که تا فصل 16 به آنها نظر می‌افکنیم، آزمونهای پارامتریک می‌نامیم.  در این آزمونها آماره های نمونه را برای تخمین پارامترهای جامعه به کار می‌بریم. دو تا از مهمترین این آماره های نمونه، انحراف استاندارد نمونه و میانگین نمونه هستند.

انحراف استاندارد نمونه

از معیارهای پراکندگی یکی انحراف مطلق میانگین (انحراف متوسط از میانگین)  و دیگری انحراف استاندارد است که هر دو از تمامی نمرات استفاده می‌کنند. ولیکن روشن شده است که انحراف مطلق میانگین (انحراف متوسط از میانگین)   نمونه یک تخمین ناپایا از مقادیر موجود در جامعه است بدین دلیل هیچ رابطه مستحکمی بین آماره از نمونه و پارامتر از جامعه وجود ندارد. از طرف دیگر انحراف استاندارد از یک نمونه برآورد گری بسیار قابل اعتمادی برای مقادیر جامعه است. از این‌رو وقتی که انحراف استاندارد جامعه را نمی‌دانیم می‌توانیم انحراف استاندارد نمونه را برای برآورد آن به کار ببریم. این دلیل کلیدی برای ترجیح انحراف استاندارد در تحلیلهای آماری است.

فرمول انحراف استاندارد جامعه در فصل 1 گفته شد و علامت سیگما  را به آن اختصاص دادیم. حال اگر آن فرمول را به نمرات یا مقادیر بدست آمده از نمونه اعمال کنیم. انحراف استاندارد نمونه‌ای بدست ‌خواهیم آورد که مقدار واقعی موجود در جامعه را به خوبی برآورد نمی کند. برای بهبود برآورد ، فرمول را تغییر داده و همیشه انحراف استاندارد نمونه را با فرمول زیر حساب می‌کنیم.

 

توجه کنید از حرف “s” به جای  استفاده کردیم تا مشخص کنیم که این انحراف استاندارد نمونه است و نه انحراف استاندارد جامعه. همچنین حرف کوچک n را برای اندازه نمونه (تعداد نمرات در نمونه) و  را برای میانگین نمونه (به خاطر تشخیص آن از  یعنی پارامتر جامعه) به کار برده‌ایم.

دلیل استفاده از n-1 به جای n در فرمول کمی پیچیده است اما زمانی کمک می‌کند که بخواهیم مقاصد دیگر انحراف استاندارد نمونه و جامعه را مورد ملاحظه قرار دهیم. در موارد پیشین، خیلی راحت به دنبال انحراف متوسط گشته و آن را بر تعداد نمرات یعنی N تقسیم می‌کردیم. در موارد گذشته ما به دنبال یک برآورد خوب و نه متوسط بودیم. این برآورد اگر نه براساس تعداد نمره‌ها بلکه درجه‌ آزادی یعنی n-1 زده شود بسیار دقیق‌تر خواهد بود.

درجه آزادی به نمراتی توجه دارد که حاوی اطلاعات جدید می‌باشند. وقتیکه میانگین نمونه را از نمرات نمونه‌ها محاسبه کرده‌ایم مقداری از اطلاعات نمرات را به کار برده‌ایم. تعداد نمراتی که اطلاعات جدید دارند درجه‌ای از آزادی یعنی n-1 است.

یک مثال ساده این حقیقت را روشن می‌کند. اگر نمونه‌ای از 4 نمره (n=4) با یک میانگین نمره مساوی 5 داشته باشیم، پیش از آنکه شما بقیه را بدست آورید چه تعداد نمره را باید به شما بگویم؟ با 4 نمره و میانگین 5 جمع کل نمرات ما 20 خواهد شد. اگر چهار نمره را با  و  و  و  مشخص کنیم آنگاه

X1 + X2 + X3 + X4 = 20

اگر به شما بگویم که یکی از نمرات 6 است یعنی  این برای ما مشخص می‌کند که:

سه نمره دیگر می‌توانند هر سه نمره‌ای باشند که جمع آنها مساوی 14 شود در اینجا درجه‌ای از آزادی در اینکه چه می‌توانند باشند وجود دارد. اکنون نمره دیگر را به شما می‌گویم  آنگاه

هنوز هم مشخص نیست این دو عدد دیگر چه هستند و هنوز هم درجه‌ای از آزادی وجود دارد اگرچه می‌دانید جمع آنها برابر 10 است. نمره سوم برابر  2 است  .  با دادن مقدار این نمره اکنون می‌توانید مقدار نمره چهارم را که باید 8 باشد بدست آورید.

در مورد نمره چهارم هیچ درجه‌ای از آزادی برای متفاوت بودن وجود ندارد. نمره آخری تنها می‌تواند 8 باشد زیرا ما می‌دانیم که نمره میانگین 5 است. از زمانی که با اطلاع از میانگین نمونه آغاز نمودیم تنها سه (n-1) عدد از نمونه‌ها به ما اطلاعات جدیدی دادند. بنابراین در این نمونه‌ تنها سه (n-1) عدد از نمونه‌ها برای ما اطلاعات جدیدی دارند. در نتیجه در این نمونه تنها (n-1) درجه از آزادی وجود دارد.

به صورت کلامی، انحراف استاندارد نمونه ریشه (جذر) مجموع مربع‌ها تقسیم بر درجه آزادی است. به این اصطلاحات در اغلب تحلیلهای آماری برخورد خواهیم کرد. مجموع مربعها یعنی  نیازمند است که ابتدا میانگین نمونه را محاسبه کنیم اما ما میدانیم که  (که همان فرمول میانگین نمونه است. جمع همه نمرات نمونه تقسیم بر اندازه نمونه). اگر ما جای  را با  در فرمول مجموع مربعات عوض کنیم به فرمول معادلی برای انحراف استاندارد نمونه می‌رسیم که در آن نیازی نیست ابتدا میانگین را محاسبه کنیم.

در فرمول  جمع مربع نمرات است (ابتدا مربع هر نمره را حساب کرده و بعد آنها را جمع می‌کنیم) درحالیکه  مربع مجموع نمرات است (نمرات را با هم جمع کرده بعد از بدست آوردن مجموع، مربع آن را حساب می‌کنیم).

توجه کنید تقسیم بر درجه آزادی (n-1) به جای اندازه نمونه یعنی n وقتیکه نمونه بزرگ باشد تفاوت زیادی ایجاد نمی‌کند اما وقتیکه نمونه کوچک باشد تأثیر بسیار بیشتری خواهد داشت. تقسیم بر 99 به جای 100 نتیجه محاسبه را در قیاس با تقسیم بر 9 به جای 10 خیلی زیاد تغییر نخواهد داد. همانگونه که در زیر خواهیم دید نمونه‌های کوچک برای تخمین مقادیر جامعه به خوبی نمونه‌های بزرگ نیستند.

مقاله های مرتبط:   تاثیر تصویب لایحه زیرساخت در آمریکا از نگاه ادغام و تملیک شرکت ها (M&A)

میانگین نمونه `

همچنین می‌خواهیم که رقم مرکزی جامعه را بدانیم اما وقتیکه تنها یک نمونه از آن در اختیار داریم و جزئیاتی از جامعه در دست نیست، باید آن را بوسیله آماره از نمونه برآورد کنیم. از میان معیارهای گرایش مرکزی (مد، میانه، میانگین)، میانگین نمونه بدلیل تعادل بهترین برآورد برای مقدار جامعه (منظور همان پارامتر جامعه) است. اما تا چه اندازه میانگین نمونه یعنی  برآورد خوبی برای میانگین جامعه یعنی  می‌تواند باشد؟ این بستگی به اندازه نمونه دارد، هرچه اندازه نمونه بزرگتر باشد، میانگین نمونه برآورد بهتری برای میانگین جامعه خواهد بود. همچنین به نمونه خاصی که برمی‌گزینیم نیز دارد. در مثال زیر این  مسئله را می‌توانیم ببینیم.

جامعه نمرات بهره‌هوشی به صورت نرمال توزیع شده و 100 با  انحراف استاندارد 15 دارد. اگر ما از نمره بهره هوشی 20 نفر نمونه بگیریم آیا میانگین نمونه ما 100 خواهد بود. پاسخ محتملاً منفی است. دلیل آن است که نمونه ما ممکن است مشتمل بر افراد باهوشی باشد و بنابراین میانگین نمونه بالاتر از 100 خواهد بود. برعکس اگر نمونه ما شامل افراد کم قابلیت‌تر می‌باشد میانگین ‌ما پائین‌تر از 100 خواهد بود. بنابراین میانگین نمونه بسته به نمراتی که ما برای نمونه خود برمی‌گزینیم، محدوده متفاوتی خواهد داشت.

تصور کنید که قادر باشیم همه نمونه های ممکن از 20 نمره آزمون بهره هوشی را  انتخاب کرده و میانگین آنها را محاسبه کنیم: چه محدوده‌ای از مقادیر و با چه فراوانی بدست خواهیم آورد؟ میانگین همه این میانگین های نمونه چه خواهد بود؟

تا اینجا فقط به توزیع فراوانی نمرات نظر افکندیم اما اکنون دیگر نه به نمرات منفرد بلکه به میانگین همه نمونه های 20تایی علاقه‌مندیم. اگر این اطلاعات را بعنوان توزیع فراوانی رسم کرده، منحنی بوسیله میانگین‌های نمونه ها معین خواهد شد و ما توزیع میانگین های نمونه‌ها را خواهیم داشت. در نهایت نتیجه می‌گیریم که توزیع میانگین‌های نمونه ها ویژگی‌های مفید و جالبی دارد.

ابتدا درمی‌یابیم که هرچه نمونه‌های بیشتری داشته باشیم میانگین میانگین‌های نمونه ها به میانگین جامعه نزدیک‌تر می‌شود. وقتیکه همه نمونه‌های ممکن را برگزیدیم در می‌یابیم که میانگین، میانگین‌های نمونه ها همان میانگین جامعه است. بنابراین اگر ما میانگین‌های نمرات نمونه‌های 20تایی آزمون بهره‌هوشی را جمع‌آوری کنیم آنگاه میانگین همه میانگین‌های نمونه ها عدد 100 خواهد بود. ما میانگین، میانگین‌های نمونه را با علامت  (  در اندیس باید باشد)نشان میدهیم. حرف یونانی  نمایانگر میانگین جامعه و زیرنویس  نشان میدهد که میانگین یک جامعه از میانگین‌های نمونه ها است.

دوم، توزیع میانگین‌های نمونه ها گرایش به توزیع نرمال دارد. اگر جامعه نمرات به صورت نرمال توزیع شده باشد آنگاه توزیع میانگین‌های نمونه ها نیز به طور حتم به صورت نرمال توزیع شده است. حتی اگر نمرات جامعه به صورت نرمال توزیع نشده باشد توزیع میانگین‌های نمونه ها  هنوز به یک توزیع نرمال با یک برآمدگی در وسط و دو دنباله در دو طرف شبیه است. هرچه نمونه‌ بزرگتری برگزینیم توزیع ما به توزیع نرمال نزدیکتر خواهد شد. این مسئله را می‌توان به صورت ریاضی اثبات کرد و به آن قضیه حد مرکزی می گویند. حتی اگر نمرات به صورت نرمال نباشد، توزیع میانگین‌های نمونه‌ها وقتیکه نمونه‌ها به اندازه کافی بزرگ باشند به صورت توزیع نرمال خواهد بود. وقتیکه اندازه نمونه 30 یا بزرگتر باشد، توزیع نمونه‌ها صرف‌نظر از اینکه توزیع اصلی نرمال باشد یا خیر به صورت توزیع نرمال خواهد بود. همانگونه که اکنون خواهیم دید این نکته برای تحلیلهای آماری ما، بی‌نهایت مفید است.

سوم از آنجائیکه توزیع میانگین‌های نمونه‌ها یا به صورت نرمال و یا نزدیک‌ به آن بوده، می‌توانیم احتمال یافتن یک نمونه با مقدار میانگین خاص را با استفاده از محاسبه مقدار Z برای میانگین نمونه و یافتن مقدار آن در جدول توزیع نرمال استاندارد، بدست آوریم.

در انتها به سادگی می‌توانیم انحراف استاندارد توزیع میانگین های نمونه‌ها را با یک فرمول ساده که انحراف استاندارد نمره‌های منفرد را به کار می‌گیرد بدست آوریم. این انحراف استاندارد جدید خطای استاندارد میانگین نامیده و آن را با نماد  (  در اندیس باید باشد)نشان میدهیم. خطای استاندارد ، در واقع همان انحراف استاندارد میانگین نمونه است.

در این فرمول  انحراف استاندارد جامعه و n اندازه نمونه است.

خطای استاندارد از میانگین دقیقاً فاصله استاندارد یا خطایی است که میانگین نمونه از میانگین جامعه دارد. در آزمونهای آماری می خواهیم برآورد کنیم که تا چه اندازه میانگین نمونه به میانگین جامعه نزدیک است. خطای استاندارد است دقیقا این را به ما می‌گوید. توجه کنید که هرچه اندازه نمونه (n) بزرگتر شود خطای استاندارد کوچکتر خواهد شد. مجدداً تکرار می‌کنیم که این نشان میدهد که نمونه‌های بزرگتر برآورد بهتری از جامعه نسبت به نمونه‌های کوچکتر ارائه میدهند.

توزیع میانگین نمونه ها اطلاعات زیادی را بدون اینکه میانگین همه نمونه های ممکن را محاسبه کنیم که قطعا محاسبات طاقت فرساییست به ما میدهد.توزیع میانگین‌ نمونه‌ها یک توزیع نرمال (یا شبیه به آن) است با میانگین،  (  در اندیس باید باشد)، که مقدار مشابه آن از جامعه، میانگین جامعه، ،  و انحراف استاندارد ، و خطای استاندارد که از طریق انحراف استاندارد جامعه تقسیم بر  جذر اندازه نمونه. به دست می آید.

در مثال بهره‌هوشی، توزیع میانگین‌ نمونه‌ها برای نمونه‌های 20تایی، یک توزیع نرمال است که میانگین آن 100 بوده و خطای استاندارد آن  که برابر 35/3 می‌شود. از آنجائیکه یک توزیع نرمال داریم که میانگین و انحراف استاندارد آن را میدانیم، می‌توانیم مقدار Z را محاسبه کرده و مقادیر احتمالی را بدست آوریم. همانطور که در فصل گذشته برای یک نمره و یک جامعه انجام دادیم. اما اکنون آن را با میانگین نمونه و جامعه ای از میانگین‌ نمونه‌ها (توزیع نمونه ای میانگین) انجام می دهیم.

خلاصه

برای یادآوری می‌خواهیم اطلاعاتی راجع به جامعه‌ها و نه نمونه‌ها بدانیم اما معمولاً فقط می‌توانیم نمونه‌ها را مورد آزمون قرار دهیم. ما نمونه‌ها را برای آن می‌خواهیم که راجع به جامعه ها به ما بگویند. از این جهت باید در انتخاب نمونه‌هایمان مراقب باشیم زیرا می‌خواهیم از نمونه‌ها به جامعه تعمیم دهیم. میانگین نمونه و انحراف استاندارد نمونه، بهترین  برآورد ها از پارامترهای جامعه است اما به جای اندازه نمونه در محاسبات آنها از درجه آزادی برای بهبود  برآورد ها استفاده می‌کنیم. نمونه‌های بزرگتر  برآورد های بهتری از نمونه‌های کوچکتر از تصویر جامعه به ما مید‌هند. درجه آزادی وقتی نمونه کوچک باشد  تفاوت بیشتری را در برآورد نسبت به وقتی که نمونه بزرگ باشد ایجاد می کند.

می‌توانیم نمونه خود را با جامعه، با محاسبه توزیع میانگین‌ نمونه ها ، مقایسه کنیم. این به ما می‌گوید توزیع میانگین‌ نمونه‌ها شبیه چه چیزی خواهد بود اگر هر نمونه را به همان اندازه خودمان (n) از جامعه گرفته و میانگین آنها را بدست آوریم. توزیع میانگین‌ نمونه‌ها، توزیعی می‌شود که ما آن را می‌شناسیم زیرا بطور تقریباً قطعی به صورت نرمال توزیع شده و میانگینی‌ همانند میانگین جامعه دارد و نیز انحراف استانداردی، با نام خطای استاندارد که از تقسیم مقدار جامعه یعنی انحراف استاندارد جامعه  تقسیم بر جذر اندازه نمونه به دست می آید

از آنجائیکه توزیع نرمال بوده و میانگین و انحراف استاندارد آن را می دانیم می‌توانیم مقدار Z آن را محاسبه کرده و مقادیر محتمل آن را بدست آوریم. این دقیقاً همان چیزی است که ما برای آزمون فرضیه نیاز داریم.

در فصل‌های آتی می‌توانیم ببینیم که توزیع میانگین‌ نمونه ها برای آزمون فرضیه وقتی که یک نمونه و نه یک نمره منفرد را ملاحظه می‌کنیم، بی‌نهایت سودمند است.

 

اشتراک گذاری در شبکه های اجتماعی
@

لطفا شکبیا باشید...