رگرسيون و همبستگی خطی – بخش 2

20 دی 1400

دقیقه

در مقاله قبلی به بخش اول رگرسيون و همبستگی خطی پرداختیم. در این فصل به آموزش ادامه آن، در ادامه سری مقالات آموزشی آمار به زبان ساده می پردازیم.

رگرسيون و همبستگی خطی – بخش 2

در مقاله قبلی به بخش اول رگرسيون و همبستگی خطی پرداختیم. در این فصل به آموزش ادامه آن، در ادامه سری مقالات آموزشی آمار به زبان ساده می پردازیم.

رگرسیون خطی

در بعضی از کتابها همبستگی خطی از رگرسیون خطی با قرار دادن آنها در فصلهایی جداگانه تفکیک می شوند. این کار شاید باعث مرتب تر شدن نوع بیان شود اما نباید مانع این حقیقت شود که همبستگی و رگرسیون مانند دو طرف یک سکه هستند. رگرسیون خطی بیان کننده ی چگونگی بیان رابطه ی نزدیک دو متغیر تحت یک خط مستقیم صحبت می کند. زمانی که همبستگی بالایی برقرار باشد (بیشتر یا کمتر) با رسم نمودار پراکنش می توان از چگونگی ایجاد رگرسیون خطی آگاهی یافت. اما زمانیکه میزان همبستگی ضعیف تر باشد نقاط بیشتر پراکنده هستند تا اینکه متمرکز روی یک خط باریک باشند. حال این سؤال مطرح است در صورتیکه همبستگی کمی برقرار باشد باز هم می توان گفت که رگرسیون خطی بین متغیرها برقرار است و خط به چه صورت است؟

همبستگی خطی اطلاعاتی از چگونگی نزدیک  بودن رابطه ی دو متغیر به یک خط مستقیم را می دهد. رگرسیون خطی، خطی مستقیم است که به بهترین وجه رابطه ی خطی میان دو متغیر را شرح می دهد. زمانی که همبستگی با میزان بالایی برقرار باشد با رسم نمودار پراکنش قادر خواهیم بود (به صورت بیشتر و یا کمتر) ببینیم خط رگرسیونی کجا قرار خواهد گرفت. اما زمانی که همبستگی ضعیف باشد نقاط به صورت پراکنده گسترده می شوند به گونه ای که روی یک  نوار باریک قرار نگرفته و تشخیص خط رگرسیونی به واضحی حالت قبل نخواهد بود. در چنین حالتی میزان همبستگی پایین بوده و سوالی که مطرح است این است که آیا رابطه ی خطی میان متغیرها به اندازه ی یک خط وجود دارد؟

با استفاده از خط رگرسیونی می توان نمرات یک متغیر را با استفاده از دیگر متغیر پیش بینی کرد. در بخش قبل مشاهده کردیم که r در واقع شیب خط رگرسیونی در ارتباط با نمرات استاندارد z است  اما این آنچه که دنبالش هستیم نمی باشد. ما علاقه مند به یافتن خطی هستیم که به بهترین نحو به نمرات واقعی برازش داده شود و بتوان به صورت مستقیم و بدون اینکه بخواهیم  به نمرات استاندارد z تبدیل کنیم به پیش بینی نمرات بپردازیم.

در این حال اگر چه تا حدودی مشکل است اما نیاز به اندکی محاسبات ریاضی می باشد. فرمول خط رگرسیونی مستقیم میان دو متغیر X و Y به صورت Y=a+bX است که a و b مقادیری ثابت هستند (اگرچه X و Y متغیرند ولی آنها همیشه ثابت هستند) و X و Y هم دو متغیر مورد نظر می باشند. برای a و b هر مقدار عددی ای می توان در نظر گرفت و پس از آن با قرار دادن این مقادیر و همچنین مقدار X انتخابی در معادله مقدار Y محاسبه می شود؛ و هر بار با رسم کردن X و Y در یک نمودار نقاط در امتداد یک خط مستقیم قرار خواهند گرفت. به عنوان نمونه در صورتیکه a=2 و b=3 انتخاب شوند خطی مستقیم به صورت Y = 2 + 3X بدست می آید. برای X هر مقداری مثلا 4 را انتخاب کرده و در نهایت خواهیم داشت Y = 2 + (3 * 4) = 14.

این کار را برای هر X ی می توان انجام داد و پس از آن اگر X ها و Y ها در نموداری رسم شوند مشاهده خواهیم کرد که در امتداد خطی مستقیم قرار خواهند گرفت. زمانی که X = 0 در آن صورت  Y = a (در مورد مثال ذکر شده زمانی که X = 0, Y = 2)، بنابراین a نقطه ای است که خط مستقیم برازش شده محور Y را قطع می کند. شیب خط برابر با مقدار ثابت b بوده که بیان کننده ی چگونگی صعود و یا نزول شیب خط است و دقیقاً مشابه با قدم زدن در یک جاده مستقیم است که گاهی اوقات جاده به سمت بالا رفته و در برخی نقاط دیگر باید از تپه ای پایین رفت. چنانچه مقدار شیب بیش از 1 بدست آید گفته می شود خط شیب دار است و چنانچه محور X را در نظر بگیریم بدین معنی است که در امتداد محور Y در حال بالا رفتن از تپه ای هستیم. با وجود کمترین مقدار برای شیب خط به طور نسبی نزدیک محور X خواهد بود.

مقاله ی مرتبط:   آمار به زبان ساده – آزمون فرضیه با یک نمونه

شیب کمتر از یک بسیار سطحی بوده و هر چقدر در راستای محور X جلو رویم به ازای هر واحد X مقدار کمی به Y اضافه شده و خط بیشتر نزدیک محور X است تا محور Y . اکنون تلاش کنید با داشتن محور افقی X و محور عمودی Y معادلات تعدادی از خطوط مستقیم را با استفاده از چندین نقطه برای هر خط بسازید.

جهت بدست آوردن خط  رگرسیونی دو متغیر تحت مطالعه می بایست از معادلات خط مستقیم استفاده شود. در صورتیکه همبستگی کاملی (r=+1 or -1 )  میان متغیرها برقرار باشد کلیه نقاط در نمودار پراکنش در امتداد خط  مستقیمی که در واقع همان خط رگرسیونی است قرار می گیرند. اما در بسیاری موارد همبستگی به طور کامل برقرار نبوده و خط رگرسیونی وضوح کمتری دارد.

در مدل خطی فرض می شود که با داشتن تغییرات تصادفی نقاط در امتداد یک خط مستقیم قرار می گیرند؛ بنابراین نیاز است با توجه به مجموعه ی داده ها ی موجود خط مستقیمی را که بیشترین نزدیکی به داده ها را دارد بدست آوریم.  قابل ذکر است که همبستگی معنی دار اطمینانی از وجود یک رابطه ی خطی حقیقی میان دو متغیر را می دهد. اما زمانی که همبستگی ضعیفی برقرار باشد باز هم می توان خط رگرسیونی را بدست  آورد  ولی با این تفاوت که دیگر رابطه ی خطی به طور قطع یقین برقرار نیست.

در ابتدا باید متغیری را که می خواهیم در مورد آن پیش بینی انجام دهیم (در مورد مثال ذکر شده عملکرد آزمون، متغیر Y ) و متغیری که برای پیش بینی از آن استفاده می شود (زمان مطالعه، متغیر X) مشخص کنیم. اولین مرحله در منطق تجزیه و تحلیل رگرسیون، فرض صحیح بودن متغیر X است و در واقع عدم قرار گرفتن مقادیر Y در امتداد خط مستقیم به علت خطای تصادفی است. تجزیه و تحلیل ها در ابتدا روی مقادیر X صورت گرفته و به صورت فرمول هایی که در ادامه می آیند بیان می شوند:

Y=(X روی) رگرسیون + خطا

Y=Y’+E

فرض می شود که مقادیر واقعی Y ترکیبی از مقادیری که در امتداد خط مستقیم قرار می گیرند(Y’) بعلاوه انحراف ايجاد شده از خط توسط خطاي تصادفي است (E). آنچه اكنون مورد نظر است اين است كه كدام يك از مقادير Y كاملاً روي خط مستقيم قرار گرفته و در نتيجه ي آن خطاي تصادفي حذف بشود. مقادير Y’ به صورت Y′ = Y − E كدام ها هستند؟ بنابراين خط مستقيمي كه به دنبال آن هستيم به صورت زير معرفي مي شود:

Y′ = a + bX

كه خط رگرسيوني Y روي X بدون وجود خطا (E) است. اكنون مي بايست به دنبال مقادير مناسب a و b بود.

در مرحله ي بعد تحليل از خواص “بهترين خط برازش شده” با كمترين مقاديرخطا استفاده مي شود؛ و ما به دنبال خطي نيستيم كه از همه ي نقاط نمودار پراكنش فاصله داشته باشد بلكه خط رگرسيوني مي بايست نزديك ترين خط مستقيم به مجموعه ي نقاط داده ها باشد.

رگرسيون و همبستگی خطی

شكل 20.3. يافتن خط رگرسيوني با استفاده از روش حداقل مقادير خطا (E)

در واقع خطي بايد يافته شود كه كوچكترين مقادير E يعني  E = Y – Y’   را توليد كند. روش محاسباتي و رياضي انجام اين كار حداقل كردن E است كه E همان فاصله ي داده هاي واقعي از خط رگرسيوني مي باشد. نمودار 20.3 نمود اين امر در مورد مثال ذكر شده است.

مقاله ی مرتبط:   آنالیز واریانس یک عاملی برای داده های رتبه ای – بخش 2

بنابراين مقادير حداقل E تحت روشي با عنوان روش حداقل مربعات رگرسيون خطي بدست مي آيند. جهت بدست آوردن ∑ E = ∑(Y Y′)  بايد براي تمامي آزمودني ها مقادير خطا (Y-Y’) را با هم جمع كرد اما مشكلي كه وجود دارد اين است كه برخي از اين مقادير مثبت و تعدادي ديگر منفي بوده و يكديگر را خنثي مي كنند (همچنانكه از نمودار 20.3 دريافت مي شود)، و مقدار خطا از بين مي رود. جهت اجتناب از اين

سرانجام با جايگزين كردن a و b توسط مقادير واقعي آنها در فرمول، خط رگرسيوني به صورت زير فرمول زير  بيان مي شود:  Y’=34.41 + 0.74X كه اعداد آن تا دو رقم اعشار گرد شده اند.

اكنون از اين فرمول با استفاده از مقادير X (زمان مطالعه) جهت پيش بيني كردن مقادير Y (عملكرد آزمون) استفاده مي شود. در بخش بعد جدولي ارائه شده كه در آن به پيش بيني مقادير Y با استفاده از رگرسيون روي X پرداخته شده است.

از خط رگرسيوني براي پيش بيني مقاديري ديگر نيز مي توان استفاده كرد. به عنوان مثال هيچ كدام از دانشجویان 5 ساعت در هفته مطالعه نمي كنند. حال سؤال اين است با اين زمان مطالعه دريافت چه نمره E پيش بيني مي شود؟ با استفاده از فرمول خواهيم داشت : Y’=34.41 + (0.74 X 35)=60.31 . بنابراين انتظار مي رود با زمان مطالعه ي 35 ساعت در هفته نمره اي برابر با 60.31 در آزمون دريافت شود.

ارتباط r و شيب خط رگرسيوني

تاكنون b، يعني شيب خط رگرسيوني و r، ضريب همبستگي و در واقع شيب خط رگرسيوني نمرات z را يافتيم. رابطه اي ساده ميان اين دو شاخص برقرار است:

پيش بيني X با استفاده از Y

در تحليل رگرسيوني هيچگونه راه منطقي ديگري وجود ندارد كه منجر به نتيجه اي متفاوت شود، جز اينكه فرض كنيم مقادير Y داده شده هستند و اين مقادير X هستند كه به واسطه ي خطا از خط رگرسيوني انحراف پيدا مي كنند. به طريقي مشابه از همين راه منطقي جهت پيش بيني X با استفاده از

رگرسيوني (Y روي X، و X روي Y ) را رسم كنيم مشاهده خواهيم كرد كه بسيار به هم نزديك خواهند بود. (در مورد مثال ذكر شده شكل 20.4 را ببينيد). زيرا هرچه همبستگي قوي تر باشد باعث مي شود كه خطوط رگرسيوني بيشتر به هم نزديك شوند. با وجود همبستگي كامل خطوط دقيقا مشابه يكديگر مي شوند. 296 هرچه همبستگي ضعيف تر شود خطوط بيشتر از هم فاصل گرفته تا نهايت اينكه r=0 و خطوط متعامد هستند، بدين معني كه در نهايت زاويه به يكديگر بوده و هيچگونه ارزش پيشگويي نداشته زيرا همبستگي خطي ميان دو متغير وجود ندارد.

شكل 20.4. رگرسيون Y روي X و رگرسيون X روي Y

تعبير همبستگي و رگرسيون

زماني كه ضريب همبستگي معني دار مي شود مي بايست در تعبير آن بسيار دقت نمود. اولین نکته قابل توجه این است که همچنانكه N افزايش مي يابد جهت معنی داری r، مقداری کوچک برای r مورد نیاز است. در آزموني يك دنباله اي با درجه ي آزادي 70 و يا در آزمون دو دنباله اي با درجه آزادي 100   (در p= 0.05) زماني كه r مقداري به كوچكي 0.2 باشد باز هم معني دار است. در مورد ضرایب همبستگی همین که این مقدار بزرگ بدست آید جهت معنی داری کفایت می کند و یا اینکه باید معنی داری آن دقیقاً مورد برسی قرار گیرد؟ يكي از روشهاي تصميم گيري در مورد اهميت همبستگي توجه به اين مسئله است كه تغييرات نمرات يك متغير تا چه ميزان مي تواند توسط تغييرات نمرات ساير متغيرها توضيح داده شود (پيش بيني شود). در صورتيكه ضريب همبستگي معني دار باشد ولي تنها بتواند تغييرات بسيار جزئي را توضيح دهد ازرش چنداني در پيش بيني ندارد.

مقاله ی مرتبط:   آنالیز واریانس یک عاملی برای داده های رتبه ای – بخش 1

مي گويد كمتر از نيمي از تغييرات Y توسط تغييرات در X توضيح داده مي شود (و بالعكس).  همچنين در همبستگي برابر با 0.2 تنها 0.04 از تغييرات Y به وسيله ي رگرسيون روي X تبيين مي شود؛ از طرفي با وجود اهميت آماري اين مسئله ناچار به پذيرفتين X به عنوان نوعي پيش بيني كننده ي Y هستيم.

مسائلي در ارتباط با همبستگي و رگرسيون

زماني كه همبستگي بررسي مي شود بايد از هم واريانس بودن داده ها اطمينان حاصل كرد. هم واریانسی اساسا بدان معنی است که رابطه بین دو متغیر در تمام نقاط يكسان باقی مانده و مقادير به طور يكنواخت اطراف خط رگرسيوني پراكنده مي شوند. نقاط منفرد و خوشه ها هر دو تأثيري قابل توجه روي ضريب همبستگي دارند و خصوصاَ رماني مقادير متغيرها در دامنه ي محدودي به كار روند، باعث پنهان شدن روابط متغيرهاي تحت بررسي مي شوند.

نكات ذكر شده را با ارائه يك مثال روشن مي نماييم. محققي پيش بيني مي نمايد كه لبخند به روي لب داشتن دستياران فروش به مشتريها در تعداد كالاهاي به فروش رسيده تأثيري بسزا دارد. جهت بررسي اين امر تعداد لبخندهاي هر كدام از دستياران فروش از زمان خوش آمد گويي به آنها تا زماني كه مشتري تصميم به خريد كالا و يا عدم آن مي كند توسط دوربين هايي در طول يك روز مشخص ضبط مي شوند. محقق مي خواهد همبستگي ميان ميانگين زمان لبخند به مشتري (به دقيقه) را براي هر كدام از دستياران فروش و تعداد كل كالاهاي به فروش رسيده هر كدام از دستياران فروش در طول روز را محاسبه كند. نتايج 9 فروشنده در جدول زير به نمايش درآمده است.

با محاسبه ي ضريب همبستگي با در نظر گرفتن 9 فروشنده خواهيم داشت r = 0.69  SP=43.65 , SSx=6.28 , SSy=627.56 , df=7

كه در سطح معني داري p<0.05 معني دار است (با توجه به جدول A.9 ضميمه ملاحظه مي كنيم كه در آزمون يك دنباله اي df=7, p=0.05,r=0.5822). با توجه به نمودار پراكنش شكل 20.6 مشاهده مي كنيم كه شركت كننده ي 9 جداي از سايرين است. بدون در نظر گرفتن اين فرد خواهيم داشت

SP=20.80 , SSx=4.00 , SSy=400.00 ,df=6 ,r=0.52

كه ديگر معني دار نمي شود (زيرا در آزمون يك دنباله اي r=0.6215,p=0.05,df=6 ). در نتيجه اثر وجود شركت كننده ي 9 باعث به اشتباه معني دار شدن همبستگي مي شود، در نتيجه عليرغم معني دار شدن آماري آن در عمل قابل استفاده نيست. اين مسئله نشاندهنده ي اثر قوي “مشاهده ي پرت” بر همبستگي است.

مثال کاربردی

از دو معلم درخواست شد تا هر دو نفر در مورد متغیر “چگونگی خوب انجام دادن امور تحصیلی در دانشگاه” در فاصله 0 تا 20 بر حسب بعید تا احتمال زیاد به شش نوجوان امتیازی بدهند. نتایج در جدول زیر نشان داده شده اند. آیا همبستگی مثبتی میان رتبه دادن معلمان وجود دارد؟

از آنجاییکه پیش بینی در مورد همبستگی مثبت است با آزمونی یک دنباله ای مواجه هستیم. با توجه به جدول A.10 ضمیمه در مورد آزمون یک دنباله ای خواهیم داشت، rS = 0.829, p = 0.05, N = 6. مقدار محاسبه شده بیشتر از مقدار جدول نیست و نتیجه می گیریم که همبستگی معنی داری میان رتبه ها وجود ندارد. (باید توجه داشت که با وجود تعداد کم آزمودنی ها، جهت معنی داری ضریب همبستگی  نیاز به یک مقداری که از نظر عددی بالا باشد است.)

جهت بررسی جزئیات بیشتر در مورد چگونگی محاسبه ی همبستگی خطی و نیز رگرسیون خطی با استفاده از پکیج آماری SPSS به  فصل 15 کتاب Hinton et al. (2004) مراجعه شود.

مترجمین: دکتر هدی کامرانی فر – حسن اسکندری نیا

اشتراک گذاری در شبکه های اجتماعی
@

لطفا شکبیا باشید...