رگرسيون و همبستگی چندگانه

27 دی 1400

دقیقه

تا اين بخش كار همبستگی به صورت ميان دو متغير مورد بررسي قرار گرفت. در حالي كه علاوه بر آن مي توان همبستگي را ميان سه و يا تعداد بيشتري متغير مطرح كرد؛ به عنوان مثال ميان سطح استعداد (IQ)، نمرات مدرسه و نمرات دانشگاهي در مقابل عملكرد شغلي. تحليل چند متغيره به معناي بررسي چند متغير به صورت همزمان است. در اين فصل به بررسي رگرسيون و همبستگي با بيش از دو متغير پرداخته مي شود

رگرسيون و همبستگی چندگانه

در مقاله قبلی به بخش دوم رگرسيون و همبستگی خطی پرداختیم. در این فصل به آموزش رگرسيون و همبستگی چندگانه، در ادامه سری مقالات آموزشی آمار به زبان ساده می پردازیم.

 

مقدمه ای بر تحليل چند متغيره

تا اين بخش كار همبستگي به صورت ميان دو متغير مورد بررسي قرار گرفت. در حالي كه علاوه بر آن مي توان همبستگي را ميان سه و يا تعداد بيشتري متغير مطرح كرد؛ به عنوان مثال ميان سطح استعداد (IQ)، نمرات مدرسه و نمرات دانشگاهي در مقابل عملكرد شغلي. تحليل چند متغيره به معناي بررسي چند متغير به صورت همزمان است. در اين فصل به بررسي رگرسيون و همبستگي با بيش از دو متغير پرداخته مي شود كه مسئله اي قابل توجه است زيرا اغلب مجموعه اي از داده ها و عوامل در كنار هم بررسي شده(مانند پرسشنامه يا یک پيمايش) و علاقه مند به سنجش ميزان ارتباط آن ها هستيم. به عنوان مثال ممكن است بخواهيم ميزان ارتباط ميان كيفيت مسكن، تراكم مسكن، شبکه های حمایت اجتماعی و آلودگی هوا بر سلامت را محاسبه كنيم.

همبستگی جزئی

در فصل قبل مثال هايي جهت بررسي معني داري ارتباط ميان زمان مطالعه و عملكرد آزمون ارائه شد. ممكن است بخواهيم اثر متغير سومي، به عنوان مثال سطح هوش را نيز در همبستگي در نظر بگيريم. در صورتيكه متغير هوش با متغير زمان مطالعه همبستگي مثبتي داشته باشد بدين معني است كه دانشجویان هوشمند تر بيشترين زمان را صرف مطالعه مي كنند، همچنين چنانچه هوش با عملكرد آزمون نيز ارتباط مثبتي داشته باشد به معناي اين است كه دانشجویان باهوش تر نمرات بالاتري را در آزمون دريافت مي كنند. بنابراين همبستگی میان زمان مطالعه و عملکرد آزمون به سادگی ممکن است تحت تأثیر عامل سومی تحت عنوان هوش قرار گیرد. در مواردی مشابه این حالت، به دلیل وجود همبستگی میان هر کدام از عوامل مورد بررسی با عامل هوش، ممکن است رابطه ی بدست آمده میان زمان مطالعه و عملکرد آزمون حقیقی و قابل اطمینان نباشد. بدین معنی که دانشجویان باهوش تر هم مدت زمان بیشتری صرف مطالعه کرده و هم نمرات بالاتری در امتحان دریافت می کنند. اگر اثر هوش حذف شود، رابطه ی زمان مطالعه به عملکرد آزمون ممکن است مخدوش شود.

بايد توجه داشت كه همبستگي بيانگر علي بودن يك رابطه نيست. به عنوان مثال ممكن است تعداد خانه هاي ساخته شده در يك دوره يكساله ارتباط مثبتي با ميزان آلودگي شهر داشته باشد. در صورتيكه ادعا كنيم خانه ها سبب آلودگي هستند و يا آلودگي بيشتر در نتيجه ي ساختمان هاي بيشتر منتج مي شود، برداشتي اشتباه داشته ايم. در اين حال احتمال مي رود كه همبستگي متأثر از  عامل سومي چون جمعيت باشد كه با هر دو عامل ذكر شده در بالا رابطه داشته باشد. تعداد خانه ها و همچنين آلودگي بيشتر شايد نتيجه ي  افزايش جمعيت (و فعاليت هاي بشري) باشد. همبستگي ميان خانه ها و آلودگي به سادگي تحت تأثير عامل سومي بوده كه به اندازه ي خود سهم مهمي در همبستگي دارد.

جهت پاسخ به سؤال ميزان اثر هوش روي همبستگي زمان مطالعه و عملكرد آزمون نياز است همبستگي متغير زمان مطالعه و عملكرد آزمون پس از برطرف کردن اثر هوش مورد آزمون قرار گيرد. در صورتيكه همبستگی مخدوش شود دلالت بر ناشي شدن آن از عامل سوم دارد. اين كار با استفاده از همبستگي جزئي انجام مي پذيرد. در مرحله ي اول مي بايست ميزان همبستگي عامل هوش با زمان مطالعه و عملكرد آزمون به صورت جداگانه محاسبه شود. جهت انجام اين كار ميزان هوش دانشجويان با برگزاري آزموني اندازه گيري شده است. نتايج حاصل از اين آزمون به همراه زمان مطالعه و نمره آزمون در جدول زير نمايش داده شده است.

همبستگی

با استفاده از روش هاي ذكر شده در اين فصل ضرايب همبستگي زير محاسبه خواهند شد:

زمان مطالعه و عملكرد آزمون r = 0.72

زمان مطالعه و هوش r = 0.37

عملكرد آزمون و هوش r = 0.48

همبستگي ها نشان مي دهند كه هوش رابطه ي مثبتي با دو متغير ديگر دارد و همين امر دليل ادامه ي بررسي ها است.

مقاله ی مرتبط:   توابع COUNTIF،COUNTIFS،COUNT،COUNTA و COUNTBLANK

فصل قبل را به ياد بياوريد كه در آن رگرسيون اجازه ي پيش بيني يك متغير را با استفاده از متغير دوم مي داد. در صورتيكه بين زمان مطالعه و هوش رابطه ي رگرسيوني برقرار شود با داشتن زمان مطالعه مي توان به پيش بيني ميزان هوش پرداخت. بنابراين تفاوت مقادير واقعي زمان مطالعه و پيش بيني هايي كه توسط رگرسيون بدست مي آيند در واقع همان مقادير زمان مطالعه پس از حذف اثر عامل هوش هستند. به اين تفاوت ها در اين قسمت به جاي خطا، اصطلاح باقيمانده ها اطلاق مي شود؛ زیرا اصطلاح خطا زمانی به کار می رود عامل هوش توانایی لازم برای پیش بینی زمان مطالعه را ندارد، اما در این مورد این مقدار همان شاخصی است که به دنبال آن هستیم و در واقع مقداری است که پس از حذف اثر هوش در متغیر زمان مطالعه باقیمانده است.  (در واقع تغییرات باقیمانده در نمرات)

با برازش رگرسيون زمان مطالعه به هوش معادله ي زير به دست مي آيد:

24.50- هوش *0.044 = زمان مطالعه

اكنون با داشتن اين رگرسيون مقادير پيش بيني شده ي زمان مطالعه بدست آمده و پس از تفاضل آنها از مقادير واقعي باقيمانده ها را خواهيم داشت. جدول زير نشان دهنده ي اين امر است (به تذكر 19 توجه داشته باشيد).

با اين كار اثر هوش از زمان مطالعه حذف مي شود. اكنون نياز است اثر هوش را از عملكرد آزمون نيز حذف کنیم كه مشابه حالت قبل ابتدا رگرسيوني ميان عملكرد آزمون و هوش برازش داده و معادله ي زير را خواهيم داشت:

15.60-هوش * 0.59 = عملکرد آزمون

در اين مورد نيز از اين معادله رگرسيوني جهت استخراج باقيمانده ها در عملكرد آزمون استفاده مي شود.

اكنون قادريم همبستگی باقيمانده هاي متغير زمان مطالعه را با باقيمانده هاي نمرات آزمون، در حاليكه اثر هوش از هر دو عامل حذف شده است، بدست آوریم. همبستگي مقادير بدست آمده r برابر با 0.665 نتيجه مي دهد كه به دليل اينكه ارتباط متغیر زمان مطالعه و عملکرد آزمون را با در نظر گرفتن اثر هوش در مدل بدست آورده، آن را همبستگي جزئي نامند. در مورد اين مثال مشاهده مي شود كه مقدار همبستگي كاهش يافته است اما هنوز معني دار است (در p = 0.05)، و نتيجه مي شود كه همبستگي اصلي تنها در اثر سومين عامل يعني هوش ايجاد نشده است و ملاحظه می شود كه پس از در نظر گرفتن اثر هوش، باز هم رابطه ي معني داري ميان مقدار زمان صرف شده جهت مطالعه و عملكرد آزمون وجود دارد.

آنچه را كه تاكنون انجام داده ايم مي توان با نمايشي از تغييرات مقادير هر كدام از متغيرها در دايره اي نشان داد. چنانكه در شكل 21.1 مشاهده مي شود سه دايره با هم همپوشاني دارند. قسمت SE+SIE بخشی از تغییرات متعلق به عملكرد آزمون توضيح داده شده توسط زمان مطالعه را در بر دارد، قسمت SI+SIE مربوط به زمان مطالعه توضيح داده شده توسط هوش و IE+SIE سهم عملكرد آزمون تبيين شده توسط هوش را پوشش مي دهد.

اندازه ي اين ناحيه ها را با محاسبه ي  r^2 هر كدام از همبستگي های مرتبط مي توان بدست آورد. زماني كه اثر هوش حذف مي شود در واقع بخشي از دايره كه در آن عامل هوش باشد (I+SI+SIE+IE) از قسمت مربوط به تغييرات زمان مطالعه يعني S+SE و همچنين تغييرات مربوط به عملكرد آزمون برابر با  E+SE كم مي شود. همبستگي جزئي زمان مطالعه و عملكرد آزمون با برطرف کردن اثر هوش ما را به ناحیه ی SE به عنوان تغییرات باقیمانده از عملکرد آزمون که توسط تغییرات باقیمانده از زمان مطالعه توضیح داده شده اند، هدایت می کند.

شكل 21.1 چگونگي تغييرات مقادير سه متغير

خوشبختانه زماني كه ضرايب همبستگي مربوط به كليه متغيرها را به صورت جداگانه داشته باشيم، روشي ساده تر جهت محاسبه همبستگي جزئي وجود دارد كه در آن ديگر نيازي به يافتن باقيمانده ها نيست. جهت راحتي كار و گسترش تعداد متغيرها به جاي X و Y، آنها را با شماره هاي 1 ، 2 و 3 نامگذاري مي كنيم. كه در مورد مثال ذكر شده عملكرد آزمون را 1، زمان مطالعه را 2 و هوش را 3 نامگذاري مي كنيم.

 

 

قابل ذكر است كه اين فرمول حاوي ضرايب همبستگي جزئي با حذف اثر متغير 3 مي باشد. با ادامه دادن چنين منطقي مي توان اثر متغيرهاي 5 ، 6 و غيره را نيز برطرف کرد. چنانچه دقت شود اين فرمول فرضي كليدي در دل خود دارد و آن همبستگي خطي متغيرهاي 1 و 2 است. مدل خطي قابل بسط به كليه ي متغيرها است. در صورت معتبر نبودن چنين فرضي نمي توان اثر كليه ي متغيرهاي مورد نظر را تعدیل کرد و تنها متغيرهايي كه رابطه خطي آنها برقرار باشد در محاسبه همبستگي جزئي قابليت تعدیل شدن را دارند.

مقاله ی مرتبط:   بکار گیری ابزار Solver برای مشخص‌کردن ترکیب بهینه محصولات

همبستگی چند متغيره

از همبستگي جزئي جهت محاسبه ي همبستگي چند متغيره استفاده مي شود و در واقع ضريب همبستگي چند متغيره ،يعني R بيانگر چگونگي ارتباط سه متغير يا بيشتر با يكديگر است. در اين قسمت نيز تغييراتي در زمينه ي روش نامگذاري وجود دارد كه در ادامه بيان خواهند شد. بدين صورت كه متغيري خاص را در نظر گرفته و آن را Y يعني متغير وابسته ناميده و ميزان و چگونگي ارتباط آن با متغيرهاي باقيمانده سنجيده مي شود. (همچنانكه در بخش هاي بعد در بحث رگرسيون چند متغيره خواهيم ديد) Y نيز متغيري است كه اغلب علاقه مند به پيش بيني آن هستيم. درمورد مثال مورد بررسي فرض كنيم علاقه مند به پيش بيني مقادير عملكرد آزمون باشيم. بنابراين ساير متغيرها را 1 ، 2 ، 3 و…. مي ناميم. كه در مورد اين مثال فقط دو متغير ديگر يعني زمان مطالعه و هوش باقي مي مانند كه به ترتيب متغيرهاي 1 و 2 ناميده مي شوند.

جهت سهولت توضيح دادن، به جاي R با توان دوي ضريب همبستگي يعني  R^2 ، به نشانه ي ضريب تعيين همبستگي چند متغيره كار خواهيم كرد. هر کدام از متغیرهای 1 ، 2 ، 3 و غیره را به نوبه خود می توان انتخاب کرده و  بخشی از تغییرات متغیر Y را که توسط هر کدام از آنها توضیح داده می شود و توسط سایر متغیرهای پیشین تبیین نشده است را بدست آورد. چنانچه این مقادیر با هم جمع شوند، معیاری از میزان تغییرات توضیح داده شده متغیر Y توسط ترکیبی از سایر متغیرها را ارائه می دهد.

 

همبستگی چند متغیره هستند. مشکل استفاده از این راه این است که در صورت اضافه شدن هر متغیر می بایست تغییرات Y  از آن حذف شود که باعث طولانی تر شدن فرمول می شود. در هر صورت باید توجه داشت که در صورت اضافه شدن متغیر خطر افزایش همبستگی با علل تصادفی و نه به خاطر وجود روابط حقیقی افزایش خواهد یافت. بنابراین زمانی که تعداد زیادی از متغیرها به عنوان پیش بینی کننده وجود دارند می بایست در محاسبه ی همبستگی چند متغیره توجه بیشتری داشت و به نوعی افزایش نادرست ایجاد شده توسط متغیرهای اضافه شده را جبران کرد. (برنامه های کامپیوتری آماری مانند SPSS برای این کار مقداری با عنوان “ضریب همبستگی تعدیل شده” را ارائه داده اند- هینتون و دیگران. 2004 را ببینید.)

رگرسیون چند متغیره

رگرسیون خطی را برای بیش از دو متغیر نیز می توان انجام داد. در این بخش نیز نیاز است به نامگذاری متغیرها بپردازیم. متغیر وابسته را Y نامیده و سایر متغیرها، متغیرهای مستقل و یا پیش بین هستند که در پیش بینی Y به کار می روند. به جای آنچه در رگرسیون خطی یک متغیره داشتیم در این بخش با تعدادی از متغیرها شامل X1, X2, . . . , Xk  در رگرسیون مواجهیم که در آن  k تعداد متغیرهای پیش بین است. جهت بدست آوردن رگرسیون خطی می بایست معادله ی  خطی زیر را محاسبه کرد:

 

رگرسیون خطی را برای بیش از دو متغیر نیز می توان انجام داد. در این بخش نیز نیاز است به نامگذاری متغیرها بپردازیم. متغیر وابسته را Y نامیده و سایر متغیرها، متغیرهای مستقل و یا پیش بین هستند که در پیش بینی Y به کار می روند. به جای آنچه در رگرسیون خطی یک متغیره داشتیم در این بخش با تعدادی از متغیرها شامل X1, X2, . . . , Xk  در رگرسیون مواجهیم که در آن  k تعداد متغیرهای پیش بین است. جهت بدست آوردن رگرسیون خطی می بایست معادله ی  خطی زیر را محاسبه کرد:

در نهايت ضريب a محاسبه مي شود:

A=56-(0.65X29)-(0.30X122)=0.55

پس از تكميل محاسبات معادله ي رگرسيون چند متغيره به صورت زير خواهد بود:

Y’=0.55+0.65X1+0.3X2

با جايگزيني اسامي واقعي متغيرها فرمول پيش بيني عملكرد آزمون با استفاده از عوامل زمان مطالعه و هوش پديدار خواهد شد:

مقاله ی مرتبط:   تملک شرکت Monsanto توسط شرکت Bayer

هوش 0.30+ زمان مطالعه 0.65+0.55 = نمره آزمون

با استفاده از اين فرمول قادر به پيش بيني مقادير خواهيم بود، به عنوان مثال دانشجويي با سطح هوشي برابر با 110 كه در هر هفته 30 ساعت مطالعه مي كند در آزمون نمره اي برابر با زير بدست خواهد آورد:

53.35 = (110*0.30) + ( 30* 0.65) + 0.55= نمره آزمون

بنابراين بر اساس رگرسيون خطي چند متغيره پيش بيني مي شود كه دانشجويي نمره اي برابر با 53.05  را دريافت كند.

همخطي چندگانه

زماني كه متغيرهاي پيش بين همبستگي بالايي با يكديگر داشته باشند در اصطلاح گفته مي شود كه همخطي چندگانه وجود دارد و در صورت وجود آن در رگرسيون چند متغيره احتمال ايجاد مشكل وجود دارد. اولين مشكل به دليل توضيح دادن مشابه تغييرات متغير وابسته Y توسط تعداد زيادي از متغيرهاي پيش بين است. حالتي كه در آن دو متغير پيش بين وجود دارد را در نظر بگيرد. زماني كه دو متغير وابسته نباشند در آن صورت تغييرات توضيح داده شده از متغير وابسته Y توسط اولين متغير با ديگر متغير متفاوت است در حاليكه اگر همبستگي ميان متغيرهاي پيش بين وجود داشته باشد، نوعي همپوشاني در توضيحات داده شده از Y توسط آنها وجود دارد. دومين مشكل مشخص نبودن ترتيب اهميت تغييرات توضيح داده شده توسط متغيرهاي پيش بين است خصوصاً زماني كه تعداد متغيرهاي پيش بين زياد باشد رخداد اين مشكل امري بديهي است.

تركيب متغيرها تحت يك متغير و يا حذف آن، در صورتيكه دقيقاً پيش بيني اي مشابه با متغير ديگر دارد از جمله روشهاي رويارويي با مشكل همخطي چندگانه است. به عنوان مثال تصور كنيد كه مي خواهيد قد فردي را با توجه به ساير مشخصه هاي بدن مانند طول پا، طول ساعد، شاخص طول انگشت او و … تقريب بزنيد. اگر طول پاي چپ و راست هر دو به عنوان متغيرهاي جداگانه در نظر گرفته شوند، ممكن است همبستگي نسبتاً بالايي نسبت به يكديگر داشته و نيازي به حضور هر دوي آنها كه منجر به همخطي چندگانه نيز مي شود، نباشد و بايد در مورد انتخاب فقط پاي راست و يا پاي چپ و يا حتي ميانگيني از هر دو پا تصميم گيري شود.

محاسبه رگرسيون چند متغيره

در مورد مثال ذكر شده كليه ي متغيرهاي پيش بين در رگرسيون شركت دارند و البته جاي تعجب نيست زيرا فقط دو متغير وجود داشته و اين عمل رگرسيون مستقيم ناميده مي شود. روشي جهت انجام رگرسيون زماني كه متغيرهاي پيش بين بيشتري وجود داشته باشد، كار كردن با معادلات با استفاده از متغيرهاي پيش بيني است كه همبستگي بالايي با متغير وابسته داشته باشند. پس از آن متغيرهاي پيش بين بر اساس ميزان حداكثر واريانسي كه توضيح مي دهند به ترتيب به مدل اضافه مي شوند. اين فرآيند پس از اينكه متغيري وجود نداشته باشد كه ميزان R2 را به طور معني داري افزايش دهد، پايان مي پذيرد.

اين روش را رگرسيون پيشرو گويند. روش ديگري وجود دارد كه در آن ابتدا كليه متغيرهاي پيش بين وارد مدل شده و پس از آن هر مرتبه متغيري كه كمترين مشاركت را در R2 داشته باشد حذف مي شود، تا زمانيكه ديگر متغيرهایی كه مقدار R2 را به طور معنی داری کاهش می دهند حذف شوند و آن نقطه بخش پاياني رگرسيون است. اين روش رگرسيون پسرو ناميده مي شود. رگرسيون قدم به قدم دو روش ذكر شده در بالا را با هم تركيب مي كند به گونه اي كه به طور همزمان متغیره ها را اضافه و يا كم مي كند. دليل استفاده از انواعي از روشها به جاي روش مستقيم اين است كه در بيشتر رگرسيون هايي كه جهت پيش بيني بكار مي روند، تعداد كمي از متغيرها بخش زيادي از تغييرات متغير وابسته را توضيح داده و تبيين مي كنند؛ و اين كار علاوه بر اينكه باعث صرفه جويي در زمان و محاسبات مي شود، متغيرهايي را كه كمترين ميزان شركت در پيش بيني را دارند از گردش كار حذف مي كند.

جهت مشاهده جزئيات بيشتر در ارتباط با چگونگي محاسبه ي همبستگي و رگرسيون چند متغيره با استفاده از نرم افزار آماري SPSS به فصل 16كتاب هينتون و ديگران (2004) مراجعه شود.

مترجمین: دکتر هدی کامرانی فر – حسن اسکندری نیا

اشتراک گذاری در شبکه های اجتماعی
@

لطفا شکبیا باشید...