داده کاوی - ۶ - ضریب همبستگی پیرسون
فرض کنید در مجموعهی دادههای ratings_grade_inflation.json که در #داده کاوی - ۳ - جزئیات دیتاستها به شرح جزئیات آن پرداختیم، میخواهیم میزان شباهت بین افراد را محاسبه کنیم.
m1 | m2 | m3 | m4 | |
---|---|---|---|---|
saeed | 3.0 | 1.0 | 4.0 | 2.00 |
abbas | 2.0 | 3.0 | 3.0 | 4.00 |
alireza | 4.آموزش ضریب همبستگی پیرسون 5 | 4.0 | 5.0 | 4.25 |
با اولین نگاه به امتیازات alireza متوجه میشود که بازهی امتیازات او در محدوده ۴ تا ۵ است (تنوع درجه و یا grade inflation) و اگر بخواهیم صرفا با مشاهدات خود میزان شباهت را حدس بزنیم میتوانیم بگوییم شباهت saeed-alireza بیشتر از saeed-abbas است زیرا امتیازاتی که alireza ثبت کردهاست با آموزش ضریب همبستگی پیرسون امتیازات سعید متناسب است، برای مثال کمترین امتیاز alireza که برابر ۴ برای فیلم m2 بوده متانسب است با کمترین امتیاز saeed که برای همین فیلم m2 با امتیاز ۱ است ویا امتیاز حداکثر علیرضا که ۵ بوده برای فیلم m3 برابر حداکثر امتیاز سعید برای همان فیلم با امتیاز ۴ است. درصورتی که تناسب امتیازات saeed و عباس تقریبا برخلاف هم است و در نتیجه انتظار داریم شباهت saeed-alireza بیشتر از saeed-abbas باشد.
حال بگذارید امتیازهای saeed-alireza و saeed-abbas را با استفاده از نمودار مقایسه کنیم.
نمودار مقایسه دادهها | ضریب همبستگی پیرسون
همانطور که مشاهده میکنید نمودار امتیازات saeed-alireza در راستای یک خط مستقیم هست و نمودار امتیازات آموزش ضریب همبستگی پیرسون saeed-abbas بصورت پراکنده است.
نکته مهمی که باقیمیماند این است که صرفا در راستای یک خط راست بودن نشان دهندهی تفاهم کامل نیست زیرا اگر این خط بر خلاف نمودار saeed-alireza بصورت نزولی باشد نشان دهندهی عدم تفاهم کامل است.
یکی از راهکارهایی که میتواند با توجه به دادههای ورودی ما و خروجی مدنظر ما را تولید کند استفاده از ضریب همبستگی پیرسون است که رفتاری مشابه آنچه که ما میخواهیم با توجه به نوع پراکندگی نقاط دارد.
ضریب همبستگی پیرسون یا pearson correlation coefficient
ضریب همبستگی پیرسون برای دو متغیر عددی در بازهی ۱ تا ۱- است که ۱ به معنای تفاهم کامل و ۱- نشانهی عدم تفاهم کامل است.
در نمودارهای زیر مشاهده میکنید که حاصل محاسبهی ضریب همبستگی پیرسون روی متغیرهای مختلف چقدر به رفتار مد نظر ما نزدیک است.
www.mathsisfun.com
برای مثال ضریب همبستگی دادههایی که روی یک خط مستقیم و صعودی قرار گرفتهاند عدد یک به دست آمد که به معنای شباهت کامل برای ما تلقی میشد.
فرمول ضریب همبستگی پیرسون
برای پیادهسازی الگوریتم فرمول بالا نیاز هست تا چند بار از روی تمام دادهها بگذریم و که اسطلاحا به آن multipass میگویند.
فرمول ضریب همبستگی پیرسون اصلاح شده
فرمول زیر تقریبی از فرمول اصلی محاسبهی ضریب همبستگی پیرسون است که مسئلهی multipass بودن الگوریتم را حل میکند و به اصطلاح singlepass است و در نتیجه پیچیدگی کمتری دارد و سرعت اجرای آن بالاتر است.
پیادهسازی ضریب همبستگی پیرسون اصلاح شده در پایتون
متد pearson دو لیست از اعداد مرتبط با دو متغیر را گرفته و ضریب همبستگی آنها را محاسبه و بر میگرداند.
نتیجه محاسبه ضریب همبستگی پیرسون برای saeed-alireza و saeed-abbas بصورت زیر است.
همانطور که پیشبینی میکردیم ضریب همبستگی پیرسون که به عنوان معیاری برای میزان شباهت در نظر گرفتیم برای saeed-alireza بیشتر از saeed-abbas است.
حال میخواهیم بررسی کنیم آیا با استفاده از فاصله منهتن نیز که در /داده کاوی - ۴ - معیارهای فاصله شرح داده شده به نتایج مورد انتظار میرسیم یا خیر.
نکتهای که نیاز به یادآوری دارد این است که مفهوم فاصله با شباهت رابطه عکس دارد و فاصلهی کمتر بیانگر شباهت بیشتر است و در نتیجه با توجه به موارد گفته شده ما انتظار آموزش ضریب همبستگی پیرسون داریم فاصلهی saeed-alireza کمتر از saeed-abbas باشد.
خروجی زیر نتایج محاسبهی فاصلهی منهتن میباشد.
اما نتایج بدست آمد برخلاف انتظار ما بدست آمد و مشکل از آنجاییست که که در فاصلهی منهتن تنوع در امتیازدهی که اصطلاحا تنوع درجه و یا grade inflation در نظر گرفته نمیشود و این به این معناست تشابه امتیازدهی alireza به saeed با توجه به اینکه او تنها در بازهی ۴ تا ۵ امتیازدهی کرده در نظر گرفته نمیشود.
فیلم آموزش بررسی ارتباط و همبستگی (Correlation) ژن ها با یکدیگر به زبان فارسی
در این بخش نحوه محاسبه ارتباط و همبستگی (Correlation) ژن ها با یکدیگر با استفاده از نرم افزار گرافپد پریسم به صورت کامل ارائه شده است نتایج این بررسی برای ترسیم شبکه های بیان ژنها کاربرد دارد.
بررسی ارتباط و همبستگی ژن ها
محاسبه ضریب همبستگی یا Correlation روش آماری برای تعیین نوع و درجهٔ رابطهٔ یک متغیر کمی با متغیر کمی دیگر مانند بیان ژنها با یکدیگر است. Correlation یکی از معیارهای مورد استفاده در تعیین همبستگی دو متغیر می باشد.
ضریب همبستگی شدت یک رابطه مانند ارتباط بیان ژن ها با یکدیگر و همچنین نوع رابطه (مستقیم یا معکوس) را نشان میدهد.
ضریب همبستگی یا Correlation بین ۱- و ۱ تغییر میکند. اگر میزان همبستگی برابر با 1 باشد بیانگر رابطهٔ مستقیم کامل بین دو متغیر باشد، رابطهٔ مستقیم آموزش ضریب همبستگی پیرسون یا مثبت به این معناست که اگر یکی از متغیرها افزایش (یا کاهش) یابد، دیگری نیز افزایش (یا کاهش) مییابد.
اگر میزان همبستگی برابر با 1- باشد بیانگر وجود یک رابطهٔ معکوس کامل بین دو متغیر می باشد. رابطهٔ معکوس یا منفی نشان میدهد که اگر یک متغیر افزایش یابد متغیر دیگر نیز کاهش مییابد و بالعکس.
زمانی که ضریب همبستگی برابر صفر است این نشان میدهد که بین دو متغیر رابطهٔ خطی وجود ندارد.
انواع ضریب همبستگی:
ضریب همبستگی پیرسون (Pearson Correlation)، روشی است برای دادههایی با توزیع نرمال یا تعداد دادههای زیاد استفاده میشود.
ضریب همبستگی اسپیرمن ، در صورتی که تعداد دادهها کم و فرض نرمال بودن آنها معقول نباشد، از ضریب همبستگی اسپیرمن ( Spearman Correlation) استفاده میشود.
بخش دانلود:
این فیلم آموزشی شامل موارد زیر می باشد:
آموزش کار با آموزش ضریب همبستگی پیرسون آموزش ضریب همبستگی پیرسون آموزش ضریب همبستگی پیرسون نرم افزار graphpad prism
فیلم آموزش نحوه بررسی ارتباط و همبستگی (Correlation ) ژن ها با یکدیگر
فیلم آموزش نحوه محاسبه همبستگی پیرسون Pearson Correlation با نرم افزار گراف پد پریزم به زبان فارسی
فیلم آموزش نحوه محاسبه همبستگی اسپیرمن Spearman Correlation با نرم افزار گراف پد پریزم به زبان فارسی
ضریب همبستگی، همبستگی دو متغیره، همبستگی تفکیکی
زمانی که در مطالعهای صرفا قصد داشته باشیم ارتباط بین دو متغیر را بسنجیم و هیچگونه مداخلهای در مطالعه اعمال نکنیم، به سراغ مطالعات همبستگی میرویم. در مقالات قبلی، مطالعات همبستگی بطور کامل توضیح داده شد و با روش انجام این مطالعات آشنا هستیم. در مطالعات همبستگی، مهمترین شاخص آماری که باید گزارش شود ضریب همبستگی است.
۱) همبستگی متغیرها Bivariate Correlation
مفهوم ضریب همبستگی چیست؟
اجازه دهید این مبحث را با یک مثال شروع میکنیم. فرض کنید قصد داریم دو صفت سن و نمره افسردگی را در دانشآموزان یک مدرسه بررسی کنیم و میخواهیم بدانیم با افزایش ۱ سال سن، نمره افسردگی چه تغییری خواهد کرد؟
حال فرض کنید در تحلیل آماری این مطالعه، گزارش شود که با افزایش ۱ سال سن، ۵ نمره از افسردگی کم میشود. تفسیر بالا را شاخص آماری به نام ضریب همبستگی بیان میکند. درواقع اگر بخواهیم بدانیم که با تغییر یک صفت، صفت دیگر در چه جهت و با چه شدتی تغییر میکند باید ضرایب همبستگی را بین آن دو صفت محاسبه کنیم.
همبستگیهای دو متغیره، شامل دو نوع همبستگی فاصلهای (ضریب همبستگی پیرسون Pearson ) و رتبهای (ضریب همبستگی اسپیرمن Spearman و کندال بی Kendall’s tau- b ) میباشد.
در نرمافزار SPSS از منوی Analyze میتوان در بخش Correlation هر ۳ ضریب را انتخاب کرد.
از هر ۳ ضریب برای تعیین همبستگی بین دو دسته متغیر استفاده میشود. وجه افتراق این ۳ ضریب در کاربرد آنها است:
– اگر حداقل یکی از دو صفت رتبهای باشد، از ضریب همبستگی پیرسون نمیتوان استفاده کرد و بین دو ضریب اسپیرمن و کندال بی، با توجه به حجم نمونه مورد مطالعه، تصمیم میگیریم. به نحوی که اگر اندازه نمونه کوچک باشد، از ضریب اسپیرمن استفاده میکنیم و اگر بزرگ باشد، باید ضریب کندال بی را گزارش کنیم.
– اگر حداقل یکی از صفاتِ کمی نرمال نباشد، از ضریب پیرسون استفاده نمیکنیم و به سراغ معادل ناپرامتری آن (اسپیرمن) میرویم.
*لازم به ذکر است، اگر یک یا همه متغیرها نرمال نبودند، سعی به نرمال کردن آنها نمیکنیم.
در تحلیل ضرایب همبستگی، در آموزش ضریب همبستگی پیرسون مرحله اول سطح معنی داری آنها را بررسی میکنیم، در صورتی که پیولیو از ۰/۰۵ کمتر باشد و فرض صفر رد شود نتیجه میگیریم که همبستگی بین دو متغیر معنیدار است. در مرحله بعدی به سراغ مقدار محاسبه شده برای آن میرویم.
این ضریب میتواند مقادیری را بین ۱- تا ۱+ اتخاذ کند. علامت منفی، رابطه عکس بین دو متغیر را بازگو میکند؛ به نحویکه با افزایش مقادیر یک صفت، مقادیر متغیر دیگر کاهش پیدا میکند و برعکس. علامت مثبت در کنار آموزش ضریب همبستگی پیرسون این ضریب، رابطه مستقیم بین دو متغیر را نشان میدهد؛ در واقع تغییر در دو متغیر، همسو با هم است یعنی با افزایش یکی، دیگری نیز افزایش مییابد و با کاهش آن، مقادیر صفت دیگر هم کم میشود.
مقدار عددی ضریب همبستگی، قدرت ارتباط را نشان میدهد. بصورتی که اگر قدرمطلق آن بین ۰/۲ تا ۰/۳۵ باشد، رابطه ضعیف بین دو متغیر را نشان میدهد . اگر این مقدار در دامنه ۰/۳۵ تا ۰/۶۵ باشد، همبستگی خوب است و درصورتی که از ۰/۶۵ بیشتر باشد همبستگی قوی بین دو متغیر وجود دارد و با تغییر یک صفت، بهراحتی میتوان تغییر صفت دیگر را پیشبینی کرد.
· ضریب همبستگی بهتنهایی رابطه آموزش ضریب همبستگی پیرسون علی بین دو متغیر را اثبات نمی کند و حتی باوجود همبستگی بسیار قوی بین دو متغیر، هرگز نمیتوان به علیت دست یافت.
· ضریب همبستگی پیرسون، رابطه خطی بین دو متغیر را نشان میدهد. بنابراین اگر r=0 باشد، صرفا نبود رابطه خطی را میتوان استنباط کرد (ممکن است ارتبط بین دو متغیر، سهمی باشد).
۲٫ ضریب همبستگی تفکیکی/ جزئی ( Partial Correlation )
برای مثال، در بررسی همبستگی بین دو متغر سن و نمره افسردگی، متغیر سومی به اسم BMI وجود دارد که برروی نمره افسردگی تاثیر دارد. برای کنترل تاثیر این متغیر، بر روی ارتباط دو متغیر دیگر از ضریب همبستگی جزئی استفاده میکنیم. همبستگی تفکیکی نوعی همبستگی است که ضمن محاسبه میزان همبستگی بین دو متغیر، اثر سایر متغیرها را کنترل می کنند. این ضریب، میزان همبستگی بین یک متغیر مستقل با متغیر وابسته را پس از حذف میزان همبستگی این دومتغیر با یک یا چند متغیر مستقلِ دیگر نشان دهد . بنابراین، ضریب همبستگی جزئی نشان میدهد که بعد از حذف تاثیر متغیر کنترل (یا متغیر آزمون)، چه مقدار از همبستگی خالص بین دو متغیر وجود خواهد داشت.
ضریب همبستگی پیرسون، صرفا وجود ارتباط خطی بین متغیرها را نشان میدهد. میتوان از روی این ضریب، به شدت و جهت ارتباط بین متغیرها پیبرد. در مباحث کوواریانس و رگرسیون، مفهوم همبستگی اهمیت زیادی دارد. بنابراین تسلط در این بخش به فهمیدن مباحث آماری دیگر نیز کمک میکند.
منبع: کتاب راهنمای جامع SPSS در تحقیقات پیمایشی/ نویسنده: دکتر حبیب پور گتابی و رضا صفری شالی
جدول ضریب همبستگی در ایویوز
جدول ضریب همبستگی در ایویوز،جدول دیگری که علاوه بر جدول آماره های توصیفی در پروژه ها گزارش می شود جدول ضریب همبستگی در نرم افزار ایویوز است.
مفهوم همبستگی چیست؟( جدول ضریب همبستگی در نرم افزار ایویوز )
جدول ضریب همبستگی در ایویوز،همبستگی به این معناست که دو یا چند متغییر باهم وابستگی دارند،همبستگی عددی بین یک و منفی یک است و ارتباط خطی دو متغییر باهم را بیان می کند.
در صورتی که همبستگی یا کورولیشن برای دو متغییر عدد مثبت یک باشد به این معناست که دو متغیر با هم همبستگی شدید مستقیم دارند.
اگر همبستگی یا کورولیشن برای دو متغییر عدد منفی یک باشد دو متغیر با هم همبستگی شدید عکس دارند.
اگر هم بستگی عددی بیش تر از ۰٫۷ یا ۰٫۶ مثبت یا منفی باشد معمولا با هم خطی رو برو هستیم.
آزمونی که برای تشخیص هم خطی در آمار برای دو متغیر استفاده می شود آزمون پیرسون است.
برای بدست آوردن ضریب همبستگی از فرمول زیر استفاده می شود.
فرمول ضریب همبستگی(جدول ضریب همبستگی در ایویوز)
فرمول ضریب همبستگی
تشریح فرمول ضریب همبستگی
جدول ضریب همبستگی در ایویوز در فرمول بالا ضریب همبستگی برابر است با کوواریانس دو متغیر تقسیم بر ضرب واریانس های دو متغیر است.
بدست آوردن جدول ضریب همبستگی در نرم افزار ایویوز
ابتدا متغیرهایی که می خواهیم ضرایب همبستگی دو به دوی آن ها را بررسی کنیم را انتخاب می کنیم و به صورت گروه ی باز می کنیم
در مرحله بعد از آدرس زیر:
View/Covariance Analysis
در پنجره ی باز شده تیک گزینه ی Correlation و احتمال (Probability) را فعال می کنیم.
بررسی خروجی جدول ضریب همبستگی در ایویوز:
ضریب همبستگی هر متغیر با خودش عدد یک است.
برای مثال در تصویر بالا بین
با توجه به تعداد نمونه ها ضریب همبستگی برابر ۰٫۹۳ می باشد و در سطح ۱ درصد معنادار است.
با لینک زیر می توانید به صفحه ی آموزش نرم افزار ایویوز رایگان،جامع و گام به گام EViews بروید.
از طریق آیکون زیر برای تماس مستقیم تلفنی به منظور سفارش تحلیل و مشاوره با امور پشتیبانی اقدام نمایید.
داده کاوی - ۶ - ضریب همبستگی پیرسون
فرض کنید در مجموعهی دادههای ratings_grade_inflation.json که در #داده کاوی - ۳ - جزئیات دیتاستها به شرح جزئیات آن پرداختیم، میخواهیم میزان شباهت بین افراد را محاسبه کنیم.
m1 | m2 | m3 | m4 | |
---|---|---|---|---|
saeed | 3.0 | 1.0 | 4.0 | 2.00 |
abbas | 2.0 | 3.0 | 3.0 | 4.00 |
alireza | 4.5 | 4.0 | 5.0 | 4.25 |
با اولین نگاه به امتیازات alireza متوجه میشود که بازهی امتیازات او در محدوده ۴ تا ۵ است (تنوع درجه و یا grade inflation) و اگر بخواهیم صرفا با مشاهدات خود میزان شباهت را حدس بزنیم میتوانیم بگوییم شباهت saeed-alireza بیشتر از saeed-abbas است زیرا امتیازاتی که alireza ثبت کردهاست با امتیازات سعید متناسب است، برای مثال کمترین امتیاز alireza که برابر ۴ برای فیلم m2 بوده متانسب است با کمترین امتیاز saeed که برای همین فیلم m2 با امتیاز ۱ است ویا امتیاز حداکثر علیرضا که ۵ بوده برای فیلم m3 برابر حداکثر امتیاز سعید برای همان فیلم با امتیاز ۴ است. درصورتی که تناسب امتیازات saeed و عباس تقریبا برخلاف هم است و در نتیجه انتظار داریم شباهت saeed-alireza بیشتر از saeed-abbas باشد.
حال بگذارید امتیازهای saeed-alireza و saeed-abbas را با استفاده از نمودار مقایسه کنیم.
نمودار مقایسه دادهها | ضریب همبستگی پیرسون
همانطور که مشاهده میکنید نمودار امتیازات saeed-alireza در راستای یک خط مستقیم هست و نمودار امتیازات saeed-abbas بصورت پراکنده است.
نکته مهمی که باقیمیماند این است که صرفا در راستای یک خط راست بودن نشان آموزش ضریب همبستگی پیرسون دهندهی تفاهم کامل نیست زیرا اگر این خط بر خلاف نمودار saeed-alireza بصورت نزولی باشد نشان دهندهی عدم تفاهم کامل است.
یکی از راهکارهایی که میتواند با توجه به دادههای ورودی ما و خروجی مدنظر ما را تولید کند استفاده از ضریب همبستگی پیرسون است که رفتاری مشابه آنچه که ما میخواهیم با توجه به نوع پراکندگی نقاط دارد.
ضریب همبستگی پیرسون یا pearson correlation coefficient
ضریب همبستگی پیرسون برای دو متغیر عددی در بازهی ۱ تا ۱- است که ۱ به معنای تفاهم کامل و ۱- نشانهی عدم تفاهم کامل است.
در نمودارهای زیر مشاهده میکنید که حاصل محاسبهی ضریب همبستگی پیرسون روی متغیرهای مختلف چقدر به رفتار مد نظر ما نزدیک است.
www.mathsisfun.com
برای مثال ضریب همبستگی دادههایی که روی یک خط مستقیم و صعودی قرار گرفتهاند عدد یک به دست آمد که به معنای شباهت کامل برای ما تلقی میشد.
فرمول ضریب همبستگی پیرسون
برای پیادهسازی الگوریتم فرمول بالا نیاز هست تا چند بار از روی تمام دادهها بگذریم و که اسطلاحا به آن multipass میگویند.
فرمول ضریب همبستگی پیرسون اصلاح شده
فرمول زیر تقریبی از فرمول اصلی محاسبهی ضریب همبستگی پیرسون است که مسئلهی multipass بودن الگوریتم را حل میکند و به اصطلاح singlepass است و در نتیجه پیچیدگی کمتری دارد و سرعت اجرای آن بالاتر است.
پیادهسازی ضریب همبستگی پیرسون اصلاح شده در پایتون
متد pearson دو لیست از اعداد مرتبط با دو متغیر را گرفته و ضریب همبستگی آنها را محاسبه و بر میگرداند.
نتیجه محاسبه ضریب همبستگی پیرسون برای saeed-alireza و saeed-abbas بصورت زیر است.
همانطور که پیشبینی میکردیم ضریب همبستگی پیرسون که به عنوان معیاری برای میزان شباهت در نظر گرفتیم برای saeed-alireza بیشتر از saeed-abbas است.
حال میخواهیم بررسی کنیم آیا با استفاده از فاصله منهتن نیز که در /داده کاوی - ۴ - معیارهای فاصله شرح داده شده به نتایج مورد انتظار میرسیم یا خیر.
نکتهای که نیاز به یادآوری دارد این است که مفهوم فاصله با شباهت رابطه عکس دارد و فاصلهی کمتر بیانگر شباهت بیشتر است و در نتیجه با توجه به موارد گفته شده ما انتظار داریم فاصلهی saeed-alireza کمتر از saeed-abbas باشد.
خروجی زیر نتایج محاسبهی فاصلهی منهتن میباشد.
اما نتایج بدست آمد برخلاف انتظار ما بدست آمد و مشکل از آنجاییست که که در فاصلهی منهتن تنوع در امتیازدهی که اصطلاحا تنوع درجه و یا grade inflation در نظر گرفته نمیشود و این به این معناست تشابه امتیازدهی alireza به saeed با توجه به اینکه او تنها در بازهی ۴ تا ۵ امتیازدهی کرده در نظر گرفته نمیشود.
دیدگاه شما