آموزش ضریب همبستگی پیرسون


نمودار مقایسه داده‌ها | ضریب همبستگی پیرسون

داده کاوی - ۶ - ضریب همبستگی پیرسون

فرض کنید در مجموعه‌ی داده‌های ratings_grade_inflation.json که در #داده کاوی - ۳ - جزئیات دیتاست‌ها به شرح جزئیات آن پرداختیم، می‌خواهیم میزان شباهت بین افراد را محاسبه کنیم.

m1m2m3m4
saeed3.01.04.02.00
abbas2.03.03.04.00
alireza4.آموزش ضریب همبستگی پیرسون 54.05.04.25

با اولین نگاه به امتیازات alireza متوجه می‌شود که بازه‌ی امتیازات او در محدوده‌ ۴ تا ۵ است (تنوع درجه و یا grade inflation) و اگر بخواهیم صرفا با مشاهدات خود میزان شباهت را حدس بزنیم می‌توانیم بگوییم شباهت saeed-alireza بیشتر از saeed-abbas است زیرا امتیازاتی که alireza ثبت کرده‌است با آموزش ضریب همبستگی پیرسون امتیازات سعید متناسب است، برای مثال کمترین امتیاز alireza که برابر ۴ برای فیلم m2 بوده متانسب است با کمترین امتیاز saeed که برای همین فیلم m2 با امتیاز ۱ است ویا امتیاز حداکثر علیرضا که ۵ بوده برای فیلم m3 برابر حداکثر امتیاز سعید برای همان فیلم با امتیاز ۴ است. درصورتی که تناسب امتیازات saeed و عباس تقریبا برخلاف هم است و در نتیجه انتظار داریم شباهت saeed-alireza بیشتر از saeed-abbas باشد.

حال بگذارید امتیازهای saeed-alireza و saeed-abbas را با استفاده از نمودار مقایسه کنیم.

نمودار مقایسه داده‌ها | ضریب همبستگی پیرسون

همانطور که مشاهده می‌کنید نمودار امتیازات saeed-alireza در راستای یک خط مستقیم هست و نمودار امتیازات آموزش ضریب همبستگی پیرسون saeed-abbas بصورت پراکنده است.
نکته مهمی که باقیمیماند این است که صرفا در راستای یک خط راست بودن نشان دهنده‌ی تفاهم کامل نیست زیرا اگر این خط بر خلاف نمودار saeed-alireza بصورت نزولی باشد نشان دهنده‌ی عدم تفاهم کامل است.

یکی از راهکارهایی که می‌تواند با توجه به داده‌های ورودی ما و خروجی مدنظر ما را تولید کند استفاده از ضریب همبستگی پیرسون است که رفتاری مشابه آنچه که ما می‌خواهیم با توجه به نوع پراکندگی نقاط دارد.

ضریب همبستگی پیرسون یا pearson correlation coefficient

ضریب همبستگی پیرسون برای دو متغیر عددی در بازه‌ی ۱ تا ۱- است که ۱ به معنای تفاهم کامل و ۱- نشانه‌ی عدم تفاهم کامل است.
در نمودارهای زیر مشاهده می‌کنید که حاصل محاسبه‌ی ضریب همبستگی پیرسون روی متغیرهای مختلف چقدر به رفتار مد نظر ما نزدیک است.

www.mathsisfun.com

برای مثال ضریب همبستگی داده‌هایی که روی یک خط مستقیم و صعودی قرار گرفته‌اند عدد یک به دست آمد که به معنای شباهت کامل برای ما تلقی می‌شد.

فرمول ضریب همبستگی پیرسون

برای پیاده‌سازی الگوریتم فرمول بالا نیاز هست تا چند بار از روی تمام داده‌ها بگذریم و که اسطلاحا به آن multipass می‌گویند.

فرمول ضریب همبستگی پیرسون اصلاح شده

فرمول زیر تقریبی از فرمول اصلی محاسبه‌ی ضریب همبستگی پیرسون است که مسئله‌ی multipass بودن الگوریتم را حل می‌کند و به اصطلاح singlepass است و در نتیجه پیچیدگی کمتری دارد و سرعت اجرای آن بالاتر است.

پیاده‌سازی ضریب همبستگی پیرسون اصلاح شده در پایتون

متد pearson دو لیست از اعداد مرتبط با دو متغیر را گرفته و ضریب همبستگی آنها را محاسبه و بر می‌گرداند.

نتیجه محاسبه ضریب همبستگی پیرسون برای saeed-alireza و saeed-abbas بصورت زیر است.

همانطور که پیشبینی می‌کردیم ضریب همبستگی پیرسون که به عنوان معیاری برای میزان شباهت در نظر گرفتیم برای saeed-alireza بیشتر از saeed-abbas است.

حال می‌خواهیم بررسی کنیم آیا با استفاده از فاصله منهتن نیز که در /داده کاوی - ۴ - معیار‌های فاصله شرح داده شده به نتایج مورد انتظار می‌رسیم یا خیر.
نکته‌ای که نیاز به یادآوری دارد این است که مفهوم فاصله با شباهت رابطه عکس دارد و فاصله‌ی کمتر بیانگر شباهت بیشتر است و در نتیجه با توجه به موارد گفته شده ما انتظار آموزش ضریب همبستگی پیرسون داریم فاصله‌ی saeed-alireza کمتر از saeed-abbas باشد.
خروجی زیر نتایج محاسبه‌ی فاصله‌ی منهتن می‌باشد.

اما نتایج بدست آمد برخلاف انتظار ما بدست آمد و مشکل از آنجاییست که که در فاصله‌ی منهتن تنوع در امتیازدهی که اصطلاحا تنوع درجه و یا grade inflation در نظر گرفته نمی‌شود و این به این معناست تشابه امتیازدهی alireza به saeed با توجه به اینکه او تنها در بازه‌ی ۴ تا ۵ امتیازدهی کرده در نظر گرفته نمی‌شود.

فیلم آموزش بررسی ارتباط و همبستگی (Correlation) ژن ها با یکدیگر به زبان فارسی

در این بخش نحوه محاسبه ارتباط و همبستگی (Correlation) ژن ها با یکدیگر با استفاده از نرم افزار گرافپد پریسم به صورت کامل ارائه شده است نتایج این بررسی برای ترسیم شبکه های بیان ژنها کاربرد دارد.

فیلم آموزش بررسی ارتباط و همبستگی (Correlation) ژن ها با یکدیگر به زبان فارسی

بررسی ارتباط و همبستگی ژن ها

محاسبه ضریب همبستگی یا Correlation روش آماری برای تعیین نوع و درجهٔ رابطهٔ یک متغیر کمی با متغیر کمی دیگر مانند بیان ژنها با یکدیگر است. Correlation یکی از معیارهای مورد استفاده در تعیین همبستگی دو متغیر می باشد.

ضریب همبستگی شدت یک رابطه مانند ارتباط بیان ژن ها با یکدیگر و همچنین نوع رابطه (مستقیم یا معکوس) را نشان می‌دهد.

ضریب همبستگی یا Correlation بین ۱- و ۱ تغییر می‌کند. اگر میزان همبستگی برابر با 1 باشد بیانگر رابطهٔ مستقیم کامل بین دو متغیر باشد، رابطهٔ مستقیم آموزش ضریب همبستگی پیرسون یا مثبت به این معناست که اگر یکی از متغیرها افزایش (یا کاهش) یابد، دیگری نیز افزایش (یا کاهش) می‌یابد.

اگر میزان همبستگی برابر با 1- باشد بیانگر وجود یک رابطهٔ معکوس کامل بین دو متغیر می باشد. رابطهٔ معکوس یا منفی نشان می‌دهد که اگر یک متغیر افزایش یابد متغیر دیگر نیز کاهش می‌یابد و بالعکس.

زمانی که ضریب همبستگی برابر صفر است این نشان می‌دهد که بین دو متغیر رابطهٔ خطی وجود ندارد.

انواع ضریب همبستگی:

ضریب همبستگی پیرسون (Pearson Correlation)، روشی است برای داده‌هایی با توزیع نرمال یا تعداد داده‌های زیاد استفاده می‌شود.

ضریب همبستگی اسپیرمن ، در صورتی که تعداد داده‌ها کم و فرض نرمال بودن آنها معقول نباشد، از ضریب همبستگی اسپیرمن ( Spearman Correlation) استفاده می‌شود.

 فیلم آموزش بررسی ارتباط و همبستگی (Correlation) ژن ها با یکدیگر به زبان فارسی

بخش دانلود:

این فیلم آموزشی شامل موارد زیر می باشد:

آموزش کار با آموزش ضریب همبستگی پیرسون آموزش ضریب همبستگی پیرسون آموزش ضریب همبستگی پیرسون نرم افزار graphpad prism

فیلم آموزش نحوه بررسی ارتباط و همبستگی (Correlation ) ژن ها با یکدیگر

فیلم آموزش نحوه محاسبه همبستگی پیرسون Pearson Correlation با نرم افزار گراف پد پریزم به زبان فارسی

فیلم آموزش نحوه محاسبه همبستگی اسپیرمن Spearman Correlation با نرم افزار گراف پد پریزم به زبان فارسی

ضریب همبستگی، همبستگی دو متغیره، همبستگی تفکیکی

عکس شاخص ضریب هبستگی و انچه که باید در موردش بدانیم

زمانی که در مطالعه‌ای صرفا قصد داشته ‌باشیم ارتباط بین دو متغیر را بسنجیم و هیچ‌گونه مداخله‌ای در مطالعه اعمال نکنیم، به سراغ مطالعات همبستگی می‌رویم. در مقالات قبلی، مطالعات همبستگی بطور کامل توضیح‌ داده شد و با روش انجام این مطالعات آشنا هستیم. در مطالعات همبستگی، مهمترین شاخص آماری که باید گزارش شود ضریب همبستگی است.

۱) همبستگی متغیرها Bivariate Correlation

مفهوم ضریب همبستگی چیست؟

اجازه دهید این مبحث را با یک مثال شروع می‌کنیم. فرض کنید قصد داریم دو صفت سن و نمره افسردگی را در دانش‌آموزان یک مدرسه بررسی کنیم و میخواهیم بدانیم با افزایش ۱ سال سن، نمره افسردگی چه تغییری خواهد کرد؟

حال فرض کنید در تحلیل آماری این مطالعه، گزارش شود که با افزایش ۱ سال سن، ۵ نمره از افسردگی کم می‌شود. تفسیر بالا را شاخص آماری به ‌نام ضریب همبستگی بیان می‌کند. درواقع اگر بخواهیم بدانیم که با تغییر یک صفت، صفت دیگر در چه جهت و با چه شدتی تغییر می‌کند باید ضرایب همبستگی را بین آن دو صفت محاسبه کنیم.

همبستگی‌های دو متغیره، شامل دو نوع همبستگی فاصله‌ای (ضریب همبستگی پیرسون Pearson ) و رتبه‌ای (ضریب همبستگی اسپیرمن Spearman و کندال بی Kendall’s tau- b ) می‌باشد.

در نرم‌افزار SPSS از منوی Analyze می‌توان در بخش Correlation هر ۳ ضریب را انتخاب کرد.

توضیح همبستگی

از هر ۳ ضریب برای تعیین همبستگی بین دو دسته متغیر استفاده می‌شود. وجه افتراق این ۳ ضریب در کاربرد آن‌ها است:

– اگر حداقل یکی از دو صفت رتبه‌ای باشد، از ضریب همبستگی پیرسون نمی‌توان استفاده کرد و بین دو ضریب اسپیرمن و کندال بی، با توجه به حجم نمونه مورد مطالعه، تصمیم می‌گیریم. به نحوی که اگر اندازه نمونه کوچک باشد، از ضریب اسپیرمن استفاده می‌کنیم و اگر بزرگ باشد، باید ضریب کندال بی را گزارش کنیم.

– اگر حداقل یکی از صفاتِ کمی نرمال نباشد، از ضریب پیرسون استفاده نمی‌کنیم و به سراغ معادل ناپرامتری آن (اسپیرمن) می‌رویم.

*لازم به ذکر است، اگر یک یا همه متغیرها نرمال نبودند، سعی به نرمال کردن آن‌ها نمی‌کنیم.

در تحلیل ضرایب همبستگی، در آموزش ضریب همبستگی پیرسون مرحله اول سطح معنی داری آن‌ها را بررسی می‌کنیم، در صورتی که پی‌ولیو از ۰/۰۵ کمتر باشد و فرض صفر رد شود نتیجه می‌گیریم که همبستگی بین دو متغیر معنی‌دار است. در مرحله بعدی به سراغ مقدار محاسبه شده برای آن می‌رویم.

این ضریب می‌تواند مقادیری را بین ۱- تا ۱+ اتخاذ کند. علامت منفی، رابطه عکس بین دو متغیر را بازگو می‌کند؛ به نحوی‌که با افزایش مقادیر یک صفت، مقادیر متغیر دیگر کاهش پیدا می‌کند و برعکس. علامت مثبت در کنار آموزش ضریب همبستگی پیرسون این ضریب، رابطه مستقیم بین دو متغیر را نشان می‌دهد؛ در واقع تغییر در دو متغیر، همسو با هم است یعنی با افزایش یکی، دیگری نیز افزایش می‌یابد و با کاهش آن، مقادیر صفت دیگر هم کم می‌شود.

مقدار عددی ضریب همبستگی، قدرت ارتباط را نشان می‌دهد. بصورتی که اگر قدرمطلق آن بین ۰/۲ تا ۰/۳۵ باشد، رابطه ضعیف بین دو متغیر را نشان می‌دهد . اگر این مقدار در دامنه ۰/۳۵ تا ۰/۶۵ باشد، همبستگی خوب است و درصورتی که از ۰/۶۵ بیشتر باشد همبستگی قوی بین دو متغیر وجود دارد و با تغییر یک صفت، به‌راحتی می‌توان تغییر صفت دیگر را پیش‌بینی کرد.

عکس ضرایب همبستگی

· ضریب همبستگی به‌تنهایی رابطه آموزش ضریب همبستگی پیرسون علی بین دو متغیر را اثبات نمی ‎‎ ‌کند و حتی باوجود همبستگی بسیار قوی بین دو متغیر، هرگز نمی‌توان به علیت دست یافت.

· ضریب همبستگی پیرسون، رابطه خطی بین دو متغیر را نشان می‌دهد. بنابراین اگر r=0 باشد، صرفا نبود رابطه خطی را می‌توان استنباط کرد (ممکن است ارتبط بین دو متغیر، سهمی باشد).

۲٫ ضریب همبستگی تفکیکی/ جزئی ( Partial Correlation )

برای مثال، در بررسی همبستگی بین دو متغر سن و نمره افسردگی، متغیر سومی به اسم BMI وجود دارد که برروی نمره افسردگی تاثیر دارد. برای کنترل تاثیر این متغیر، بر روی ارتباط دو متغیر دیگر از ضریب همبستگی جزئی استفاده می‌کنیم. همبستگی تفکیکی نوعی همبستگی است که ضمن محاسبه میزان همبستگی بین دو متغیر، اثر سایر متغیرها را کنترل می کنند. این ضریب، میزان همبستگی بین یک متغیر مستقل با متغیر وابسته را پس از حذف میزان همبستگی این دومتغیر با یک یا چند متغیر مستقلِ دیگر نشان دهد . بنابراین، ضریب همبستگی جزئی نشان می‌دهد که بعد از حذف تاثیر متغیر کنترل (یا متغیر آزمون)، چه مقدار از همبستگی خالص بین دو متغیر وجود خواهد‌ داشت.

همبستگی تفکیکی یا جزئی

ضریب همبستگی پیرسون، صرفا وجود ارتباط خطی بین متغیرها را نشان می‌دهد. می‌توان از روی این ضریب، به شدت و جهت ارتباط بین متغیرها پی‌برد. در مباحث کوواریانس و رگرسیون، مفهوم همبستگی اهمیت زیادی دارد. بنابراین تسلط در این بخش به فهمیدن مباحث آماری دیگر نیز کمک می‌کند.

منبع: کتاب راهنمای جامع SPSS در تحقیقات پیمایشی/ نویسنده: دکتر حبیب پور گتابی و رضا صفری شالی

جدول ضریب همبستگی در ایویوز

جدول ضرایب همبستگی درز نرم افزار ایویوز

جدول ضریب همبستگی در ایویوز،جدول دیگری که علاوه بر جدول آماره های توصیفی در پروژه ها گزارش می شود جدول ضریب همبستگی در نرم افزار ایویوز است.

مفهوم همبستگی چیست؟( جدول ضریب همبستگی در نرم افزار ایویوز )

جدول ضریب همبستگی در ایویوز،همبستگی به این معناست که دو یا چند متغییر باهم وابستگی دارند،همبستگی عددی بین یک و منفی یک است و ارتباط خطی دو متغییر باهم را بیان می کند.

در صورتی که همبستگی یا کورولیشن برای دو متغییر عدد مثبت یک باشد به این معناست که دو متغیر با هم همبستگی شدید مستقیم دارند.

اگر همبستگی یا کورولیشن برای دو متغییر عدد منفی یک باشد دو متغیر با هم همبستگی شدید عکس دارند.

اگر هم بستگی عددی بیش تر از ۰٫۷ یا ۰٫۶ مثبت یا منفی باشد معمولا با هم خطی رو برو هستیم.

آزمونی که برای تشخیص هم خطی در آمار برای دو متغیر استفاده می شود آزمون پیرسون است.

برای بدست آوردن ضریب همبستگی از فرمول زیر استفاده می شود.

فرمول ضریب همبستگی(جدول ضریب همبستگی در ایویوز)

فرمول ضریب همبستگی

فرمول ضریب همبستگی

تشریح فرمول ضریب همبستگی

جدول ضریب همبستگی در ایویوز در فرمول بالا ضریب همبستگی برابر است با کوواریانس دو متغیر تقسیم بر ضرب واریانس های دو متغیر است.

بدست آوردن جدول ضریب همبستگی در نرم افزار ایویوز

ابتدا متغیرهایی که می خواهیم ضرایب همبستگی دو به دوی آن ها را بررسی کنیم را انتخاب می کنیم و به صورت گروه ی باز می کنیم

در مرحله بعد از آدرس زیر:

View/Covariance Analysis

در پنجره ی باز شده تیک گزینه ی Correlation و احتمال (Probability) را فعال می کنیم.

جدول ضرایب همبستگی در نرم افزار ایویوز

جدول ضرایب همبستگی در نرم افزار ایویوز

بررسی خروجی جدول ضریب همبستگی در ایویوز:

ضریب همبستگی هر متغیر با خودش عدد یک است.

برای مثال در تصویر بالا بین

با توجه به تعداد نمونه ها ضریب همبستگی برابر ۰٫۹۳ می باشد و در سطح ۱ درصد معنادار است.

با لینک زیر می توانید به صفحه ی آموزش نرم افزار ایویوز رایگان،جامع و گام به گام EViews بروید.

از طریق آیکون زیر برای تماس مستقیم تلفنی به منظور سفارش تحلیل و مشاوره با امور پشتیبانی اقدام نمایید.

داده کاوی - ۶ - ضریب همبستگی پیرسون

فرض کنید در مجموعه‌ی داده‌های ratings_grade_inflation.json که در #داده کاوی - ۳ - جزئیات دیتاست‌ها به شرح جزئیات آن پرداختیم، می‌خواهیم میزان شباهت بین افراد را محاسبه کنیم.

m1m2m3m4
saeed3.01.04.02.00
abbas2.03.03.04.00
alireza4.54.05.04.25

با اولین نگاه به امتیازات alireza متوجه می‌شود که بازه‌ی امتیازات او در محدوده‌ ۴ تا ۵ است (تنوع درجه و یا grade inflation) و اگر بخواهیم صرفا با مشاهدات خود میزان شباهت را حدس بزنیم می‌توانیم بگوییم شباهت saeed-alireza بیشتر از saeed-abbas است زیرا امتیازاتی که alireza ثبت کرده‌است با امتیازات سعید متناسب است، برای مثال کمترین امتیاز alireza که برابر ۴ برای فیلم m2 بوده متانسب است با کمترین امتیاز saeed که برای همین فیلم m2 با امتیاز ۱ است ویا امتیاز حداکثر علیرضا که ۵ بوده برای فیلم m3 برابر حداکثر امتیاز سعید برای همان فیلم با امتیاز ۴ است. درصورتی که تناسب امتیازات saeed و عباس تقریبا برخلاف هم است و در نتیجه انتظار داریم شباهت saeed-alireza بیشتر از saeed-abbas باشد.

حال بگذارید امتیازهای saeed-alireza و saeed-abbas را با استفاده از نمودار مقایسه کنیم.

نمودار مقایسه داده‌ها | ضریب همبستگی پیرسون

همانطور که مشاهده می‌کنید نمودار امتیازات saeed-alireza در راستای یک خط مستقیم هست و نمودار امتیازات saeed-abbas بصورت پراکنده است.
نکته مهمی که باقیمیماند این است که صرفا در راستای یک خط راست بودن نشان آموزش ضریب همبستگی پیرسون دهنده‌ی تفاهم کامل نیست زیرا اگر این خط بر خلاف نمودار saeed-alireza بصورت نزولی باشد نشان دهنده‌ی عدم تفاهم کامل است.

یکی از راهکارهایی که می‌تواند با توجه به داده‌های ورودی ما و خروجی مدنظر ما را تولید کند استفاده از ضریب همبستگی پیرسون است که رفتاری مشابه آنچه که ما می‌خواهیم با توجه به نوع پراکندگی نقاط دارد.

ضریب همبستگی پیرسون یا pearson correlation coefficient

ضریب همبستگی پیرسون برای دو متغیر عددی در بازه‌ی ۱ تا ۱- است که ۱ به معنای تفاهم کامل و ۱- نشانه‌ی عدم تفاهم کامل است.
در نمودارهای زیر مشاهده می‌کنید که حاصل محاسبه‌ی ضریب همبستگی پیرسون روی متغیرهای مختلف چقدر به رفتار مد نظر ما نزدیک است.

www.mathsisfun.com

برای مثال ضریب همبستگی داده‌هایی که روی یک خط مستقیم و صعودی قرار گرفته‌اند عدد یک به دست آمد که به معنای شباهت کامل برای ما تلقی می‌شد.

فرمول ضریب همبستگی پیرسون

برای پیاده‌سازی الگوریتم فرمول بالا نیاز هست تا چند بار از روی تمام داده‌ها بگذریم و که اسطلاحا به آن multipass می‌گویند.

فرمول ضریب همبستگی پیرسون اصلاح شده

فرمول زیر تقریبی از فرمول اصلی محاسبه‌ی ضریب همبستگی پیرسون است که مسئله‌ی multipass بودن الگوریتم را حل می‌کند و به اصطلاح singlepass است و در نتیجه پیچیدگی کمتری دارد و سرعت اجرای آن بالاتر است.

پیاده‌سازی ضریب همبستگی پیرسون اصلاح شده در پایتون

متد pearson دو لیست از اعداد مرتبط با دو متغیر را گرفته و ضریب همبستگی آنها را محاسبه و بر می‌گرداند.

نتیجه محاسبه ضریب همبستگی پیرسون برای saeed-alireza و saeed-abbas بصورت زیر است.

همانطور که پیشبینی می‌کردیم ضریب همبستگی پیرسون که به عنوان معیاری برای میزان شباهت در نظر گرفتیم برای saeed-alireza بیشتر از saeed-abbas است.

حال می‌خواهیم بررسی کنیم آیا با استفاده از فاصله منهتن نیز که در /داده کاوی - ۴ - معیار‌های فاصله شرح داده شده به نتایج مورد انتظار می‌رسیم یا خیر.
نکته‌ای که نیاز به یادآوری دارد این است که مفهوم فاصله با شباهت رابطه عکس دارد و فاصله‌ی کمتر بیانگر شباهت بیشتر است و در نتیجه با توجه به موارد گفته شده ما انتظار داریم فاصله‌ی saeed-alireza کمتر از saeed-abbas باشد.
خروجی زیر نتایج محاسبه‌ی فاصله‌ی منهتن می‌باشد.

اما نتایج بدست آمد برخلاف انتظار ما بدست آمد و مشکل از آنجاییست که که در فاصله‌ی منهتن تنوع در امتیازدهی که اصطلاحا تنوع درجه و یا grade inflation در نظر گرفته نمی‌شود و این به این معناست تشابه امتیازدهی alireza به saeed با توجه به اینکه او تنها در بازه‌ی ۴ تا ۵ امتیازدهی کرده در نظر گرفته نمی‌شود.



اشتراک گذاری

دیدگاه شما

اولین دیدگاه را شما ارسال نمایید.