تجزیه و تحلیل مؤلفه اصلی (PCA) و نحوه استفاده از آن چیست؟

ساخت وبلاگ

تجزیه و تحلیل مؤلفه اصلی ، یا PCA ، یک روش آماری است که به شما امکان می دهد محتوای اطلاعات را در جداول داده های بزرگ با استفاده از مجموعه ای کوچکتر از "شاخص های خلاصه" خلاصه کنید که می توانند به راحتی تجسم و تجزیه و تحلیل شوند. داده های اساسی می تواند اندازه گیری هایی باشد که خصوصیات نمونه های تولید ، ترکیبات شیمیایی یا واکنش ها ، نقاط زمان فرآیند یک فرآیند مداوم ، دسته ای از یک فرآیند دسته ای ، افراد بیولوژیکی یا آزمایشات یک پروتکل DOE را توصیف می کند.

استفاده از PCA می تواند به شناسایی همبستگی بین نقاط داده کمک کند ، از جمله اینکه بین مصرف غذاهایی مانند ماهی منجمد و نان واضح در کشورهای نوردیک ارتباط وجود دارد.

تجزیه و تحلیل مؤلفه اصلی امروز یکی از محبوب ترین تکنیک های آماری چند متغیره است. این ماده به طور گسترده در زمینه های تشخیص الگوی و پردازش سیگنال مورد استفاده قرار گرفته است و یک روش آماری تحت عنوان گسترده تجزیه و تحلیل عاملی است.

PCA روش مادر برای MVDA است

PCA اساس تجزیه و تحلیل داده های چند متغیره بر اساس روش های طرح ریزی را تشکیل می دهد. مهمترین استفاده از PCA نشان دادن جدول داده های چند متغیره به عنوان مجموعه کوچکتر از متغیرها (شاخص های خلاصه) به منظور مشاهده روندها ، پرش ها ، خوشه ها و دور است. این نمای کلی ممکن است روابط بین مشاهدات و متغیرها و در بین متغیرها را کشف کند.

PCA به Cauchy باز می گردد اما برای اولین بار توسط پیرسون ، که این تجزیه و تحلیل را پیدا کرد "خطوط و هواپیماهای نزدیکترین متناسب با سیستم های نقاط در فضا" را توصیف کرد [جکسون ، 1991].

PCA ابزاری بسیار انعطاف پذیر است و امکان تجزیه و تحلیل مجموعه داده هایی را فراهم می کند که ممکن است به عنوان مثال ، چند قطبی ، مقادیر از دست رفته ، داده های طبقه بندی شده و اندازه گیری های نادرست را شامل شود. هدف استخراج اطلاعات مهم از داده ها و بیان این اطلاعات به عنوان مجموعه ای از شاخص های خلاصه به نام مؤلفه های اصلی است.

از نظر آماری ، PCA خطوط ، هواپیماها و برنامه های بیش از حد را در فضای K بعدی پیدا می کند که داده ها و همچنین ممکن است به معنای کمترین مربعات. یک خط یا هواپیمای که کمترین مربع از مجموعه ای از نقاط داده است ، واریانس مختصات موجود در خط یا هواپیما را تا حد امکان می کند.

PCA تجسم داده هایی را ایجاد می کند که واریانس باقیمانده را در حداقل مربعات به حداقل می رساند و واریانس مختصات طرح ریزی را به حداکثر می رساند.

چگونه PCA کار می کند

در مقاله قبلی ، ما توضیح دادیم که چرا داده های قبل از درمان برای PCA ضروری است. حال ، با استفاده از یک رویکرد هندسی ، نگاهی به نحوه عملکرد PCA بیندازیم.

یک ماتریس X را با ردیف های N (با نام "مشاهدات") و ستون های K (با نام "متغیرها") در نظر بگیرید. برای این ماتریس ، ما یک فضای متغیر را با ابعاد زیادی ایجاد می کنیم که متغیرها وجود دارد (شکل زیر را ببینید). هر متغیر یک محور مختصات را نشان می دهد. برای هر متغیر ، طول طبق معیار مقیاس گذاری ، به طور معمول با مقیاس بندی به واریانس واحد استاندارد شده است. در پست وبلاگ قبلی می توانید جزئیات بیشتری در مورد مقیاس گذاری به واریانس واحد پیدا کنید.

یک فضای متغیر K-Dimensional. برای سادگی ، فقط سه محور متغیر نمایش داده می شود."طول" هر محور مختصات مطابق با یک معیار خاص ، معمولاً مقیاس بندی واریانس واحد استاندارد شده است.

در مرحله بعدی ، هر مشاهده (ردیف) ماتریس X در فضای متغیر K بعدی قرار می گیرد. در نتیجه ، ردیف های جدول داده ها تعداد زیادی از نقاط موجود در این فضا را تشکیل می دهند.

مشاهدات (ردیف ها) در ماتریس داده X را می توان به عنوان ازدحام نقاط در فضای متغیر (K-Space) درک کرد.

میانگین مرکز

در مرحله بعد ، میانگین مرکز شامل تفریق میانگین متغیر از داده ها است. بردار میانگین ها با یک نقطه در فضای k مطابقت دارد.

در روش میانگین مرکز ، ابتدا میانگین متغیر را محاسبه می کنید. این بردار میانگین به عنوان یک نقطه (در اینجا به رنگ قرمز) در فضا قابل تفسیر است. نقطه در وسط Swarm Point (در مرکز ثقل) واقع شده است.

تفریق میانگین از داده ها مربوط به موقعیت مجدد سیستم مختصات است ، به گونه ای که اکنون نقطه میانگین منشاء آن است.

روش میانگین مرکز مربوط به حرکت منشأ سیستم مختصات است تا با یک نقطه متوسط (در اینجا به رنگ قرمز) همزمان شود.

اولین مؤلفه اصلی

پس از میانگین مرکز و مقیاس گذاری به واریانس واحد ، مجموعه داده ها برای محاسبه اولین فهرست خلاصه ، اولین مؤلفه اصلی (PC1) آماده است. این مؤلفه خطی در فضای متغیر K بعدی است که به بهترین وجه داده ها را به معنای کمترین مربعات تقریب می دهد. این خط از یک نقطه متوسط عبور می کند. هر مشاهده (نقطه زرد) اکنون ممکن است بر روی این خط پیش بینی شود تا یک مقدار مختصات در امتداد خط PC باشد. این مقدار مختصات جدید همچنین به عنوان امتیاز شناخته می شود.

اولین مؤلفه اصلی (PC1) خطی است که به بهترین شکل شکل Swarm Point را تشکیل می دهد. این نشان دهنده حداکثر جهت واریانس در داده ها است. هر مشاهده (نقطه زرد) ممکن است بر روی این خط پیش بینی شود تا یک مقدار مختصات در امتداد خط PC باشد. این مقدار به عنوان یک امتیاز شناخته می شود.

دومین مؤلفه اصلی

معمولاً ، یک فهرست خلاصه یا مؤلفه اصلی برای مدل سازی تغییر سیستماتیک یک مجموعه داده کافی نیست. بنابراین ، یک فهرست خلاصه دوم - یک مؤلفه اصلی دوم (PC2) - محاسبه می شود. PC دوم همچنین توسط یک خط در فضای متغیر K-Dimensional نشان داده شده است ، که به PC اول متعامد است. این خط همچنین از یک نقطه متوسط عبور می کند و تقریب داده های X را تا حد امکان بهبود می بخشد.

مؤلفه اصلی دوم (PC2) به گونه ای گرایش یافته است که نشان دهنده دومین منبع بزرگ تغییر در داده ها در حالی که متعامد به رایانه اول است. PC2 همچنین از یک نقطه متوسط عبور می کند.

دو مؤلفه اصلی یک صفحه مدل را تعریف می کنند

هنگامی که دو مؤلفه اصلی به دست آمده است ، آنها با هم یک مکان را تعریف می کنند ، یک پنجره به فضای متغیر K بعدی. با ارائه تمام مشاهدات بر روی زیر فضای کم بعدی و ترسیم نتایج ، می توان ساختار مجموعه داده های مورد بررسی را تجسم کرد. مقادیر مختصات مشاهدات موجود در این هواپیما نمرات نامیده می شود و از این رو ترسیم چنین پیکربندی پیش بینی شده به عنوان یک نمره نمره شناخته می شود.

دو رایانه یک هواپیما را تشکیل می دهند. این هواپیما پنجره ای به فضای چند بعدی است که می تواند به صورت گرافیکی مشاهده شود. هر مشاهده ممکن است روی این هواپیما پیش بینی شود و برای هر یک نمره کسب کند.

مدل سازی یک مجموعه داده

حال ، بیایید در نظر بگیریم که این به نظر می رسد با استفاده از مجموعه داده هایی از غذاهایی که معمولاً در کشورهای مختلف اروپایی مصرف می شود. شکل زیر نمره نمره دو مؤلفه اصلی را نشان می دهد. این نمرات T1 و T2 نامیده می شود. نمره نمره نقشه 16 کشور است. کشورهای نزدیک به یکدیگر دارای پروفایل مصرف مواد غذایی مشابه هستند ، در حالی که کشورهای دور از یکدیگر متفاوت هستند. کشورهای نوردیک (فنلاند ، نروژ ، دانمارک و سوئد) در گوشه سمت راست فوقانی در کنار هم قرار دارند و بدین ترتیب گروهی از کشورها را با برخی شباهت در مصرف مواد غذایی نشان می دهند. بلژیک و آلمان نزدیک به مرکز (مبدا) طرح هستند که نشان می دهد آنها دارای خاصیت متوسط هستند.

نمره نمره PCA از دو رایانه اول یک داده در مورد پروفایل مصرف مواد غذایی. این نقشه ای از نحوه ارتباط کشورها با یکدیگر را فراهم می کند. مؤلفه اول 32 ٪ از تغییرات و مؤلفه دوم 19 ٪ را توضیح می دهد. رنگ شده توسط موقعیت جغرافیایی (عرض جغرافیایی) از پایتخت مربوطه.

نحوه تفسیر نمره نمره

در یک مدل PCA با دو مؤلفه ، یعنی یک هواپیما در فضای K ، کدام متغیرها (مقررات غذایی) مسئول الگوهای دیده شده در بین مشاهدات (کشورها) هستند؟ما می خواهیم بدانیم کدام متغیرها تأثیرگذار هستند و همچنین چگونه متغیرها با هم ارتباط دارند. چنین دانش توسط بارهای مؤلفه اصلی (نمودار زیر) داده می شود. این بردارهای بارگیری P1 و P2 نامیده می شوند.

شکل زیر روابط بین هر 20 متغیر را به طور همزمان نشان می دهد. متغیرهایی که به اطلاعات مشابه کمک می کنند با هم گروه بندی می شوند ، یعنی آنها با هم ارتباط دارند. نان ترد (CRIPS_BR) و ماهی های منجمد (fro_fish) نمونه هایی از دو متغیر هستند که با همبستگی مثبت دارند. هنگامی که مقدار عددی یک متغیر افزایش یا کاهش می یابد ، مقدار عددی متغیر دیگر تمایل به تغییر به همان روش دارد.

هنگامی که متغیرها با همبستگی منفی ("معکوس") همبستگی دارند ، آنها در طرفین مخالف منشأ نقشه ، در ربع های مورب 0 قرار می گیرند. به عنوان مثال ، متغیرها سیر و شیرین کننده به طور معکوس همبستگی دارند ، به این معنی که وقتی سیر افزایش می یابد ، شیرین کننده کاهش می یابد و بالعکس.

طرح بارگذاری PCA از دو مؤلفه اصلی اول (P2 در مقابل P1) با مقایسه غذاهای مصرفی.

اگر دو متغیر همبستگی مثبت داشته باشند ، هنگامی که مقدار عددی یک متغیر افزایش یا کاهش می یابد ، مقدار عددی متغیر دیگر تمایل به تغییر به همان روش دارد.

علاوه بر این ، فاصله تا مبدا نیز اطلاعات را منتقل می کند. هرچه دورتر از منشأ نقشه یک متغیر باشد ، تأثیر متغیر بر مدل قوی تر است. به عنوان مثال ، این بدان معناست که متغیرها نان ترد (CRISP_BR) ، ماهی منجمد (fro_fish) ، سبزیجات یخ زده (fro_veg) و سیر (سیر) چهار کشور نوردیک را از دیگران جدا می کنند. چهار کشور نوردیک به عنوان دارای مقادیر بالا (مصرف زیاد) از سه ماده قبلی و مصرف کم سیر مشخص می شوند. علاوه بر این ، تفسیر مدل نشان می دهد که کشورهایی مانند ایتالیا ، پرتغال ، اسپانیا و تا حدی ، اتریش مصرف زیاد سیر و مصرف کم شیرین ، سوپ قلع شده (Ti_soup) و میوه های قلع شده (Ti_fruit) را دارد.

از نظر هندسی ، بارهای مؤلفه اصلی جهت گیری هواپیمای مدل در فضای متغیر K بعدی را بیان می کند. جهت PC1 در رابطه با متغیرهای اصلی توسط کسین زاویه های A1 ، A2 و A3 آورده شده است. این مقادیر نشان می دهد که چگونه متغیرهای اصلی X1 ، X2 و X3 "بار" را به (معنی به) PC1 بار می دهند. از این رو ، آنها بارهای نامیده می شوند.

مجموعه دوم ضرایب بارگیری ، جهت PC2 را در رابطه با متغیرهای اصلی بیان می کند. از این رو ، با توجه به دو رایانه شخصی و سه متغیر اصلی ، شش مقدار بارگیری (Cosine of Angles) مورد نیاز است تا مشخص شود که چگونه صفحه مدل در فضای K قرار دارد.

بارهای مؤلفه اصلی کشف می کند که چگونه صفحه مدل PCA در فضای متغیر وارد می شود. بارها برای تفسیر معنی نمرات استفاده می شود.

مدرسه ی فارکس...
ما را در سایت مدرسه ی فارکس دنبال می کنید

برچسب : نویسنده : ارسلان فرهادی بازدید : 45 تاريخ : چهارشنبه 10 خرداد 1402 ساعت: 21:09