رابطه بین ساختار بازار مالی و اقتصاد واقعی: مقایسه بین روشهای خوشه بندی

ساخت وبلاگ

20 آوریل 2015: PLOS One Staff (2015) تصحیح: رابطه بین ساختار بازار مالی و اقتصاد واقعی: مقایسه بین روشهای خوشه بندی. PLOS ONE 10 (4): E0126998. https://doi.org/10. 1371/joual. pone. 0126998 مشاهده تصحیح

ارقام

خلاصه

ما مقدار اطلاعات فیلتر شده توسط روشهای مختلف خوشه بندی سلسله مراتبی را در مورد همبستگی بین بازده سهام با مقایسه ساختار خوشه بندی با طبقه بندی فعالیت صنعتی اساسی کمیت می کنیم. ما برای اولین بار در داده های مالی ، یک رویکرد خوشه بندی سلسله مراتبی جدید ، درخت سلسله مراتبی حباب کارگردانی اعمال می کنیم و آن را با روش های دیگر از جمله پیوند و k-medoids مقایسه می کنیم. با در نظر گرفتن طبقه بندی بخش صنعتی سهام به عنوان یک پارتیشن معیار ، ما ارزیابی می کنیم که چگونه روشهای مختلف این طبقه بندی را بازیابی می کنند. نتایج نشان می دهد که درخت سلسله مراتبی حباب کارگردانی می تواند از سایر روشها بهتر عمل کند ، قادر به بازیابی اطلاعات بیشتر با خوشه های کمتری است. علاوه بر این ، ما نشان می دهیم که اطلاعات اقتصادی بسته به روش خوشه بندی در سطوح مختلف ساختارهای سلسله مراتبی پنهان است. تجزیه و تحلیل دینامیکی روی یک پنجره نورد همچنین نشان می دهد که روشهای مختلف درجات مختلفی از حساسیت نسبت به وقایع مؤثر بر بازارهای مالی ، مانند بحران ها را نشان می دهد. این نتایج می تواند مورد توجه کلیه کاربردهای روشهای خوشه بندی به بهینه سازی نمونه کارها و محافظت از ریسک باشد.

استناد: Musmeci N ، Aste T ، Di Matteo T (2015) رابطه بین ساختار بازار مالی و اقتصاد واقعی: مقایسه بین روشهای خوشه بندی. PLOS ONE 10 (3): E0116201. https://doi.org/10. 1371/joual. pone. 0116201

سردبیر دانشگاهی: توبیاس پریس ، دانشگاه وارویک ، انگلستان

دریافت: 27 مه 2014 ؛پذیرفته شده: 7 دسامبر 2014 ؛منتشر شده: 18 مارس 2015

کپی رایت: © 2015 Musmeci و همکاران. این یک مقاله دسترسی آزاد است که تحت شرایط مجوز انتساب Creative Commons توزیع شده است ، که اجازه استفاده ، توزیع و تولید مثل بدون محدودیت را در هر رسانه ای می دهد ، مشروط بر اینکه نویسنده و منبع اصلی اعتبار داشته باشند

در دسترس بودن داده ها: داده های مورد استفاده در این مطالعه از طریق پایانه های بلومبرگ در دسترس است. پیوند مرجع به مجموعه داده ها: http://www. bloomberg.com/markets/stocks/.

بودجه: بودجه جزئی از: اقدام هزینه TD1210 ؛ESRC ES/K002309/1. سرمایه گذار هیچ نقشی در طراحی مطالعه ، جمع آوری داده ها و تجزیه و تحلیل ، تصمیم به انتشار یا تهیه نسخه خطی نداشت.

منافع رقابتی: نویسندگان اعلام کرده اند که هیچ منافع رقابتی وجود ندارد.

معرفی

شبکه های مبتنی بر همبستگی به طور گسترده ای در اکونوفیزیک به عنوان ابزاری برای فیلتر کردن ، تجسم و تجزیه و تحلیل داده های بازار مالی مورد استفاده قرار گرفته اند [1-8]. از آنجا که کار منی مانتگنا در حداقل درخت پوششی (MST) [1] آنها بینش هایی در مورد چندین جنبه از بازارهای مالی از جمله بحران های مالی ارائه داده اند [9-15]. MST کاملاً مرتبط با [16] به یک الگوریتم خوشه بندی سلسله مراتبی ، یعنی پیوند واحد (SL) [17]. با شروع از مجموعه ای از عناصر (به عنوان مثال ، سهام) و یک ماتریس فاصله مرتبط (به عنوان مثال ، تحول مناسب ماتریس همبستگی سهام [1]) ، SL یک الگوریتم آگلومراتیو را انجام می دهد که با یک درخت (دندوگرام) به پایان می رسدعناصر به یک ساختار سلسله مراتبی [16]. روش فیلتر مرتبط با MST و SL به طور موفقیت آمیز برای بهبود بهینه سازی نمونه کارها اعمال شده است [10]. یکی دیگر از روش های خوشه بندی سلسله مراتبی ، میانگین پیوند (AL) ، نشان داده شده است که با نسخه کمی متفاوت از درخت پوششی همراه است [18] ، به نام میانگین پیوند حداقل درخت پوششی. نوع دیگری از روشهای پیوند ، که به نمایندگی درخت پوشانده نیست ، پیوند کامل (CL) است [17].

MST اولین شبکه فیلتر شده مبتنی بر همبستگی نیست که در ادبیات مورد مطالعه قرار می گیرد. به طور خاص نمودار حداکثر فیلتر شده مسطح (PMFG) گام دیگری از MST است ، که قادر به حفظ مقدار بیشتری از اطلاعات است [3 ، 4 ، 19] ، با محدودیت توپولوژیکی کمتری که امکان حفظ تعداد بیشتری از پیوندها را دارد. ثابت شده است که PMFG کاربردهای عملی جالبی دارد ، به ویژه در زمینه استراتژی های سرمایه گذاری برای محافظت از ریسک [20].

از آنجا که MST یک روش خوشه بندی را مرتبط کرده است ، و PMFG تعمیم MST است ، می توان این سؤال را مطرح کرد که آیا PMFG یک روش خوشه بندی را ارائه می دهد که از این مقدار بالاتر اطلاعات بهره می برد. در یک اثر اخیر [21] نشان داده شده است که این مورد است: درخت سلسله مراتبی حباب کارگردانی (DBHT) یک روش خوشه بندی سلسله مراتبی جدید است که از توپولوژی PMFG بهره می برد و یک پارتیشن خوشه بندی و یک سلسله مراتب مرتبط را دارد.(برای الگوریتم DBHT به مواد تکمیلی [21] یا برای نسخه کمی اصلاح شده ، به [22] مراجعه کنید.) این رویکرد کاملاً متفاوت از آگلومراتیو اتخاذ شده در روشهای پیوند است: ایده DBHT استفاده ازسلسله مراتب پنهان در توپولوژی PMFG ، به دلیل خاصیت ساخته شده از سه طبقه [21 ، 23]. در [21] خوشه بندی سلسله مراتبی DBHT برای داده های مصنوعی و بیولوژیکی اعمال شده است ، نشان می دهد که می تواند از بسیاری از روش های خوشه بندی دیگر بهتر عمل کند. از آنجا که DBHT از توپولوژی شبکه همبستگی بهره برداری می کند ، می توان به عنوان نمونه ای از الگوریتم تشخیص جامعه در نمودارها مشاهده کرد [24].

در این مقاله اولین کاربرد DBHT را به داده های مالی ارائه می دهیم. به این منظور ما همبستگی بین بازده ورود به سیستم از 342 قیمت سهام ایالات متحده را در طی یک دوره 15 ساله (2012-2012) تجزیه و تحلیل کرده ایم. ما ساختار خوشه بندی را مورد مطالعه قرار داده ایم و نتایج را با سایر روشهای خوشه بندی مقایسه کرده ایم ، یعنی: پیوند واحد ، اتصال متوسط ، پیوند کامل و k-medoids [25] (یک روش پارتیشن بندی کاملاً مربوط به K-یعنی [26]). چشم انداز مطالعه ما نه تنها بر خوشه ها بلکه در کل سلسله مراتب مرتبط با آن خوشه ها متمرکز است و تمام سطوح مختلف ساختارهای سلسله مراتبی را پوشش می دهد. ما همچنین تکامل دینامیکی این ساختارها را مورد مطالعه قرار داده ایم و توصیف می کنیم که چگونه سلسله مراتب با زمان تغییر می کنند. چشم انداز پویا برای برنامه ها ، به ویژه برای آنچه در مورد خطر خطر و بهینه سازی نمونه کارها نگران کننده است ، بسیار مهم است. به همین دلیل ما توجه ویژه ای به اثرات بحران های مالی بر ساختارهای سلسله مراتبی نشان داده ایم و تفاوتهای بین روشهای خوشه بندی را برجسته می کنیم.

جنبه دیگری که ما روی آن تمرکز کرده ایم ، نقش حالت بازار در شکل دادن به ساختار خوشه بندی است. برای این هدف ما تجزیه و تحلیل های خود را نیز در مورد بازده های ورود به سیستم از حالت بازار انجام داده ایم [27]: این روش ثابت شده است که یک خوشه بندی قوی تر را ارائه می دهد که می تواند اطلاعاتی را در ماتریس همبستگی اصلی مشهود نکند [27]. مقایسه بین ساختارهای همبستگی دفع شده و غیر تخریب شده می تواند تأثیر عوامل متداول در پویایی بازار جمعی به ویژه در زمان بحران را روشن کند.

به منظور مقایسه میزان کمی اطلاعات بازیابی شده توسط روشهای مختلف خوشه بندی سلسله مراتبی ، ما معیار طبقه بندی صنعتی (ICB) را به عنوان یک پارتیشن معیار جامعه برای سهام گرفته ایم و سپس آن را با خروجی هر روش خوشه بندی مقایسه کرده ایم. ایده این است که از درجه شباهت بین ICB و خوشه بندی به عنوان یک پروکسی برای میزان اطلاعات فیلتر شده توسط روش ها استفاده کنیم. درجه شباهت با استفاده از ابزارها به عنوان شاخص تنظیم شده RAND [28] و آزمون فرضیه هیپرگومتریک اندازه گیری می شود [29]. این اولین کار با مقایسه خوشه های مبتنی بر همبستگی و طبقه بندی بخش صنعت نیست. با این حال ، با دانش ما ، مقایسه فقط از نظر کیفی تاکنون انجام شده است [30] ، به استثنای Ref.[27] در جایی که فقط یک روش خوشه بندی مورد تجزیه و تحلیل قرار می گیرد. در مرجع.[31] نویسندگان روشهای کمی متفاوت را از نظر میزان اطلاعات فیلتر شده مقایسه کرده اند: با این حال این مقایسه بدون نگاه به طبقه بندی بخش صنعت و با فرض توزیع چند متغیره گاوسی برای بازده سهام انجام شده است [16]. رویکرد ما در عوض بدون مدل است. این یک پیشرفت مرتبط است زیرا مدل های چند متغیره گاوسی برای توصیف بازده سهام نادرست شناخته شده اند [32 ، 33] و ، به طور کلی ، شبکه های مبتنی بر همبستگی به دست آمده از داده های واقعی با برخی از مدلهای گسترده برای بازده دارایی ناسازگار هستند[34]

مقاله بصورت زیر مرتب شده است. در بخش "روشها" ما ابزارهای اصلی را که برای انجام تحلیل ها استفاده کرده ایم توصیف می کنیم. در بخش "مجموعه داده ها و تجزیه و تحلیل های اولیه" ما مجموعه داده ها و برخی از تجزیه و تحلیل های تجربی اولیه را در مورد آن ارائه می دهیم. در بخش "تجزیه و تحلیل استاتیک" ما مجموعه ای از تجزیه و تحلیل ها را در مورد همبستگی ها و خوشه های محاسبه شده با در نظر گرفتن کل دوره 15 سال به عنوان پنجره زمان انجام می دهیم ، از این رو تنها با یک ساختار سلسله مراتبی وابستگی برای هر روش به پایان می رسد. به طور خاص ، ما ترکیبات خوشه بندی را از نظر سوپرستورهای ICB برای روشهای مختلف خوشه بندی مقایسه می کنیم و شباهت بین خوشه ها و پارتیشن ICB را اندازه گیری می کنیم. در بخش "تجزیه و تحلیل دینامیکی" ما در عوض تجزیه و تحلیل با استفاده از یک رویکرد دینامیکی ، با ویندوزهای زمان حرکت انجام می دهیم. در بخش "بحث" ما در مورد نتایج و مسیرهای آینده کار خود بحث می کنیم. جزئیات بیشتر در مورد روشهای خوشه بندی که ما تجزیه و تحلیل کرده ایم در اطلاعات تکمیلی (SI ، بخش S2 پرونده S1) گزارش شده است.

مواد و روش ها

برای بررسی و مقایسه DBHT با سایر روشهای خوشه بندی ، ما مجموعه ای از تجزیه و تحلیل ها را انجام داده ایم که هدف از آن در توصیف جنبه های مختلف هر خوشه بندی ، از ساختار آنها گرفته تا اطلاعات اقتصادی آنها است. در اینجا ابزارهایی را که استفاده کرده ایم معرفی و توصیف می کنیم.

روش های خوشه بندی

در این مقاله چهار روش مختلف خوشه بندی را با هم مقایسه می کنیم ، یعنی: پیوند تک (SL) ، پیوند متوسط (AL) ، پیوند کامل (CL) ، درخت سلسله مراتبی حباب (DBHT) ، K-Medoids. تمام این روشها نیاز به اندازه گیری مسافت مناسب دارند و DBHT نیز به یک اندازه گیری شباهت مرتبط نیاز دارد. در این مقاله از ضرایب همبستگی پیرسون ρ استفاده می کنیمIJبین جفت سهام به عنوان اندازه گیری شباهت و ما از فاصله اقلیدسی مرتبط d i j = 2 (1 - ρ i j) استفاده می کنیم. ρ و D ماتریس های متقارن n × N هستند ، به ترتیب ، همه آنهایی که و تمام صفرهای موجود در مورب هستند. بگذارید در اینجا به طور خلاصه ویژگی ها و الزامات اصلی این روش های خوشه بندی را ذکر کنیم.

  • پیوند تک (SL) ، یک الگوریتم خوشه بندی سلسله مراتبی است [17]. با توجه به ماتریس فاصله ، شروع به اختصاص به هر شیء خوشه خود می کند ، و سپس در هر مرحله کمترین جفت خوشه را با هم ادغام می کند ، تا اینکه فقط یک خوشه باقی بماند. در هر مرحله ، فاصله بین خوشه های A و B به روز می شود و حداقل فاصله بین عناصر موجود در خوشه ها را به روز می کند: (1) SL به عنوان خوشه بندی آگلومراتیو نامیده می شود ، زیرا با یک پارتیشن از خوشه های N شروع می شود و سپس ادغام آنها می شود. خروجی نهایی یک دندروگرام است ، یعنی درختی است که ساختار سلسله مراتبی را نشان می دهد. اندازه گیری فاصله در این دندروگرام یک فاصله فوق العاده سنجی است (به عنوان مثال مراجعه کنید [1]). با انتخاب تعداد خوشه ها (که این یک پارامتر رایگان است) و برش دندروگرام در سطح مناسب می توان یک پارتیشن خوشه ای را بدست آورد. الگوریتم SL کاملاً مربوط به آن است که حداقل درخت پوششی (MST) را فراهم می کند [16]. MST یک نمودار درخت است ، دقیقاً حاوی پیوندهای N-1 است. بنابراین یک رابطه دقیق بین این دو ابزار وجود دارد. با این حال MST برخی از اطلاعات را که دندروگرام SL دور می کند ، حفظ می کند [16].
  • پیوند متوسط (AL) [17] یک الگوریتم خوشه بندی سلسله مراتبی است که به همان روش SL ساخته می شود ، اما با Eq. 1 جایگزین شده توسط: (2)
  • پیوند کامل (CL) [17] نوع دیگری از SL است ، جایی که Eq. 1 جایگزین شده است: (3)
  • درخت سلسله مراتبی حباب کارگردانی (DBHT) [21] ، در عوض ، یک روش خوشه بندی سلسله مراتبی جدید است که از خاصیت توپولوژیکی PMFG (نمودار حداکثر فیلتر شده مسطح) به منظور اختصاص خوشه بندی بهره می برد. PMFG تعمیم MST است که در PMFG به عنوان یک زیرگراف گنجانده شده است. این می تواند با پیوستن بازگشتی با گره های لبه ای با کمترین فاصله محدود کننده روش فقط به لبه هایی که باعث نقض وضعیت برنامه ریزی نمودار نمی شوند ، ساخته شود. PMFG حاوی MST به عنوان زیر بخش است اما تعداد بیشتری از پیوندها را نسبت به MST (3 (N-2) به جای N-1) حفظ می کند. عناصر اصلی یک PMFG سه طبقه (زیرگرافهای ساخته شده از سه گره است که همه به صورت متقابل به هم متصل هستند). DBHT از این ساختار توپولوژیکی و به ویژه تمایز بین سه طبقه جداکننده و غیر جداکننده ، برای شناسایی یک پارتیشن خوشه ای از همه گره ها در PMFG استفاده می کند [21]. الگوریتم های پیوندی به لیست مرتب شده مسافت d نگاه می کنندIJبا جمع آوری زیر مجموعه های سهام با کمترین مسافت ، دندروگرام را بسازید و سپس پس از انتخاب تعداد خوشه ها به عنوان پارامتر رایگان ، خوشه بندی را از دندروگرام پیدا کنید. در عوض DBHT این ترتیب را معکوس می کند: اول از همه خوشه ها با استفاده از ملاحظات توپولوژیکی در نمودار مسطح مشخص می شوند ، سپس سلسله مراتب هم بین نپرها و هم در داخل گلدان ها ساخته می شود. بنابراین تفاوت شامل نوع اطلاعات مورد بهره برداری و رویکرد روش شناختی است.
  • K-Medoids یک روش خوشه بندی پارتیشن بندی است که از نزدیک با K-Means مرتبط است [26]. تعداد خوشه های n را می گیردکلوچهبه عنوان یک ورودیالگوریتم به اصطلاح پارتیشن بندی در اطراف Medoids (PAM) است و در مراحل زیر ساخته شده است: 1) به طور تصادفی N را انتخاب کنیدکلوچه"Medoids" در میان عناصر N ؛2) هر عنصر را به نزدیکترین مدوئید اختصاص دهید. 3) برای هر مدوئید ، medoid را با هر نقطه اختصاص داده شده به آن تعویض کرده و هزینه هر پیکربندی را محاسبه کنید. 4) پیکربندی را با کمترین هزینه انتخاب کنید. 5) تکرار 2) -4) تا زمانی که هیچ تغییری رخ دهد. این روش ، متفاوت از قبلی ، یک روش سلسله مراتبی نیست و بنابراین یک دندروگرام را ارائه نمی دهد بلکه فقط یک پارتیشن است.

اندازه گیری ناهمگونی خوشه بندی: اختلاف

روشهای مختلف خوشه بندی حتی در شرایط ورودی یکسان می توانند در خروجی خوشه بندی تفاوت زیادی داشته باشند. برخی از روشهای خوشه بندی ممکن است یک زیر مجموعه را در چند خوشه بسیار بزرگ و بسیاری از خوشه های کوچک فراهم کنند ، در حالی که دیگر ممکن است توزیع همگن تر را نشان دهد. به منظور توصیف توزیع کاردینالیت خوشه ای با یک مقدار واحد ، ما برای هر پارتیشن خوشه ای ضریب تغییر را محاسبه کرده ایم: (4) که در آن σحرفانحراف استاندارد (5) است و فاکتور عادی سازی ⟨S⟩ میانگین (6) با S استآخوشه کاردینال (تعداد سهام در) خوشه A و Nکلوچهتعداد خوشه هادر حد ترتیب همگن سهام در بین خوشه ها (یعنی هر خوشه دارای همان تعداد سهام است) ، ما σ را بدست می آوریمحرف= 0 و سپس y = 0. هرچه میزان ناهمگونی در توزیع اندازه ها بالاتر باشد ، بالاتر استحرفو بنابراین yدر ادامه از عبارت "نابرابری" برای اشاره به y استفاده کرده ایم تا تأکید کنیم که ما از آن به عنوان معیار ناهمگونی در اندازه خوشه ها استفاده می کنیم.

اندازه گیری شباهت خوشه بندی: شاخص RAND تنظیم شده

برای اندازه‌گیری مقدار اطلاعات اقتصادی در هر خوشه‌بندی مبتنی بر همبستگی، از شاخص رند تعدیل شده (ℛصفت) [28] که ابزاری است که برای مقایسه خوشه‌بندی‌های مختلف در مجموعه‌ای از آیتم‌ها [35] طراحی شده است. طبقه بندی بخش صنعتی در واقع چیزی جز تقسیم در جوامع N سهام نیست. بنابراین می‌توانیم شباهت بین خوشه‌بندی و طبقه‌بندی بخش صنعتی را به‌عنوان پروکسی برای اطلاعات شناسایی‌شده توسط روش خوشه‌بندی در نظر بگیریم.

به طور خاص، با توجه به دو خوشه‌بندی در مجموعه‌ای از آیتم‌ها، ℛصفتمقدار عددی برابر با 1 را برای خوشه های یکسان و 0 را برای خوشه های کاملاً مستقل که از یک انتخاب تصادفی قابل تشخیص نیستند، برمی گرداند.

ایده پشت این اندازه گیری این است که تعداد جفت اشیایی را که در یک خوشه در هر دو خوشه قرار دارند محاسبه کنیم و سپس این عدد را با عدد مورد انتظار در فرضیه خوشه بندی های مستقل مقایسه کنیم. به طور خاص، و به دنبال نماد [35]، اجازه دهید X را مجموعه ای از N اشیاء (سهام، در مورد ما) فراخوانی کنیم. اجازه دهید Y = Y را صدا کنیم1، …، Yک>خوشه‌بندی که بخشی از X به جوامعی است که زیرمجموعه‌های مجزای غیرخالی X هستند به طوری که اتحاد آنها برابر با X است: X = Y1∪… ∪ Yک[35]. اجازه دهید یک خوشه Y متفاوت دیگر را نیز در نظر بگیریم که شامل خوشه های l است. ماتریس M = m را "جدول احتمالی" می نامیمIJ>با ضرایب (7) یعنی تعداد اشیاء در تقاطع خوشه های Yمنو Y"j. اجازه دهید a تعداد جفت اشیایی را که هم در Y و هم در Y در یک خوشه هستند، و b تعداد جفت هایی را که در دو خوشه مختلف در Y و Y هستند، صدا کنیم. سپس شاخص رند به عنوان مجموع a و b تعریف می شود که با تعداد کل جفت ها در X نرمال می شود: (8) سپس به عنوان فرضیه صفر مرتبط با دو خوشه مستقل، از توزیع فرا هندسی تعمیم یافته استفاده می کنیم و شاخص رند تعدیل شده را تعریف می کنیم. به عنوان تفاوت بین شاخص رند و مقدار میانگین آن در فرض صفر، نرمال شده با حداکثری که این اختلاف می تواند به آن برسد: (9) که در آن (10) ما ℛ داریمصفت∈ [-1، 1]، با 1 متناظر با مورد خوشه‌بندی‌های یکسان و 0 تا دو خوشه کاملاً همبسته. مقادیر منفی در عوض ضد همبستگی بین Y و Y را نشان می‌دهند (یعنی تعداد جفت‌هایی که به‌طور یکسان توسط Y و Y طبقه‌بندی می‌شوند کمتر از آنچه انتظار می‌رود با فرض همپوشانی تصادفی بین دو خوشه‌بندی است).

تست هایپرهندسی برای بیان بیش از حد خوشه-صنعت

شاخص تنظیم شده RAND اندازه گیری کلی از شباهت بین پارتیشن خوشه بندی و طبقه بندی صنعتی را ارائه می دهد. به منظور تطبیق میزان بازیابی هر بخش صنعتی توسط هر خوشه ، باید به ترتیب سهام را در یک خوشه معین و یک بخش خاص بررسی کنیم و تعداد سهام مشترک را اندازه گیری کنیم. اگر درصد سهام مشترک بین یک خوشه و یک بخش صنعتی از نظر حساسیت بالاتر از آنچه از همپوشانی تصادفی جوامع انتظار می رود ، می گوییم که این خوشه بیش از حد یک بخش خاص را بیان می کند. برای تعیین کمیت چنین بیان بیش از حد ، از یک آزمون فرضیه یک دم آماری استفاده می کنیم ، جایی که فرضیه تهی توزیع بیش از حد است که این احتمال را توصیف می کند که با احتمال تصادفی دو جامعه از اندازه های داده شده در اشیاء مشترک K بیش از تعداد N [36 ، 37]بشربه طور خاص ، بگذارید با y تماس بگیریممنیک خوشه در خوشه بندی ما و y j ′ یک بخش. ما می خواهیم تأیید کنیم که آیا yمنOverexpresses y j. اگر k تعداد سهام مشترک بین y j ′ و y باشدمن، و ∣ yمن∣ ، ∣ y j ′ به ترتیب کاردینال های خوشه و بخش هستند ، سپس توزیع هیپرژمتریک [36] است: (11) این فرضیه تهی برای آزمون است: با همپوشانی تصادفی با شماره k قابل تشخیص استسهام مشترک باید با همپوشانی تصادفی متفاوت باشد و بنابراین P (x = k) باید کوچک باشد. اگر p (x = k) کمتر از سطح اهمیت باشد ، پس گفته می شود که آزمون رد می شود. اگر آزمون رد نشود ، به این معنی است که ما نمی توانیم این فرضیه را رد کنیم که سهام K در yمناز یک بخش y j at فقط به طور اتفاقی و بدون هیچ گونه ترجیح برای آن بخش انتخاب می شود. اگر در عوض آزمون رد شود ، نتیجه می گیریم که خوشه yمنبخش y j را بیان می کند. ما سطح معنی داری 1 ٪ را به همراه تصحیح Bonferroni برای آزمایش های متعدد انتخاب کرده ایم ، که به طور قابل توجهی سطح اهمیت هر آزمون را کاهش می دهد [36] (جزئیات بیشتر در بخش "بیان بیش از حد").

مجموعه داده ها و تجزیه و تحلیل های اولیه

ساختار همبستگی مورد مطالعه در این مقاله مربوط به 342 سهام از بورس اوراق بهادار نیویورک (NYSE) است. شرح کاملی از مجموعه داده ها در اطلاعات تکمیلی (بخش S1 پرونده S1) است. ما قیمت های روزانه بسته را تجزیه و تحلیل کرده ایممن(T) با I = 1 ،… ، n ، در مدت زمان بین 1 ژانویه 1997 تا 31 دسامبر 2012 (4026 روز معاملاتی). از قیمت ها ، بازده های روزانه را محاسبه کرده ایم [32 ، 33]: (12)

از مجموعه سری زمان ورود به سیستم N در یک پنجره زمانی t = [tشروع، tپایان] ما سپس ماتریس همبستگی n × n ρ (t) را محاسبه کرده ایم ، که عناصر آن توسط برآوردگر پیرسون داده می شود [38]: (13) که در آن ⟨…حرفمیانگین را در طول پنجره t نشان می دهد. تجزیه و تحلیل خوشه بندی سپس در ماتریس فاصله D انجام می شود ، با عناصر d i j (t) = 2 (1 - ρ i j (t)). برای تجزیه و تحلیل ویندوز در حال حرکت ، ما از یک نسخه صاف و صاف از برآوردگر پیرسون در Eq. 13 استفاده کردیم ، که در آن اصطلاحات به طور متوسط با وزن w t = w 0 exp (t - t e n d θ) با t ∈ T با توجه به زمانی آنها ضرب می شود. فاصله از آخرین زمان تجارت tپایاندر پنجره t. این طرح هموار سازی نمایی [39] اجازه می دهد تا حساسیت بیش از حد به خارج از کشور در مشاهدات از راه دور کاهش یابد. پارامتر θ با توجه به معیارهای قبلاً تعیین شده روی θ = t /3 تنظیم شده است [39].

با استفاده از این رویکرد پنجره زمانی متحرک ، ما مجموعه ای از تجزیه و تحلیل های اولیه را در مورد همبستگی متوسط مجموعه سهام خود انجام داده ایم و به ویژه در بحران مالی 2007-2008 جستجو می کنیم. به طور خاص ، ما مجموعه ای از N = 100 Windows Windows T را در نظر گرفته ایمک(k = 1 ،… ، n) طول l = 1000 روز معاملاتی (چهار سال) با 30 روز تغییر بین پنجره های بعدی. همبستگی متوسط ⟨ρ (tک)⟩IJدر این ویندوز در شکل 1 (دایره های آبی) برای L = 1000 و N = 100 نشان داده شده است. برای آزمایش استحکام ، ما تأیید کرده ایم که نتایج نیز برای سایر اندازه های پنجره ، یعنی L = 750 و L = 1250 مشابه است.

مدرسه ی فارکس...
ما را در سایت مدرسه ی فارکس دنبال می کنید

برچسب : نویسنده : ارسلان فرهادی بازدید : 44 تاريخ : چهارشنبه 10 خرداد 1402 ساعت: 22:00