منطقه تحت منحنی چگالی: نحوه تجسم و محاسبه با استفاده از پایتون

ساخت وبلاگ

Partial area under density curve. Graph generated using Python, Matplotlib and Seabo

ما در یک پست اخیر توزیع داده ها و منحنی چگالی را پوشش دادیم.

این پست به منطقه تحت منحنی چگالی متمرکز شده است. شما یاد خواهید گرفت:

  • منطقه زیر منحنی چه چیزی را نشان می دهد؟
  • چگونه می توانید از آن در برنامه های عملی که شامل احتمالات و صدک ها است ، استفاده کنید؟
  • چگونه می توان مناطقی را با استفاده از ماتپلوتلیب ، Seabo و Numpy ترسیم و محاسبه کرد؟

منحنی چگالی: یک recap سریع

منحنی چگالی یک طرح گرافیکی است که احتمال مرتبط با مقادیر مختلف یک متغیر را نشان می دهد.

محور x منحنی چگالی تمام مقادیر ممکن را نشان می دهد. این مقادیر به صورت فزاینده طبقه بندی می شوند. محور y احتمال مقادیر موجود در محور x را نشان می دهد.

بیایید آن را با مجموعه داده های دبیرستان Heights نشان دهیم. این یک مجموعه داده جعلی با اندازه گیری ارتفاع (در اینچ) از 1000 دانش آموز دبیرستانی است.

در زیر کد داده ها را با استفاده از پاندا بارگیری می کند و منحنی چگالی را با استفاده از عملکرد KDEPLOT () Seabo () ترسیم می کند:

#پاندا بار وارد كردن پاندا as pd #کتابخانه های تجسم بار وارد كردن matplotlib. pyplot as PLT وارد كردن دریایی as اسنک #پرونده CSV را بخوانیدارتفاع=PD.read_csv ("hs_heights. csv") #مجموعه داده فقط یک ستون دارد #بنابراین از Squeeze () استفاده کنید تا اطمینان حاصل کنیم که ما یک سری Pandas را به عقب برگردانیمارتفاع=ارتفاع.چلاندن، فشار دادن()#مقیاس سبک و فونت را با استفاده از Seabo تنظیم کنیداسنک.set_theme (سبک='WhiteGrid'، font_scale= 1. 75) #اندازه شکل را تنظیم کنیدPLT.شکل (شکل=(16, 10)) #منحنی چگالی را بکشید #FILL = سایه های واقعی منطقه زیر منحنیاسنک.kdeplot (ارتفاعات ، خط پهنای باند=2، پر کردن=درست است، واقعی) #خط عمودی در مقدار اوج - برای مرجعPLT.axvline (x=62. 5، عرض خط=3، رنگ='قرمز'، لاینستیل='--') #عنوان و برچسب هاPLT.عنوان("شکل 1. منحنی چگالی برای ارتفاعات دبیرستان"، پد=20) PLT.xlabel ("قد (اینچ)"، برچسب pad=20) PLT.ylabel ("احتمال"، برچسب pad=20) PLT.نمایش () 

Density curve for High School Heights: Generated using Seabo kdeplot()

همانطور که انتظار می رفت ، محور X ارتفاعاتی از کوتاهترین تا بلندترین طبقه بندی شده است. و محور y احتمال آن ارتفاعات را نشان می دهد.

منحنی چگالی تصویر روشنی از نحوه پخش ارتفاع به ما می دهد.

در شکل 1 می بینیم که قله های توزیع ارتفاعات در 62. 5 اینچ (خط قرمز) قله می کند. با حرکت ارتفاع از مقدار اوج ، یا به سمت چپ یا راست ، فرکانس کاهش می یابد. بنابراین شایع ترین ارتفاعات در حدود 62. 5 اینچ خوشه بندی می شوند.

ناحیه زیر منحنی چگالی

ما می دانیم که مجموع احتمالات برای یک متغیر 1 است و همانطور که قبلاً نیز اشاره شد ، منحنی چگالی احتمالات را برای تمام مقادیر یک متغیر نشان می دهد.

بنابراین ، مساحت کل در زیر منحنی چگالی همیشه برابر با 1 است.

این واقعیت ساده بسیار مفید است و کاربردهای عملی زیادی دارد.

تصور کنید اگر کسی از شما بپرسد - چند درصد از مقادیر داده ها در یک بازه زمانی خاص قرار می گیرند. می توانید با اندازه گیری سطح جزئی زیر منحنی به چنین سؤالاتی پاسخ دهید.

بیایید چند نمونه از این قبیل را با مجموعه داده ارتفاع خود بررسی کنیم!

ناحیه بالای یک مقدار خاص فارکس را از کجا شروع کنیم...
ما را در سایت فارکس را از کجا شروع کنیم دنبال می کنید

برچسب : نویسنده : لیما اصغرپورسازونی بازدید : 36 تاريخ : دوشنبه 2 مرداد 1402 ساعت: 13:44