آمار برای علم داده و یادگیری ماشین

جمعیت در مقابل نمونه
جمعیت
یک جامعه شامل کل مجموعه افراد یا اقلامی است که موضوع یک مطالعه آماری هستند. هر عضوی را در بر می گیرد که با معیارهای سوال تحقیق مطابقت داشته باشد.
-
مشخصات:
- جامع: شامل همه افراد یا موارد مورد علاقه است.
-
مولفه های: اندازه گیری هایی که کل جمعیت را توصیف می کند. نمونه هایی از پارامترها عبارتند از:
- میانگین جمعیت (μ): میانگین کل مقادیر در جامعه.
- انحراف استاندارد جمعیت (σ): اندازه گیری پراکندگی ارزش ها در جامعه.
مثال: همه دانشجویان در یک دانشگاه ثبت نام کردند.
نمونه
نمونه زیرمجموعه ای از جامعه است که به منظور تجزیه و تحلیل انتخاب شده است. این به محققان این امکان را می دهد تا بدون بررسی هر فرد، درباره جمعیت نتیجه گیری کنند.
-
مشخصات:
- زیرمجموعه: یک گروه کوچکتر و قابل مدیریت که از بین جمعیت انتخاب شده است.
-
آمار: اندازه گیری هایی که نمونه را توصیف می کند. نمونه هایی از آمار عبارتند از:
- میانگین نمونه (x̄): میانگین تمام مقادیر موجود در نمونه.
- انحراف استاندارد نمونه (های): اندازه گیری پراکندگی مقادیر در نمونه.
مثال: گروهی متشکل از 200 دانشجو که به طور تصادفی از کل ثبت نام یک دانشگاه انتخاب می شوند.
میانگین، میانه و حالت
منظور داشتن
میانگین یا میانگین، معیاری از تمایل مرکزی است که با جمع کردن تمام مقادیر یک مجموعه داده و سپس تقسیم بر تعداد مقادیر محاسبه می شود.
فرمول:
Mean (x̄) = (Σx) / N
جایی که:
- Σx مجموع تمام مقادیر موجود در مجموعه داده است.
- N تعداد مقادیر موجود در مجموعه داده است.
مثال:
برای مجموعه داده: 2، 4، 6، 8، 10
Mean (x̄) = (2 + 4 + 6 + 8 + 10) / 5 = 30 / 5 = 6
میانه
میانه مقدار متوسط یک مجموعه داده زمانی است که از کمترین به بزرگترین مرتب شده باشد. اگر مجموعه داده دارای تعداد مشاهدات فرد باشد، میانه مقدار وسط است. اگر تعداد مشاهدات زوج داشته باشد، میانه میانگین دو مقدار وسط است.
فرمول:
For an odd number of observations: Median = middle value
For an even number of observations: Median = (middle value 1 + middle value 2) / 2
مثال:
برای مجموعه داده (عدد فرد): 1، 3، 3، 6، 7، 8، 9
Median = 6
برای مجموعه داده (عدد زوج): 1، 2، 3، 4، 5، 6، 8، 9
Median = (4 + 5) / 2 = 9 / 2 = 4.5
حالت
حالت مقداری است که اغلب در یک مجموعه داده ظاهر می شود. یک مجموعه داده می تواند بیش از یک حالت داشته باشد اگر چندین مقدار دارای بالاترین فرکانس یکسان باشند، یا بدون حالت اگر همه مقادیر منحصر به فرد هستند.
فرمول:
Mode = value with the highest frequency
مثال:
برای مجموعه داده: 1، 2، 2، 3، 4، 4، 4، 5، 5
Mode = 4
واریانس و انحراف معیار
واریانس
واریانس گسترش مجموعه ای از اعداد را اندازه گیری می کند. میانگین اختلاف مجذور از میانگین را نشان میدهد و این حس را ارائه میدهد که مقادیر در یک مجموعه داده چقدر از میانگین انحراف دارند.
فرمول:
برای یک جمعیت:
Variance (σ²) = Σ (x - μ)² / N
برای نمونه:
Variance (s²) = Σ (x - x̄)² / (n - 1)
جایی که:
- Σ مجموع همه مقادیر است.
- x هر مقدار جداگانه است.
- μ میانگین جمعیت است.
- x میانگین نمونه است.
- N تعداد کل مقادیر در جامعه است.
- n تعداد کل مقادیر در نمونه است.
مثال:
برای مجموعه داده نمونه: 2، 4، 4، 4، 5، 5، 7، 9
1. Calculate the sample mean (x̄):
x̄ = (2 + 4 + 4 + 4 + 5 + 5 + 7 + 9) / 8 = 40 / 8 = 5
2. Calculate each (x - x̄)²:
(2 - 5)² = 9
(4 - 5)² = 1
(4 - 5)² = 1
(4 - 5)² = 1
(5 - 5)² = 0
(5 - 5)² = 0
(7 - 5)² = 4
(9 - 5)² = 16
3. Sum of squared differences:
Σ (x - x̄)² = 9 + 1 + 1 + 1 + 0 + 0 + 4 + 16 = 32
4. Calculate the variance:
s² = 32 / (8 - 1) = 32 / 7 ≈ 4.57
انحراف معیار
انحراف معیار جذر واریانس است. این معیاری از گسترش مقادیر در یک مجموعه داده در واحدهای مشابه داده را ارائه می دهد و تفسیر آن را آسان تر می کند.
فرمول:
برای یک جمعیت:
Standard Deviation (σ) = √(Σ (x - μ)² / N)
برای نمونه:
Standard Deviation (s) = √(Σ (x - x̄)² / (n - 1))
مثال:
با استفاده از واریانس محاسبه شده در بالا (s² ≈ 4.57):
Standard Deviation (s) = √4.57 ≈ 2.14
ضریب همبستگی
ضریب همبستگی قدرت و جهت رابطه خطی بین دو متغیر را اندازه گیری می کند. از -1 تا 1 متغیر است، که در آن:
- r = 1: همبستگی مثبت کامل
- r = -1: همبستگی منفی کامل
- r = 0: بدون همبستگی
فرمول
ضریب همبستگی پیرسون (اغلب با r نشان داده می شود) با استفاده از فرمول زیر محاسبه می شود:
r = Σ((x - x̄)(y - ȳ)) / √(Σ(x - x̄)² * Σ(y - ȳ)²)
جایی که:
- x و y مقادیر مجزای دو متغیر هستند.
- x و ȳ میانگین دو متغیر هستند.
- Σ نشان دهنده جمع تمام نقاط داده است.
تفسیر
- r > 0: همبستگی مثبت (با افزایش یک متغیر، متغیر دیگر تمایل به افزایش دارد).
- r < 0: همبستگی منفی (با افزایش یک متغیر، متغیر دیگر تمایل به کاهش دارد).
- r = 0: بدون همبستگی خطی.
- هرچه r به 1 یا -1 نزدیکتر باشد، همبستگی قوی تر است.
مثال
دو متغیر X (ساعت مطالعه) و Y (نمرات امتحان) را برای گروهی از دانش آموزان در نظر بگیرید:
ساعت مطالعه (X) | نمرات امتحان (Y) |
---|---|
3 | 65 |
4 | 75 |
6 | 85 |
7 | 90 |
9 | 95 |
محاسبات:
- میانگین (x̄ و ȳ) را محاسبه کنید.
- انحراف از میانگین (x – x̄ و y – ȳ) را محاسبه کنید.
- انحرافات را مربع کنید و آنها را جمع کنید.
- انحراف های X و Y را ضرب کرده، آنها را جمع کرده و بر حاصل ضرب جذر مجموع انحرافات مجذور تقسیم می کنیم.
نتیجه:
r ≈ 0.98
تفسیر
ضریب همبستگی r تقریباً 0.98 است که نشان دهنده یک رابطه خطی مثبت قوی بین ساعات مطالعه و نمرات امتحان است. با افزایش ساعات مطالعه، نمرات امتحانات نیز افزایش می یابد.
تخمین نقطه ای
تخمین نقطه ای یک روش آماری است که برای تخمین پارامتر ناشناخته یک جامعه بر اساس داده های نمونه استفاده می شود. این شامل استفاده از یک مقدار واحد به نام تخمین نقطه ای برای تقریب مقدار واقعی پارامتر است.
مفاهیم کلیدی
-
جمعیت: کل گروه افراد، آیتم ها یا رویدادهای مورد علاقه در یک مطالعه آماری.
-
پارامتر: مشخصه عددی یک جامعه که ناشناخته است و معمولاً در تجزیه و تحلیل آماری مورد توجه است. به عنوان مثال می توان به میانگین جمعیت، نسبت جمعیت، واریانس جمعیت و غیره اشاره کرد.
-
نمونه: زیر مجموعه ای از جامعه که داده ها از آن جمع آوری می شود.
-
تخمین امتیاز: یک مقدار واحد، محاسبه شده از داده های نمونه، که به عنوان بهترین حدس برای مقدار واقعی پارامتر جمعیت عمل می کند. با یک نماد خاص مانند “x̄” برای تخمین نقطه ای پارامتر “μ” نشان داده می شود.
خواص تخمین نقطه ای
-
بی طرفی: یک تخمین نقطه ای بدون تعصب است اگر مقدار مورد انتظار آن با مقدار واقعی پارامتر تخمین زده شده برابر باشد.
-
بهره وری: یک تخمین نقطه کارآمد کمترین واریانس ممکن را در بین همه برآوردگرهای بی طرف پارامتر دارد.
-
ثبات: یک تخمین نقطه ثابت با افزایش حجم نمونه به مقدار واقعی پارامتر همگرا می شود.
نمادهای تخمین نقطه
- میانگین جمعیت: “μ”
- میانگین نمونه: “x̄”
- واریانس جمعیت: “σ²”
- واریانس نمونه: “s²”
- انحراف استاندارد جمعیت: “σ”
- انحراف استاندارد نمونه: “s”
مثال
فرض کنید می خواهیم میانگین درآمد همه خانوارهای یک شهر را تخمین بزنیم. ما یک نمونه تصادفی از 100 خانوار جمعآوری میکنیم و میانگین درآمد نمونه (“x”) را محاسبه میکنیم. ما از «x̄» به عنوان تخمین نقطهای از میانگین درآمد جمعیت («μ») استفاده میکنیم.
برآوردگر
برآوردگر یک تابع یا قانون آماری است که برای تخمین پارامتر ناشناخته یک جامعه بر اساس داده های نمونه استفاده می شود. تخمین نقطه ای را محاسبه می کند که به عنوان بهترین حدس برای مقدار واقعی پارامتر عمل می کند.
انواع برآوردگرها
-
برآوردگر بی طرفانه: برآوردگر که مقدار مورد انتظار آن برابر با مقدار واقعی پارامتر مورد تخمین است.
-
برآوردگر سازگار: برآورد کننده ای که با افزایش حجم نمونه به مقدار واقعی پارامتر همگرا می شود.
-
برآوردگر کارآمد: برآورد کننده ای با کمترین واریانس ممکن در بین تمام تخمین زن های بی طرف پارامتر.
برآوردگرهای مغرضانه و بی طرف
برآوردگر بی طرفانه
یک تخمینگر در صورتی بیطرف است که مقدار مورد انتظار آن با مقدار واقعی پارامتر جمعیتی که تخمین میزند برابر باشد. به عبارت دیگر، یک تخمینگر بیطرف بهطور سیستماتیک پارامتر را دستکم یا بیشازحد برآورد نمیکند.
مثال: میانگین نمونه به عنوان برآوردگر بی طرفانه میانگین جمعیت
- میانگین نمونه (“x”) یک برآوردگر بی طرفانه از میانگین جامعه (“μ”) است. این بدان معناست که به طور متوسط، میانگین نمونه با میانگین جامعه برابری می کند که نمونه های زیادی را در نظر بگیرید.
فرمول میانگین نمونه:
x̄ = Σx / n
جایی که:
- Σx مجموع تمام مقادیر نمونه است.
- n تعداد مقادیر نمونه است.
برآوردگر مغرضانه
یک برآوردگر بایاس می شود اگر مقدار مورد انتظار آن با مقدار واقعی پارامتر جمعیتی که تخمین می زند برابر نباشد. یک برآوردگر مغرضانه به طور سیستماتیک پارامتر را دست کم یا بیش از حد برآورد می کند.
مثال: واریانس نمونه به عنوان یک برآوردگر مغرضانه واریانس جمعیت
- واریانس نمونه محاسبه شده با استفاده از فرمول با “n” در مخرج (به جای “n-1”) یک تخمینگر مغرضانه واریانس جامعه (“σ²”) است. این فرمول تمایل به دست کم گرفتن واریانس واقعی جامعه، به ویژه برای حجم نمونه کوچک دارد.
فرمول بایاس برای واریانس نمونه:
s²_biased = Σ(x - x̄)² / n
جایی که:
- Σ(x – x̄)² مجموع مجذور انحرافات از میانگین نمونه است.
- n تعداد مقادیر نمونه است.
برای تصحیح این سوگیری، از تصحیح بسل استفاده میکنیم، که در مخرج، «n» را با «n-1» جایگزین میکنیم، که یک تخمینگر بیطرفانه از واریانس جمعیت را ارائه میدهد.
فرمول بی طرف برای واریانس نمونه:
s²_unbiased = Σ(x - x̄)² / (n - 1)
جایی که:
- Σ(x – x̄)² مجموع مجذور انحرافات از میانگین نمونه است.
- n تعداد مقادیر نمونه است.
آزمایش فرضیه
آزمون فرضیه یک روش آماری است که برای استنباط یا نتیجه گیری در مورد یک جامعه بر اساس داده های نمونه استفاده می شود. این شامل ایجاد یک فرض اولیه (فرضیه صفر) و تعیین اینکه آیا داده های نمونه شواهد کافی برای رد این فرض به نفع یک فرضیه جایگزین را فراهم می کند یا خیر.
مفاهیم کلیدی
-
فرضیه صفر (H0): عبارتی که آزمایش می شود، معمولاً هیچ تأثیری یا تفاوتی را نشان نمی دهد. فرض می شود که درست است مگر اینکه داده ها شواهد قوی علیه آن ارائه دهند.
-
فرضیه جایگزین (H1 یا Ha): عبارتی که میخواهیم آن را آزمایش کنیم، که یک اثر یا تفاوت را نشان میدهد. در صورت رد فرضیه صفر پذیرفته می شود.
-
سطح اهمیت (α): آستانه تعیین اینکه آیا شواهد به اندازه کافی قوی هستند تا فرضیه صفر را رد کنند. سطوح معنی داری رایج 0.05، 0.01 و 0.10 است.
-
آمار آزمون: یک مقدار استاندارد محاسبه شده از داده های نمونه، که برای تعیین رد فرضیه صفر استفاده می شود. آزمون های مختلف آمار آزمون های متفاوتی دارند، مانند آماره t یا آماره z.
-
مقدار p: احتمال به دست آوردن یک آماره آزمون به حدی که مشاهده شد، با فرض صحت فرضیه صفر. اگر مقدار p کمتر یا مساوی با سطح معنی داری باشد، فرض صفر را رد می کنیم.
-
خطای نوع I (α): خطای زمانی که فرضیه صفر به اشتباه رد شود (مثبت نادرست).
-
خطای نوع دوم (β): خطای زمانی که فرضیه صفر در صورت نادرست بودن رد نمی شود (منفی نادرست).
مراحل تست فرضیه
-
فرضیه ها را بیان کنید:
- فرضیه صفر (H0): مثال – میانگین جمعیت برابر با مقدار مشخصی است (μ = μ₀).
- فرضیه جایگزین (H1): مثال – میانگین جمعیت با مقدار مشخص شده (μ≠ μ₀) برابر نیست.
-
سطح اهمیت (α) را انتخاب کنید:
- انتخاب های رایج 0.05، 0.01 یا 0.10 هستند.
-
آزمون مناسب را انتخاب کرده و آمار آزمون را محاسبه کنید:
- بسته به حجم نمونه و اینکه آیا انحراف معیار جامعه مشخص است یا خیر، یک آزمون را انتخاب کنید (مثلاً آزمون z، آزمون t).
- با استفاده از داده های نمونه، آمار آزمون را محاسبه کنید.
-
مقدار p یا مقدار بحرانی را تعیین کنید:
- آمار آزمون را با مقدار بحرانی جداول آماری مقایسه کنید یا مقدار p را محاسبه کنید.
-
تصمیم گرفتن:
- اگر مقدار p ≤ α باشد، فرضیه صفر (H0) را رد کنید.
- اگر مقدار p > α باشد، فرضیه صفر (H0) را رد نکنید.
-
نتایج را تفسیر کنید:
- بر اساس تصمیم گیری در مرحله قبل نتیجه گیری کنید.
مثال: t-Test
آزمون t یک آزمون آماری است که برای تعیین اینکه آیا تفاوت معنی داری بین میانگین دو گروه یا بین میانگین نمونه و میانگین جامعه شناخته شده وجود دارد استفاده می شود. به ویژه زمانی مفید است که حجم نمونه کوچک باشد و انحراف معیار جامعه ناشناخته باشد.
انواع آزمون t
- آزمون t تک نمونه: آزمایش می کند که آیا میانگین یک نمونه واحد تفاوت معنی داری با میانگین جامعه شناخته شده دارد یا خیر.
- آزمون t دو نمونه ای مستقل: آزمایش می کند که آیا میانگین دو نمونه مستقل تفاوت معنی داری دارند یا خیر.
- آزمون t-نمونه زوجی: آزمایش می کند که آیا میانگین دو گروه مرتبط (مثلاً اندازه گیری قبل و بعد از درمان) تفاوت معنی داری دارند یا خیر.
مفاهیم کلیدی
- فرضیه صفر (H0): فرضیه عدم تأثیر یا عدم تفاوت. فرض بر این است که هر تفاوت مشاهده شده به دلیل تنوع نمونه است.
- فرضیه جایگزین (H1 یا Ha): فرضیه وجود اثر یا تفاوت. این نشان می دهد که تفاوت مشاهده شده واقعی است و به دلیل شانس نیست.
- درجات آزادی (df): تعداد مقادیر یا کمیت های مستقلی که می تواند در تجزیه و تحلیل متفاوت باشد. برای تعیین مقدار بحرانی از جدول توزیع t استفاده می شود.
- سطح اهمیت (α): آستانه رد فرضیه صفر. سطوح معنی داری رایج 0.05، 0.01 و 0.10 است.
- آمار آزمون: یک مقدار محاسبه شده از داده های نمونه که برای تصمیم گیری در مورد فرضیه صفر استفاده می شود.
آزمون t تک نمونه
هدف: برای تعیین اینکه آیا میانگین نمونه تفاوت معنی داری با میانگین جامعه شناخته شده دارد یا خیر.
فرمول:
t = (x̄ - μ) / (s / √n)
جایی که:
- x میانگین نمونه است.
- μ میانگین جمعیت است.
- s نمونه انحراف استاندارد است.
- n حجم نمونه است.
مراحل:
- فرضیه ها را بیان کنید.
- H₀: μ = μ0
- H1: μ ≠ μ₀
- سطح معنی داری (α) را انتخاب کنید.
- آمار آزمون
- مقدار بحرانی یا p-value را تعیین کنید.
- تصمیم بگیرید و نتایج را تفسیر کنید.
آزمون t دو نمونه ای مستقل
هدف: برای تعیین اینکه آیا میانگین دو نمونه مستقل تفاوت معنی داری دارند یا خیر.
فرمول:
t = (x̄₁ - x̄₂) / √[(s₁² / n₁) + (s₂² / n₂)]
جایی که:
- x₁ و x₂ میانگین نمونه هستند.
- s12 و s22 واریانس های نمونه هستند.
- n1 و n2 اندازه نمونه هستند.
مراحل:
- فرضیه ها را بیان کنید.
- H₀: μ1 = μ2
- H1: μ1 ≠ μ2
- سطح معنی داری (α) را انتخاب کنید.
- آمار آزمون
- درجات آزادی را تعیین کنید (df).
- مقدار بحرانی یا p-value را تعیین کنید.
- تصمیم بگیرید و نتایج را تفسیر کنید.