نکته سریع: نمودار اصلی (ElPiGraph) برای Iris Dataset

Summarize this content to 400 words in Persian Lang
چکیده
در این مقاله کوتاه، از کتابخانه ElPiGraph برای ساخت یک نمودار اصلی از مجموعه داده Iris استفاده خواهیم کرد. سپس نمودار را با استفاده از تجزیه و تحلیل مؤلفه اصلی (PCA) تجسم می کنیم و بینش هایی را در مورد روابط بین ویژگی های گونه های مختلف گل ارائه می دهیم.
فایل نوت بوک استفاده شده در این مقاله در GitHub موجود است.
مقدمه
در ادبیات علمی و وب سایت های مختلف، به نقشه های مترو اشاره شده است. به عنوان مثال، صفحه ویکی پدیا مجموعه داده گل زنبق تصویری از یکی از این نقشه های مترو را نشان می دهد. با این حال، یافتن هر کد نمونه برای ارائه چنین نقشه مترو چالش برانگیز است. خوشبختانه، میتوانیم قیاسی بین یک نمودار اصلی ساخته شده با استفاده از کتابخانه ElPiGraph و مفهوم نقشه مترو در تجسم دادهها ترسیم کنیم. درست مانند نقشههای مترو، مسیرهای متصل و ایستگاههای کلیدی را برای نمایش یک سیستم حملونقل شهری نشان میدهد، نمودارهای اصلی ساختار زیربنایی دادههای با ابعاد بالا را نشان میدهند و نشان میدهند که چگونه نقاط داده مختلف (یا «ایستگاهها») در فضایی با ابعاد پایینتر به هم متصل یا مرتبط هستند. .
با تجسم این نمودار با PCA، اساساً میتوانیم یک نقشه ساده و ساختاریافته از روابط بین ویژگیهای مختلف ایجاد کنیم، مشابه اینکه نقشههای مترو چیدمان سیستم حملونقل شهری را برای برجسته کردن ارتباطات و مسیرهای کلیدی ساده میکنند.
یک حساب SingleStore Cloud ایجاد کنید
مقاله قبلی مراحل ایجاد یک حساب رایگان SingleStore Cloud را نشان داد. ما استفاده خواهیم کرد ردیف اشتراکی رایگان و نام های پیش فرض را برای Workspace و Database بگیرید.
نوت بوک را وارد کنید
ما نوت بوک را از GitHub دانلود می کنیم.
از پنجره ناوبری سمت چپ در پورتال ابری SingleStore، انتخاب می کنیم DEVELOP > Data Studio.
در سمت راست بالای صفحه وب، انتخاب می کنیم نوت بوک جدید > وارد کردن از فایل. ما از ویزارد برای مکان یابی و وارد کردن نوت بوکی که از GitHub دانلود کرده ایم استفاده می کنیم.
نوت بوک را اجرا کنید
پس از بررسی اینکه به فضای کاری SingleStore خود متصل هستیم، سلول ها را یکی یکی اجرا می کنیم.
ما با نصب کتابخانههای لازم و وارد کردن وابستگیها و سپس بارگیری مجموعه دادههای Iris از scikit-learn شروع میکنیم.
مؤلفه اصلی کد نوت بوک متناسب با نمودار است، به شرح زیر:
elastic_graph = elpigraph.computeElasticPrincipalTree(data, NumNodes = 50)
مجموعه داده Iris از 150 ردیف تشکیل شده است. برای ایجاد نمودار از 50 گره استفاده می کنیم. در ElPiGraph، تعداد گره ها در نمودار نیازی به مطابقت با تعداد ردیف ها ندارد. در عوض، گره ها نقاط کلیدی یا نشانه هایی را نشان می دهند که ساختار داده ها را خلاصه می کنند. این گرهها بهجای نمایش تک تک نقاط داده، بهمنظور ثبت مهمترین روندها یا الگوهای مجموعه دادهها هستند.
هنگامی که نمودار محاسبه شد، داده ها را برای تجسم با استفاده از Plotly Express آماده می کنیم. شکل 1 نمودار را با نقاط داده و لبه ها نشان می دهد.
شکل 1. نمودار اصلی.
این نمودار خوشههایی را برجسته میکند که مربوط به گونههای مختلف گل زنبق (Setosa، Virginica و Versicolor) است. این نشان می دهد که چگونه نقاط داده های مختلف (نمونه های گل) بر اساس مقادیر ویژگی آنها (به عنوان مثال، طول گلبرگ، عرض کاسبرگ) به هم متصل یا مرتبط هستند.
با ارائه نمودار اصلی با استفاده از PCA، نمودار نشان می دهد که چگونه یک گونه به گونه دیگر منتقل می شود یا چگونه در فضای ویژگی از هم جدا می شوند. به عنوان مثال، برخی از گونه ها ممکن است به وضوح از هم جدا شوند (Setosa)، در حالی که سایر گونه ها (ویرجینیکا، ورسیکالر) ممکن است انتقال یا همپوشانی نرم تری داشته باشند، که نشان دهنده شباهت ها در مشخصات ویژگی های آنها است.
خلاصه
استفاده از ElPiGraph بهعنوان ابزار کاهش ابعاد، دید واضحتر و قابل تفسیرتری از روابط بین گونههای مختلف گل و توزیع ویژگیهای آنها، برجستهسازی خوشهها، انتقالها و ساختار کلی داده ارائه میدهد.
چکیده
در این مقاله کوتاه، از کتابخانه ElPiGraph برای ساخت یک نمودار اصلی از مجموعه داده Iris استفاده خواهیم کرد. سپس نمودار را با استفاده از تجزیه و تحلیل مؤلفه اصلی (PCA) تجسم می کنیم و بینش هایی را در مورد روابط بین ویژگی های گونه های مختلف گل ارائه می دهیم.
فایل نوت بوک استفاده شده در این مقاله در GitHub موجود است.
مقدمه
در ادبیات علمی و وب سایت های مختلف، به نقشه های مترو اشاره شده است. به عنوان مثال، صفحه ویکی پدیا مجموعه داده گل زنبق تصویری از یکی از این نقشه های مترو را نشان می دهد. با این حال، یافتن هر کد نمونه برای ارائه چنین نقشه مترو چالش برانگیز است. خوشبختانه، میتوانیم قیاسی بین یک نمودار اصلی ساخته شده با استفاده از کتابخانه ElPiGraph و مفهوم نقشه مترو در تجسم دادهها ترسیم کنیم. درست مانند نقشههای مترو، مسیرهای متصل و ایستگاههای کلیدی را برای نمایش یک سیستم حملونقل شهری نشان میدهد، نمودارهای اصلی ساختار زیربنایی دادههای با ابعاد بالا را نشان میدهند و نشان میدهند که چگونه نقاط داده مختلف (یا «ایستگاهها») در فضایی با ابعاد پایینتر به هم متصل یا مرتبط هستند. .
با تجسم این نمودار با PCA، اساساً میتوانیم یک نقشه ساده و ساختاریافته از روابط بین ویژگیهای مختلف ایجاد کنیم، مشابه اینکه نقشههای مترو چیدمان سیستم حملونقل شهری را برای برجسته کردن ارتباطات و مسیرهای کلیدی ساده میکنند.
یک حساب SingleStore Cloud ایجاد کنید
مقاله قبلی مراحل ایجاد یک حساب رایگان SingleStore Cloud را نشان داد. ما استفاده خواهیم کرد ردیف اشتراکی رایگان و نام های پیش فرض را برای Workspace و Database بگیرید.
نوت بوک را وارد کنید
ما نوت بوک را از GitHub دانلود می کنیم.
از پنجره ناوبری سمت چپ در پورتال ابری SingleStore، انتخاب می کنیم DEVELOP > Data Studio.
در سمت راست بالای صفحه وب، انتخاب می کنیم نوت بوک جدید > وارد کردن از فایل. ما از ویزارد برای مکان یابی و وارد کردن نوت بوکی که از GitHub دانلود کرده ایم استفاده می کنیم.
نوت بوک را اجرا کنید
پس از بررسی اینکه به فضای کاری SingleStore خود متصل هستیم، سلول ها را یکی یکی اجرا می کنیم.
ما با نصب کتابخانههای لازم و وارد کردن وابستگیها و سپس بارگیری مجموعه دادههای Iris از scikit-learn شروع میکنیم.
مؤلفه اصلی کد نوت بوک متناسب با نمودار است، به شرح زیر:
elastic_graph = elpigraph.computeElasticPrincipalTree(data, NumNodes = 50)
مجموعه داده Iris از 150 ردیف تشکیل شده است. برای ایجاد نمودار از 50 گره استفاده می کنیم. در ElPiGraph، تعداد گره ها در نمودار نیازی به مطابقت با تعداد ردیف ها ندارد. در عوض، گره ها نقاط کلیدی یا نشانه هایی را نشان می دهند که ساختار داده ها را خلاصه می کنند. این گرهها بهجای نمایش تک تک نقاط داده، بهمنظور ثبت مهمترین روندها یا الگوهای مجموعه دادهها هستند.
هنگامی که نمودار محاسبه شد، داده ها را برای تجسم با استفاده از Plotly Express آماده می کنیم. شکل 1 نمودار را با نقاط داده و لبه ها نشان می دهد.
شکل 1. نمودار اصلی.
این نمودار خوشههایی را برجسته میکند که مربوط به گونههای مختلف گل زنبق (Setosa، Virginica و Versicolor) است. این نشان می دهد که چگونه نقاط داده های مختلف (نمونه های گل) بر اساس مقادیر ویژگی آنها (به عنوان مثال، طول گلبرگ، عرض کاسبرگ) به هم متصل یا مرتبط هستند.
با ارائه نمودار اصلی با استفاده از PCA، نمودار نشان می دهد که چگونه یک گونه به گونه دیگر منتقل می شود یا چگونه در فضای ویژگی از هم جدا می شوند. به عنوان مثال، برخی از گونه ها ممکن است به وضوح از هم جدا شوند (Setosa)، در حالی که سایر گونه ها (ویرجینیکا، ورسیکالر) ممکن است انتقال یا همپوشانی نرم تری داشته باشند، که نشان دهنده شباهت ها در مشخصات ویژگی های آنها است.
خلاصه
استفاده از ElPiGraph بهعنوان ابزار کاهش ابعاد، دید واضحتر و قابل تفسیرتری از روابط بین گونههای مختلف گل و توزیع ویژگیهای آنها، برجستهسازی خوشهها، انتقالها و ساختار کلی داده ارائه میدهد.