برنامه نویسی

افزایش پیش‌بینی کیفیت شراب قرمز: استفاده از یادگیری ماشینی برای طبقه‌بندی چند طبقه و مدیریت عدم تعادل داده

خلاصه :این مطالعه بر افزایش پیش‌بینی کیفیت شراب قرمز از طریق تکنیک‌های یادگیری ماشین، به‌ویژه پرداختن به چالش‌های طبقه‌بندی چند طبقه و عدم تعادل داده‌ها تمرکز دارد. با استفاده از مجموعه داده‌ای از ویژگی‌های فیزیکوشیمیایی و رتبه‌بندی کیفیت شراب‌های قرمز، الگوریتم‌های یادگیری نظارت شده مختلفی برای پیش‌بینی کیفیت شراب به کار گرفته شد که به سه کلاس خوب، متوسط ​​و بد طبقه‌بندی می‌شوند. این مطالعه اهمیت انتخاب ویژگی، آموزش مدل، و تکنیک‌های متعادل‌سازی را در بهبود دقت پیش‌بینی برجسته می‌کند و بینش‌هایی را در مورد کاربردهای عملی تجزیه و تحلیل پیش‌بینی‌کننده در صنعت شراب ارائه می‌دهد.

https://www.kaggle.com/code/adegbaju/enhancing-red-wine-quality-prediction-leveraging/notebook

معرفی : در دنیای پیچیده انگورسازی و بوم شناسی، پیش بینی کیفیت شراب قرمز یک کار اساسی است که به طور قابل توجهی بر رضایت مصرف کننده تأثیر می گذارد و شهرت برندها را در بازار رقابتی شراب شکل می دهد. شراب قرمز که با رنگ های غنی آن از بنفش شدید تا قهوه ای تیره مشخص می شود – که نشان دهنده سن آن است – از طریق یک فرآیند دقیق شامل انتخاب انگورهای با کیفیت، تخمیر، کهنه کردن و بطری سازی تولید می شود. ارزیابی کیفیت شراب نقش حیاتی در صنعت تولید شراب ایفا می کند و بر رضایت مصرف کننده و روند بازار تأثیر می گذارد. به طور سنتی، کارشناسان انسانی کیفیت شراب را ارزیابی می کنند، اما این روند می تواند ذهنی و متناقض باشد. با توجه به اینکه کیفیت شراب قرمز تحت تأثیر ویژگی‌های شیمیایی و حسی متعددی است، یادگیری ماشین (ML) ابزاری قوی برای پیش‌بینی کیفیت شراب با دقت بالا ارائه می‌کند. با این حال، یک چالش مهم در این تلاش ناشی از عدم تعادل طبقاتی ذاتی موجود در مجموعه داده‌های کیفیت شراب است، جایی که برخی از کلاس‌های کیفیت به طور قابل‌توجهی کمتر ارائه شده‌اند. این عدم تعادل می‌تواند مدل‌های پیش‌بینی‌کننده را منحرف کند و منجر به پیش‌بینی‌های کمتر قابل اعتماد و مغرضانه، به‌ویژه برای کلاس‌هایی شود که کمتر ارائه شده‌اند.

پرداختن به این عدم تعادل برای توسعه مدل های پیش بینی قوی و دقیق بسیار مهم است. تکنیک های مختلفی مانند نمونه برداری بیش از حد از طبقه اقلیت، پیشنهاد شده و در حوزه های مختلف برای کاهش اثرات عدم تعادل طبقاتی به کار گرفته شده است.
تحقیقات قبلی از روش‌های یادگیری ماشینی متنوعی برای پیش‌بینی کیفیت شراب استفاده کرده است، که معمولاً آن را به عنوان یک مشکل رگرسیون یا طبقه‌بندی باینری مدیریت می‌کند. با این وجود، طبقه‌بندی شراب به سطوح کیفی متعدد و مدیریت مجموعه داده‌های نامتعادل همچنان چالش‌هایی هستند که به‌طور کامل مورد بررسی قرار نگرفته‌اند. در زمینه پیش‌بینی کیفیت شراب قرمز، استفاده از این تکنیک‌ها می‌تواند به طور قابل‌توجهی دقت و قابلیت اطمینان مدل‌های پیش‌بینی را در تمام دسته‌های کیفیت بهبود بخشد. هدف این مطالعه بررسی و مقایسه اثربخشی تکنیک‌های مختلف نمونه‌برداری در کنار الگوریتم‌های مختلف یادگیری ماشین در اصلاح عدم تعادل طبقاتی در پیش‌بینی کیفیت شراب قرمز است. با انجام یک تجزیه و تحلیل مقایسه ای کامل، این مقاله به دنبال شناسایی موثرترین استراتژی ها برای بهبود دقت پیش بینی کیفیت شراب قرمز است، بنابراین به بینش های ارزشمندی در زمینه تجزیه و تحلیل پیش بینی در صنعت انگور کمک می کند.

کار قبلی : Jain، K.، 2023. مدل‌های یادگیری ماشینی را برای پیش‌بینی کیفیت شراب با استفاده از ویژگی‌های فیزیکوشیمیایی، با Random Forest و XGBoost که دقت و اهمیت ویژگی بالایی را نشان می‌دهند، توسعه دادند. Di, S., 2022 از یک شبکه عصبی کانولوشنال 1 بعدی استفاده می کند که با حذف و عادی سازی دسته ای بهبود یافته است تا با تجزیه و تحلیل همبستگی های فیزیکوشیمیایی کیفیت شراب قرمز را به طور موثر پیش بینی کند.

روش شناسی

1.جمع آوری داده ها:

این مطالعه از یک مجموعه داده استاندارد کیفیت شراب قرمز شامل 12 ویژگی شیمیایی و حسی استفاده می کند. مجموعه داده از یک مخزن عمومی شناخته شده (https://www.kaggle.com/datasets/uciml/red-wine-quality-cortez-et-al-2009.) تهیه شده است که از ارتباط و استانداردسازی آن برای مدل سازی پیش بینی اطمینان حاصل می کند. .
ماتریس همبستگی: ابزاری ضروری در تجزیه و تحلیل داده ها است که میزان ارتباط متغیرهای یک مجموعه داده را نشان می دهد. این به شناسایی اینکه چگونه تغییرات در یک ویژگی با تغییرات در ویژگی دیگر مطابقت دارد، کمک می‌کند و به کشف پیش‌بینی‌کننده‌های بالقوه برای نتایجی مانند کیفیت شراب قرمز کمک می‌کند.

توضیحات تصویر

توضیحات تصویر

  1. پیش پردازش داده ها:

2.1.مدیریت ارزش های گمشده: مجموعه داده هیچ داده از دست رفته، هیچ انتساب یا حذفی ندارد.

توضیحات تصویر

2.2. با استفاده از SelectKBest: KBest را انتخاب کنید تا پنج ویژگی برتر را انتخاب کنید که بیشترین کمک را به پیش‌بینی کیفیت شراب قرمز بر اساس رابطه آماری آنها با متغیر نتیجه احتمالی f_regression دارند، زیرا ما با یک مشکل رگرسیون سر و کار داریم.

توضیحات تصویر

2.3. مقیاس بندی ویژگی ها: همه ویژگی‌های عددی برای اطمینان از یکنواختی در مقیاس نرمال می‌شوند و تسلط ویژگی‌های دارای مقیاس‌های بزرگ‌تر بر موارد با مقیاس‌های کوچک‌تر به حداقل می‌رسد.

توضیحات تصویر

2.4. رمزگذاری متغیرهای طبقه بندی شده: متغیرهای طبقه‌بندی با استفاده از تکنیک‌هایی مانند Label Encoder برای تبدیل آن‌ها به قالب عددی قابل خواندن توسط ماشین کدگذاری می‌شوند. علاوه بر این، مقیاس‌کننده استاندارد برای عادی‌سازی این ویژگی‌های رمزگذاری‌شده اعمال می‌شود و اطمینان حاصل می‌کند که الگوریتم‌های یادگیری ماشینی می‌توانند آن‌ها را به طور مؤثرتری تفسیر کنند.

توضیحات تصویر

2.5. تقسیم داده ها: مجموعه داده به زیر مجموعه های آموزشی و آزمایشی تقسیم شده است که 75 درصد از داده ها برای آموزش و 25 درصد باقی مانده برای آزمایش اختصاص داده شده است.

توضیحات تصویر

انتخاب الگوریتم ها و توجیه فراپارامترها

رگرسیون لجستیک: روش تجزیه و تحلیل آماری مورد استفاده در مدل سازی پیش بینی است که احتمال دستیابی به یک نتیجه باینری را بسته به یک یا چند متغیر پیش بینی کننده محاسبه می کند. این فراپارامتر مورد استفاده است.
max_iter=1000: افزایش از پیش‌فرض برای اطمینان از همگرایی، به ویژه برای مجموعه‌های داده پیچیده‌تر یا بزرگ‌تر که ممکن است تنظیمات پیش‌فرض کافی نباشد.
حالت تصادفی=42: تضمین می‌کند که خروجی‌های مدل در اجراهای مختلف قابل تکرار هستند که برای اعتبارسنجی علمی ضروری است.
C=1.0: قدرت تنظیم پیش‌فرض را حفظ می‌کند، تعادلی را فراهم می‌کند که از برازش بیش از حد جلوگیری می‌کند و در عین حال انعطاف‌پذیری کافی مدل را فراهم می‌کند.
solver=’lbfgs’: انتخاب شده برای کارایی آن در مجموعه داده های کوچکتر و توانایی آن برای مدیریت از دست دادن چند جمله ای، و آن را برای طبقه بندی چند طبقه در پیش بینی کیفیت شراب مناسب می کند.

طبقه بندی درخت تصمیم: یک الگوریتم یادگیری ماشینی است که از مجموعه ای از تصمیمات و نتایج ممکن با ساختار درختی برای انجام وظایف طبقه بندی استفاده می کند. این با تقسیم داده ها به زیر مجموعه ها بر اساس مقادیر ویژگی عمل می کند، که درک و تجسم فرآیند تصمیم گیری را ساده می کند.
random_state=42: نتایج منسجم را در اجراهای مختلف تضمین می‌کند که برای تجزیه و تحلیل مقایسه‌ای حیاتی است.
max_depth=هیچکدام: به درخت اجازه می‌دهد تا بر اساس داده‌های آموزشی کاملاً گسترش یابد، که می‌تواند الگوهای پیچیده را ثبت کند اما برای جلوگیری از برازش بیش از حد نیاز به نظارت دقیق دارد.
min_samples_split=2: حداقل مقداری که برای در نظر گرفتن یک تقسیم در یک گره مورد نیاز است، برای فعال کردن بخش‌بندی دقیق داده‌ها، و گرفتن تفاوت‌های ظریف در مجموعه داده، پایین تنظیم می‌شود.

طبقه بندی جنگل تصادفی: یک مدل یادگیری ماشینی است که چندین درخت تصمیم را در طول آموزش می سازد و کلاسی را پیش بینی می کند که بیشترین نتیجه را در بین پیش بینی های درختی فردی نشان می دهد. این روش مجموعه ای برای کارهای طبقه بندی و رگرسیون موثر است، و با کاهش خطر بیش از حد برازش رایج در درختان تصمیم گیری فردی، استحکام و دقت را ارائه می دهد.
random_state=42: قابلیت تکرارپذیری را در نتایج مدل فراهم می‌کند که برای اعتبارسنجی نتایج تجربی بسیار مهم است.
n_estimators=100: یک پیش‌فرض متوازن که مصالحه خوبی بین تقاضای محاسباتی و عملکرد مدل فراهم می‌کند و امکان ایجاد مجموعه‌ای قوی از درخت‌های تصمیم را فراهم می‌کند.

طبقه بندی XGBoost: یک الگوریتم یادگیری ماشینی قدرتمند است که از چارچوب تقویت گرادیان برای بهینه‌سازی درخت‌های تصمیم، افزایش عملکرد و سرعت برای کارهای طبقه‌بندی استفاده می‌کند. این به دلیل کارایی، مقیاس پذیری و توانایی مدیریت مجموعه داده های بزرگ و پیچیده با دقت بسیار مشهور است.
use_label_encoder=False: با آخرین به‌روزرسانی‌های XGBoost سازگار می‌شود، که برای جلوگیری از هشدارهای منسوخ، کدگذاری برچسب دستی را به صورت خودکار توصیه می‌کند.
eval_metric=’logloss’: بر به حداقل رساندن تلفات لگاریتمی تمرکز دارد، که به ویژه برای وظایف طبقه‌بندی باینری مؤثر است و عملکرد مدل را در تمایز بین کلاس‌های کیفیت شراب افزایش می‌دهد.

این مدل‌ها با دقت پیکربندی شدند تا چالش‌ها و ویژگی‌های پیش‌بینی کیفیت شراب قرمز را برطرف کنند. نمودار میله ای عملکرد شش الگوریتم مختلف را بر اساس امتیاز دقت آنها نشان می دهد. طبقه‌بندی‌کننده جنگل تصادفی با دقت 0.870 پیشتاز است. Decision Tree Classifier کمترین دقت را در 0.812 نشان می دهد که نشان می دهد طبقه بندی کننده جنگل تصادفی بهتر از سایر مدل ها عمل می کند.

توضیحات تصویر

  1. اصلاح عدم تعادل:

نمونه برداری بیش از حد با SMOTE:
روش نمونه‌گیری بیش از حد اقلیت مصنوعی (SMOTE) یک رویکرد محبوب و مؤثر برای مقابله با عدم تعادل طبقاتی در مجموعه داده‌های یادگیری ماشین است. عدم تعادل کلاس زمانی به وجود می آید که نمونه های یک کلاس بسیار بیشتر از نمونه های یک یا چند کلاس دیگر باشد که به طور بالقوه منجر به مدل های مغرضانه می شود. این مدل‌ها معمولاً برای طبقه‌ی مسلط عملکرد خوبی دارند، اما با طبقه‌ی اقلیت دست و پنجه نرم می‌کنند، زیرا به‌طور نامتناسبی تحت تأثیر طبقه بزرگ‌تر هستند. SMOTE با تولید نمونه های مصنوعی برای کلاس اقلیت به جای کپی کردن نمونه های موجود، این مشکل را برطرف می کند. یک نقطه تصادفی را از کلاس اقلیت انتخاب می کند، تفاوت بین آن نقطه و نزدیکترین همسایگانش را محاسبه می کند و با ضرب این تفاوت در مقدار تصادفی بین 0 و 1 و اضافه کردن آن به نقطه اصلی از کلاس اقلیت، نمونه های مصنوعی ایجاد می کند. این فرآیند نه تنها اندازه داده ها را افزایش می دهد، بلکه به تعمیم مرزهای تصمیم گیری کمک می کند و مدل را کمتر مستعد تطبیق بیش از حد برای کلاس اکثریت می کند.

توضیحات تصویر

GridSearchCV: ادغام SMOTE با GridSearchCV در فرآیند آموزش الگوریتم‌های مختلف، عملکرد مدل را با اجازه دادن به مدل‌ها برای یادگیری از یک مجموعه داده متعادل‌تر، افزایش می‌دهد. GridSearchCV روشی است که برای شناسایی بهترین هایپرپارامترها برای یک مدل، افزایش دقت و عملکرد آن استفاده می شود. این کار را با کاوش روشمند ترکیبات مختلف تنظیمات پارامتر، انجام اعتبارسنجی متقابل در طول مسیر برای تعیین اینکه کدام ترکیب نتیجه بهینه را ارائه می دهد، انجام می دهد. در چارچوب این مطالعه، GridSearchCV در کنار SMOTE برای تنظیم دقیق پارامترهای الگوریتم‌های مختلف یادگیری ماشینی مانند

  1. رگرسیون لجستیک: پارامترهایی مانند “C” (قدرت منظم سازی)، “حل کننده” (الگوریتم مورد استفاده برای بهینه سازی)، و “class_weight” (وزن های مرتبط با کلاس ها) بسیار مهم هستند. GridSearchCV به تنظیم این پارامترها تحت مجموعه داده متعادل ارائه شده توسط SMOTE کمک کرد و توانایی مدل را برای تعمیم در کلاس های اقلیت افزایش داد.

  2. درخت تصمیم و جنگل تصادفی: این مدل‌ها از پارامترهای تنظیمی مانند «max_depth» (عمیق‌ترین سطحی که درخت می‌تواند به آن برسد)، «min_samples_split» (حداقل تعداد نمونه مورد نیاز برای تقسیم یک گره داخلی) و «معیار» (روش مورد استفاده برای ارزیابی کیفیت) بهره می‌برند. SMOTE همراه با GridSearchCV، به این مدل‌های مبتنی بر درخت اجازه می‌دهد تا با یادگیری کافی ویژگی‌های کلاس اقلیت، از تطبیق بیش از حد اجتناب کنند.

  3. KNeighbors Classifier: شامل پارامترهایی مانند ‘n_neighbors’ (تعداد همسایگان در نظر گرفته شده)، ‘weights’ (عملی که وزن ها را برای پیش بینی اختصاص می دهد) و ‘p’ (پارامتر توان برای متریک Minkowski). از طریق GridSearchCV، بهترین پارامترها شناسایی شدند که با مجموعه داده متعادل ایجاد شده توسط SMOTE به خوبی کار می‌کردند و اطمینان می‌دادند که تأثیرات کلاس اقلیت تحت الشعاع طبقه اکثریت قرار نمی‌گیرد.

  4. XGBoost: این الگوریتم شامل پارامترهایی مانند ‘learning_rate’، ‘max_depth’، ‘n_estimators’ و ‘subsample’ است. تنظیم این پارامترها با GridSearchCV روی یک مجموعه داده بهبود یافته با SMOTE به جلوگیری از تعصب بیش از حد مدل نسبت به کلاس اکثریت کمک کرد و در عین حال دقت پیش‌بینی کلی را در همه کلاس‌ها بهبود بخشید.

استفاده از SMOTE با GridSearchCV در این الگوریتم‌ها تضمین می‌کند که مدل‌ها نه تنها با پارامترهای بهینه خود تنظیم شده‌اند، بلکه بر روی مجموعه داده‌ای آموزش داده شده‌اند که از یک سناریوی واقعی تقلید می‌کند که در آن توزیع کلاس همیشه متعادل نیست. این رویکرد به طور قابل توجهی استحکام، دقت و انصاف مدل‌ها را بهبود بخشید و آنها را برای پیش‌بینی کیفیت شراب در کلاس‌های کیفیت مختلف قابل اعتمادتر کرد.

توضیحات تصویر

نتایج

بهترین مدل بر اساس میانگین نمرات در دو رویکرد مدل‌سازی RandomForestClassifier است. طبقه‌بندی‌کننده جنگل تصادفی به‌طور پیوسته عملکرد برتر را در هر دو مجموعه داده اصلی و متوازن نشان داد و به بالاترین دقت دست یافت. استفاده از SMOTE به طور کلی معیارهای عملکرد را برای همه مدل‌ها بهبود بخشید و اثربخشی آن را در مدیریت داده‌های نامتعادل برجسته کرد. KNeighbors Classifier و XGBoost نیز عملکرد خوبی داشتند، به ویژه پس از متعادل کردن داده ها، که نشان دهنده استحکام آنها در تغییرات توزیع کلاس است.

توضیحات تصویر

توضیحات تصویر

از میان ویژگی‌های انتخاب‌شده، می‌توانیم بهترین کیفیت‌ها را با توجه به بهترین مدل {طبقه‌بندی جنگل تصادفی رتبه‌بندی کنیم:

دی اکسید گوگرد کلمهم‌ترین در پیش‌بینی کیفیت شراب، دی‌اکسید گوگرد کل از طراوت و طول عمر محافظت می‌کند و به طور قابل‌توجهی بر مدل با بالاترین امتیاز اهمیت آن یعنی 0.24 تأثیر می‌گذارد.
اسیدیت فرار: دوم از نظر اهمیت، سطح اسیدیته فرار در 0.20 تأثیر آن بر طعم شراب را نشان می دهد. مقادیر بیش از حد می تواند طعم نامطلوب سرکه ایجاد کند و بر درک کلی کیفیت تأثیر بگذارد.
الکل: با نمره اهمیت 0.19، محتوای الکل به طور قابل توجهی بدن، بافت و خوش طعم بودن شراب را شکل می دهد و آن را به یک عامل محوری در ارزیابی مدل از کیفیت شراب تبدیل می کند.
سولفات ها: در رتبه چهارم، سولفات ها (اهمیت 0.18) به عنوان نگهدارنده و آنتی اکسیدان در شراب عمل می کنند و نقش حیاتی در حفظ ثبات و جلوگیری از فساد دارند و در نتیجه بر ارزیابی کیفیت تأثیر می گذارند.
اسید سیتریک: اگرچه اسید سیتریک کمترین امتیاز اهمیت را در 0.16 دارد، اما اسید سیتریک برای تعدیل اسیدیته شراب، افزایش طراوت، و کمک به مشخصات طعم ضروری است، بنابراین بر قضاوت های کیفیت تأثیر می گذارد.

توضیحات تصویر

بحث، نتیجه گیری و کار آینده : این مطالعه تأیید می کند که تکنیک های پیشرفته یادگیری ماشینی می توانند به طور موثر کیفیت شراب قرمز را پیش بینی کنند و اینکه پرداختن به عدم تعادل داده ها برای بهبود عملکرد مدل در سناریوهای طبقه بندی چند کلاسه بسیار مهم است. کار آینده می تواند مهندسی ویژگی های عمیق تر، ادغام یادگیری بدون نظارت برای تشخیص ناهنجاری در دسته های شراب، و استقرار مدل ها در سیستم های ارزیابی کیفیت بلادرنگ در کارخانه های شراب سازی را بررسی کند.

مسائل حرفه ای، اخلاقی و حقوقی

دقت و قابلیت اطمینان: مدل باید تحت آزمایش و اعتبارسنجی دقیق قرار گیرد تا اطمینان حاصل شود که نتایج قابل اعتماد و ثابتی را در سناریوهای مختلف ارائه می‌کند و به راهنمایی مؤثر تصمیم‌گیری‌های شراب‌سازان کمک می‌کند.

شفافیت و توضیح پذیری: این مهم است که مدل برای ذینفعان قابل درک باشد و به خوبی با شیوه های سنتی در ارزیابی کیفیت شراب ترکیب شود و اعتماد به راه حل های یادگیری ماشین را افزایش دهد.
پیشرفت مداوم: به روز رسانی و تنظیم مداوم برای انطباق با داده های جدید و شرایط در حال تغییر ضروری است و اطمینان حاصل می شود که مدل مرتبط و موثر باقی می ماند.
ملاحظات اخلاقی:

تعصب و انصاف: پرداختن و کاهش هرگونه سوگیری در داده های آموزشی ضروری است تا تضمین شود که ارزیابی های مدل منصفانه و بی طرفانه هستند.
حریم خصوصی داده ها: رعایت استانداردهای سختگیرانه حفاظت از داده ها، حتی اگر مجموعه داده اولیه حاوی اطلاعات حساس نباشد، برای محافظت از پیشرفت های داده در آینده ضروری است.
تاثیر بر سهامداران: این مدل باید با آگاهی از تأثیرات بالقوه آن بر همه ذینفعان، ترویج انصاف و اجتناب از آسیب، توسعه و به کار گرفته شود.

سوالاتی برای کاوش بیشتر:

روشهای اعتبارسنجی: برای ارزیابی دقت و قابلیت اطمینان مدل پیش‌بینی کیفیت شراب از چه استراتژی‌های اعتبارسنجی خاصی می‌توان استفاده کرد؟
تکنیک های توضیح پذیری: کدام تکنیک‌ها را می‌توان برای افزایش شفافیت و توضیح‌پذیری مدل، به‌ویژه برای سهامداران ناآشنا با یادگیری ماشین استفاده کرد؟
شناسایی سوگیری: چه متدولوژی هایی را می توان برای شناسایی و تصحیح سوگیری ها در مجموعه داده به طور موثر پیاده سازی کرد؟

منابع

Cortez، P.، Cerdeira، A.، Almeida، F.، Matos، T. و Reis، J.، 2009. مدل سازی ترجیحات شراب با داده کاوی از خواص فیزیکوشیمیایی. سیستم های پشتیبانی تصمیم، 47(4)، pp.547-553.

Chawla، NV، Bowyer، KW، Hall، LO و Kegelmeyer، WP، 2002. SMOTE: روش نمونه برداری بیش از حد اقلیت مصنوعی. مجله تحقیقات هوش مصنوعی، 16، pp.321–357.

Han, H., Wang, WY and Mao, BH, 2005, August. Borderline-SMOTE: یک روش جدید نمونه برداری بیش از حد در یادگیری مجموعه داده های نامتعادل. در کنفرانس بین المللی محاسبات هوشمند (صص 878-887). برلین، هایدلبرگ: Springer Berlin Heidelberg.

Chawla، NV، Bowyer، KW، Hall، LO و Kegelmeyer، WP، 2002. SMOTE: روش نمونه برداری بیش از حد اقلیت مصنوعی. مجله تحقیقات هوش مصنوعی، 16، pp.321–357.

James, G., Witten, D., Hastie, T. and Tibshirani, R., 2013. مقدمه ای بر یادگیری آماری (جلد 112، ص 18). نیویورک: Springer.

کوهن، ام و جانسون، ک.، 2013. مدل سازی پیش بینی کاربردی (جلد 26، ص 13). نیویورک: اسپرینگر.

پدرگوسا، اف.، واروکو، جی.، گرامفورت، آ.، میشل، وی.، تیریون، بی.، گریزل، او.، بلوندل، ام.، پرتنهوفر، پی.، ویس، آر.، دوبورگ، وی. Vanderplas, J., 2011. Scikit-learn: یادگیری ماشینی در پایتون. مجله تحقیقات یادگیری ماشین، 12، pp.2825-2830.

هستی، تی، تبشیرانی، ر. و وین رایت، م.، 1394. یادگیری آماری با پراکندگی. رساله های آمار و احتمال کاربردی، 143(143)، ص8.

Han, H., Wang, WY and Mao, BH, 2005, August. Borderline-SMOTE: یک روش جدید نمونه برداری بیش از حد در یادگیری مجموعه داده های نامتعادل. در کنفرانس بین المللی محاسبات هوشمند (صص 878-887). برلین، هایدلبرگ: Springer Berlin Heidelberg.

Jain، K.، Kaushik، K.، Gupta، SK، Mahajan، S. و Kadry، S.، 2023. مدل سازی پیش بینی مبتنی بر یادگیری ماشین برای افزایش کیفیت شراب. گزارش های علمی، 13(1)، ص17042.

Di, S. and Yang, Y., 2022. پیش بینی کیفیت شراب قرمز با استفاده از شبکه های عصبی کانولوشنال یک بعدی. پیش چاپ arXiv arXiv:2208.14008.

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا