افزایش پیشبینی کیفیت شراب قرمز: استفاده از یادگیری ماشینی برای طبقهبندی چند طبقه و مدیریت عدم تعادل داده

خلاصه :این مطالعه بر افزایش پیشبینی کیفیت شراب قرمز از طریق تکنیکهای یادگیری ماشین، بهویژه پرداختن به چالشهای طبقهبندی چند طبقه و عدم تعادل دادهها تمرکز دارد. با استفاده از مجموعه دادهای از ویژگیهای فیزیکوشیمیایی و رتبهبندی کیفیت شرابهای قرمز، الگوریتمهای یادگیری نظارت شده مختلفی برای پیشبینی کیفیت شراب به کار گرفته شد که به سه کلاس خوب، متوسط و بد طبقهبندی میشوند. این مطالعه اهمیت انتخاب ویژگی، آموزش مدل، و تکنیکهای متعادلسازی را در بهبود دقت پیشبینی برجسته میکند و بینشهایی را در مورد کاربردهای عملی تجزیه و تحلیل پیشبینیکننده در صنعت شراب ارائه میدهد.
https://www.kaggle.com/code/adegbaju/enhancing-red-wine-quality-prediction-leveraging/notebook
معرفی : در دنیای پیچیده انگورسازی و بوم شناسی، پیش بینی کیفیت شراب قرمز یک کار اساسی است که به طور قابل توجهی بر رضایت مصرف کننده تأثیر می گذارد و شهرت برندها را در بازار رقابتی شراب شکل می دهد. شراب قرمز که با رنگ های غنی آن از بنفش شدید تا قهوه ای تیره مشخص می شود – که نشان دهنده سن آن است – از طریق یک فرآیند دقیق شامل انتخاب انگورهای با کیفیت، تخمیر، کهنه کردن و بطری سازی تولید می شود. ارزیابی کیفیت شراب نقش حیاتی در صنعت تولید شراب ایفا می کند و بر رضایت مصرف کننده و روند بازار تأثیر می گذارد. به طور سنتی، کارشناسان انسانی کیفیت شراب را ارزیابی می کنند، اما این روند می تواند ذهنی و متناقض باشد. با توجه به اینکه کیفیت شراب قرمز تحت تأثیر ویژگیهای شیمیایی و حسی متعددی است، یادگیری ماشین (ML) ابزاری قوی برای پیشبینی کیفیت شراب با دقت بالا ارائه میکند. با این حال، یک چالش مهم در این تلاش ناشی از عدم تعادل طبقاتی ذاتی موجود در مجموعه دادههای کیفیت شراب است، جایی که برخی از کلاسهای کیفیت به طور قابلتوجهی کمتر ارائه شدهاند. این عدم تعادل میتواند مدلهای پیشبینیکننده را منحرف کند و منجر به پیشبینیهای کمتر قابل اعتماد و مغرضانه، بهویژه برای کلاسهایی شود که کمتر ارائه شدهاند.
پرداختن به این عدم تعادل برای توسعه مدل های پیش بینی قوی و دقیق بسیار مهم است. تکنیک های مختلفی مانند نمونه برداری بیش از حد از طبقه اقلیت، پیشنهاد شده و در حوزه های مختلف برای کاهش اثرات عدم تعادل طبقاتی به کار گرفته شده است.
تحقیقات قبلی از روشهای یادگیری ماشینی متنوعی برای پیشبینی کیفیت شراب استفاده کرده است، که معمولاً آن را به عنوان یک مشکل رگرسیون یا طبقهبندی باینری مدیریت میکند. با این وجود، طبقهبندی شراب به سطوح کیفی متعدد و مدیریت مجموعه دادههای نامتعادل همچنان چالشهایی هستند که بهطور کامل مورد بررسی قرار نگرفتهاند. در زمینه پیشبینی کیفیت شراب قرمز، استفاده از این تکنیکها میتواند به طور قابلتوجهی دقت و قابلیت اطمینان مدلهای پیشبینی را در تمام دستههای کیفیت بهبود بخشد. هدف این مطالعه بررسی و مقایسه اثربخشی تکنیکهای مختلف نمونهبرداری در کنار الگوریتمهای مختلف یادگیری ماشین در اصلاح عدم تعادل طبقاتی در پیشبینی کیفیت شراب قرمز است. با انجام یک تجزیه و تحلیل مقایسه ای کامل، این مقاله به دنبال شناسایی موثرترین استراتژی ها برای بهبود دقت پیش بینی کیفیت شراب قرمز است، بنابراین به بینش های ارزشمندی در زمینه تجزیه و تحلیل پیش بینی در صنعت انگور کمک می کند.
کار قبلی : Jain، K.، 2023. مدلهای یادگیری ماشینی را برای پیشبینی کیفیت شراب با استفاده از ویژگیهای فیزیکوشیمیایی، با Random Forest و XGBoost که دقت و اهمیت ویژگی بالایی را نشان میدهند، توسعه دادند. Di, S., 2022 از یک شبکه عصبی کانولوشنال 1 بعدی استفاده می کند که با حذف و عادی سازی دسته ای بهبود یافته است تا با تجزیه و تحلیل همبستگی های فیزیکوشیمیایی کیفیت شراب قرمز را به طور موثر پیش بینی کند.
روش شناسی
1.جمع آوری داده ها:
این مطالعه از یک مجموعه داده استاندارد کیفیت شراب قرمز شامل 12 ویژگی شیمیایی و حسی استفاده می کند. مجموعه داده از یک مخزن عمومی شناخته شده (https://www.kaggle.com/datasets/uciml/red-wine-quality-cortez-et-al-2009.) تهیه شده است که از ارتباط و استانداردسازی آن برای مدل سازی پیش بینی اطمینان حاصل می کند. .
ماتریس همبستگی: ابزاری ضروری در تجزیه و تحلیل داده ها است که میزان ارتباط متغیرهای یک مجموعه داده را نشان می دهد. این به شناسایی اینکه چگونه تغییرات در یک ویژگی با تغییرات در ویژگی دیگر مطابقت دارد، کمک میکند و به کشف پیشبینیکنندههای بالقوه برای نتایجی مانند کیفیت شراب قرمز کمک میکند.
- پیش پردازش داده ها:
2.1.مدیریت ارزش های گمشده: مجموعه داده هیچ داده از دست رفته، هیچ انتساب یا حذفی ندارد.
2.2. با استفاده از SelectKBest: KBest را انتخاب کنید تا پنج ویژگی برتر را انتخاب کنید که بیشترین کمک را به پیشبینی کیفیت شراب قرمز بر اساس رابطه آماری آنها با متغیر نتیجه احتمالی f_regression دارند، زیرا ما با یک مشکل رگرسیون سر و کار داریم.
2.3. مقیاس بندی ویژگی ها: همه ویژگیهای عددی برای اطمینان از یکنواختی در مقیاس نرمال میشوند و تسلط ویژگیهای دارای مقیاسهای بزرگتر بر موارد با مقیاسهای کوچکتر به حداقل میرسد.
2.4. رمزگذاری متغیرهای طبقه بندی شده: متغیرهای طبقهبندی با استفاده از تکنیکهایی مانند Label Encoder برای تبدیل آنها به قالب عددی قابل خواندن توسط ماشین کدگذاری میشوند. علاوه بر این، مقیاسکننده استاندارد برای عادیسازی این ویژگیهای رمزگذاریشده اعمال میشود و اطمینان حاصل میکند که الگوریتمهای یادگیری ماشینی میتوانند آنها را به طور مؤثرتری تفسیر کنند.
2.5. تقسیم داده ها: مجموعه داده به زیر مجموعه های آموزشی و آزمایشی تقسیم شده است که 75 درصد از داده ها برای آموزش و 25 درصد باقی مانده برای آزمایش اختصاص داده شده است.
انتخاب الگوریتم ها و توجیه فراپارامترها
رگرسیون لجستیک: روش تجزیه و تحلیل آماری مورد استفاده در مدل سازی پیش بینی است که احتمال دستیابی به یک نتیجه باینری را بسته به یک یا چند متغیر پیش بینی کننده محاسبه می کند. این فراپارامتر مورد استفاده است.
max_iter=1000: افزایش از پیشفرض برای اطمینان از همگرایی، به ویژه برای مجموعههای داده پیچیدهتر یا بزرگتر که ممکن است تنظیمات پیشفرض کافی نباشد.
حالت تصادفی=42: تضمین میکند که خروجیهای مدل در اجراهای مختلف قابل تکرار هستند که برای اعتبارسنجی علمی ضروری است.
C=1.0: قدرت تنظیم پیشفرض را حفظ میکند، تعادلی را فراهم میکند که از برازش بیش از حد جلوگیری میکند و در عین حال انعطافپذیری کافی مدل را فراهم میکند.
solver=’lbfgs’: انتخاب شده برای کارایی آن در مجموعه داده های کوچکتر و توانایی آن برای مدیریت از دست دادن چند جمله ای، و آن را برای طبقه بندی چند طبقه در پیش بینی کیفیت شراب مناسب می کند.
طبقه بندی درخت تصمیم: یک الگوریتم یادگیری ماشینی است که از مجموعه ای از تصمیمات و نتایج ممکن با ساختار درختی برای انجام وظایف طبقه بندی استفاده می کند. این با تقسیم داده ها به زیر مجموعه ها بر اساس مقادیر ویژگی عمل می کند، که درک و تجسم فرآیند تصمیم گیری را ساده می کند.
random_state=42: نتایج منسجم را در اجراهای مختلف تضمین میکند که برای تجزیه و تحلیل مقایسهای حیاتی است.
max_depth=هیچکدام: به درخت اجازه میدهد تا بر اساس دادههای آموزشی کاملاً گسترش یابد، که میتواند الگوهای پیچیده را ثبت کند اما برای جلوگیری از برازش بیش از حد نیاز به نظارت دقیق دارد.
min_samples_split=2: حداقل مقداری که برای در نظر گرفتن یک تقسیم در یک گره مورد نیاز است، برای فعال کردن بخشبندی دقیق دادهها، و گرفتن تفاوتهای ظریف در مجموعه داده، پایین تنظیم میشود.
طبقه بندی جنگل تصادفی: یک مدل یادگیری ماشینی است که چندین درخت تصمیم را در طول آموزش می سازد و کلاسی را پیش بینی می کند که بیشترین نتیجه را در بین پیش بینی های درختی فردی نشان می دهد. این روش مجموعه ای برای کارهای طبقه بندی و رگرسیون موثر است، و با کاهش خطر بیش از حد برازش رایج در درختان تصمیم گیری فردی، استحکام و دقت را ارائه می دهد.
random_state=42: قابلیت تکرارپذیری را در نتایج مدل فراهم میکند که برای اعتبارسنجی نتایج تجربی بسیار مهم است.
n_estimators=100: یک پیشفرض متوازن که مصالحه خوبی بین تقاضای محاسباتی و عملکرد مدل فراهم میکند و امکان ایجاد مجموعهای قوی از درختهای تصمیم را فراهم میکند.
طبقه بندی XGBoost: یک الگوریتم یادگیری ماشینی قدرتمند است که از چارچوب تقویت گرادیان برای بهینهسازی درختهای تصمیم، افزایش عملکرد و سرعت برای کارهای طبقهبندی استفاده میکند. این به دلیل کارایی، مقیاس پذیری و توانایی مدیریت مجموعه داده های بزرگ و پیچیده با دقت بسیار مشهور است.
use_label_encoder=False: با آخرین بهروزرسانیهای XGBoost سازگار میشود، که برای جلوگیری از هشدارهای منسوخ، کدگذاری برچسب دستی را به صورت خودکار توصیه میکند.
eval_metric=’logloss’: بر به حداقل رساندن تلفات لگاریتمی تمرکز دارد، که به ویژه برای وظایف طبقهبندی باینری مؤثر است و عملکرد مدل را در تمایز بین کلاسهای کیفیت شراب افزایش میدهد.
این مدلها با دقت پیکربندی شدند تا چالشها و ویژگیهای پیشبینی کیفیت شراب قرمز را برطرف کنند. نمودار میله ای عملکرد شش الگوریتم مختلف را بر اساس امتیاز دقت آنها نشان می دهد. طبقهبندیکننده جنگل تصادفی با دقت 0.870 پیشتاز است. Decision Tree Classifier کمترین دقت را در 0.812 نشان می دهد که نشان می دهد طبقه بندی کننده جنگل تصادفی بهتر از سایر مدل ها عمل می کند.
- اصلاح عدم تعادل:
نمونه برداری بیش از حد با SMOTE:
روش نمونهگیری بیش از حد اقلیت مصنوعی (SMOTE) یک رویکرد محبوب و مؤثر برای مقابله با عدم تعادل طبقاتی در مجموعه دادههای یادگیری ماشین است. عدم تعادل کلاس زمانی به وجود می آید که نمونه های یک کلاس بسیار بیشتر از نمونه های یک یا چند کلاس دیگر باشد که به طور بالقوه منجر به مدل های مغرضانه می شود. این مدلها معمولاً برای طبقهی مسلط عملکرد خوبی دارند، اما با طبقهی اقلیت دست و پنجه نرم میکنند، زیرا بهطور نامتناسبی تحت تأثیر طبقه بزرگتر هستند. SMOTE با تولید نمونه های مصنوعی برای کلاس اقلیت به جای کپی کردن نمونه های موجود، این مشکل را برطرف می کند. یک نقطه تصادفی را از کلاس اقلیت انتخاب می کند، تفاوت بین آن نقطه و نزدیکترین همسایگانش را محاسبه می کند و با ضرب این تفاوت در مقدار تصادفی بین 0 و 1 و اضافه کردن آن به نقطه اصلی از کلاس اقلیت، نمونه های مصنوعی ایجاد می کند. این فرآیند نه تنها اندازه داده ها را افزایش می دهد، بلکه به تعمیم مرزهای تصمیم گیری کمک می کند و مدل را کمتر مستعد تطبیق بیش از حد برای کلاس اکثریت می کند.
GridSearchCV: ادغام SMOTE با GridSearchCV در فرآیند آموزش الگوریتمهای مختلف، عملکرد مدل را با اجازه دادن به مدلها برای یادگیری از یک مجموعه داده متعادلتر، افزایش میدهد. GridSearchCV روشی است که برای شناسایی بهترین هایپرپارامترها برای یک مدل، افزایش دقت و عملکرد آن استفاده می شود. این کار را با کاوش روشمند ترکیبات مختلف تنظیمات پارامتر، انجام اعتبارسنجی متقابل در طول مسیر برای تعیین اینکه کدام ترکیب نتیجه بهینه را ارائه می دهد، انجام می دهد. در چارچوب این مطالعه، GridSearchCV در کنار SMOTE برای تنظیم دقیق پارامترهای الگوریتمهای مختلف یادگیری ماشینی مانند
-
رگرسیون لجستیک: پارامترهایی مانند “C” (قدرت منظم سازی)، “حل کننده” (الگوریتم مورد استفاده برای بهینه سازی)، و “class_weight” (وزن های مرتبط با کلاس ها) بسیار مهم هستند. GridSearchCV به تنظیم این پارامترها تحت مجموعه داده متعادل ارائه شده توسط SMOTE کمک کرد و توانایی مدل را برای تعمیم در کلاس های اقلیت افزایش داد.
-
درخت تصمیم و جنگل تصادفی: این مدلها از پارامترهای تنظیمی مانند «max_depth» (عمیقترین سطحی که درخت میتواند به آن برسد)، «min_samples_split» (حداقل تعداد نمونه مورد نیاز برای تقسیم یک گره داخلی) و «معیار» (روش مورد استفاده برای ارزیابی کیفیت) بهره میبرند. SMOTE همراه با GridSearchCV، به این مدلهای مبتنی بر درخت اجازه میدهد تا با یادگیری کافی ویژگیهای کلاس اقلیت، از تطبیق بیش از حد اجتناب کنند.
-
KNeighbors Classifier: شامل پارامترهایی مانند ‘n_neighbors’ (تعداد همسایگان در نظر گرفته شده)، ‘weights’ (عملی که وزن ها را برای پیش بینی اختصاص می دهد) و ‘p’ (پارامتر توان برای متریک Minkowski). از طریق GridSearchCV، بهترین پارامترها شناسایی شدند که با مجموعه داده متعادل ایجاد شده توسط SMOTE به خوبی کار میکردند و اطمینان میدادند که تأثیرات کلاس اقلیت تحت الشعاع طبقه اکثریت قرار نمیگیرد.
-
XGBoost: این الگوریتم شامل پارامترهایی مانند ‘learning_rate’، ‘max_depth’، ‘n_estimators’ و ‘subsample’ است. تنظیم این پارامترها با GridSearchCV روی یک مجموعه داده بهبود یافته با SMOTE به جلوگیری از تعصب بیش از حد مدل نسبت به کلاس اکثریت کمک کرد و در عین حال دقت پیشبینی کلی را در همه کلاسها بهبود بخشید.
استفاده از SMOTE با GridSearchCV در این الگوریتمها تضمین میکند که مدلها نه تنها با پارامترهای بهینه خود تنظیم شدهاند، بلکه بر روی مجموعه دادهای آموزش داده شدهاند که از یک سناریوی واقعی تقلید میکند که در آن توزیع کلاس همیشه متعادل نیست. این رویکرد به طور قابل توجهی استحکام، دقت و انصاف مدلها را بهبود بخشید و آنها را برای پیشبینی کیفیت شراب در کلاسهای کیفیت مختلف قابل اعتمادتر کرد.
نتایج
بهترین مدل بر اساس میانگین نمرات در دو رویکرد مدلسازی RandomForestClassifier است. طبقهبندیکننده جنگل تصادفی بهطور پیوسته عملکرد برتر را در هر دو مجموعه داده اصلی و متوازن نشان داد و به بالاترین دقت دست یافت. استفاده از SMOTE به طور کلی معیارهای عملکرد را برای همه مدلها بهبود بخشید و اثربخشی آن را در مدیریت دادههای نامتعادل برجسته کرد. KNeighbors Classifier و XGBoost نیز عملکرد خوبی داشتند، به ویژه پس از متعادل کردن داده ها، که نشان دهنده استحکام آنها در تغییرات توزیع کلاس است.
از میان ویژگیهای انتخابشده، میتوانیم بهترین کیفیتها را با توجه به بهترین مدل {طبقهبندی جنگل تصادفی رتبهبندی کنیم:
دی اکسید گوگرد کلمهمترین در پیشبینی کیفیت شراب، دیاکسید گوگرد کل از طراوت و طول عمر محافظت میکند و به طور قابلتوجهی بر مدل با بالاترین امتیاز اهمیت آن یعنی 0.24 تأثیر میگذارد.
اسیدیت فرار: دوم از نظر اهمیت، سطح اسیدیته فرار در 0.20 تأثیر آن بر طعم شراب را نشان می دهد. مقادیر بیش از حد می تواند طعم نامطلوب سرکه ایجاد کند و بر درک کلی کیفیت تأثیر بگذارد.
الکل: با نمره اهمیت 0.19، محتوای الکل به طور قابل توجهی بدن، بافت و خوش طعم بودن شراب را شکل می دهد و آن را به یک عامل محوری در ارزیابی مدل از کیفیت شراب تبدیل می کند.
سولفات ها: در رتبه چهارم، سولفات ها (اهمیت 0.18) به عنوان نگهدارنده و آنتی اکسیدان در شراب عمل می کنند و نقش حیاتی در حفظ ثبات و جلوگیری از فساد دارند و در نتیجه بر ارزیابی کیفیت تأثیر می گذارند.
اسید سیتریک: اگرچه اسید سیتریک کمترین امتیاز اهمیت را در 0.16 دارد، اما اسید سیتریک برای تعدیل اسیدیته شراب، افزایش طراوت، و کمک به مشخصات طعم ضروری است، بنابراین بر قضاوت های کیفیت تأثیر می گذارد.
بحث، نتیجه گیری و کار آینده : این مطالعه تأیید می کند که تکنیک های پیشرفته یادگیری ماشینی می توانند به طور موثر کیفیت شراب قرمز را پیش بینی کنند و اینکه پرداختن به عدم تعادل داده ها برای بهبود عملکرد مدل در سناریوهای طبقه بندی چند کلاسه بسیار مهم است. کار آینده می تواند مهندسی ویژگی های عمیق تر، ادغام یادگیری بدون نظارت برای تشخیص ناهنجاری در دسته های شراب، و استقرار مدل ها در سیستم های ارزیابی کیفیت بلادرنگ در کارخانه های شراب سازی را بررسی کند.
مسائل حرفه ای، اخلاقی و حقوقی
دقت و قابلیت اطمینان: مدل باید تحت آزمایش و اعتبارسنجی دقیق قرار گیرد تا اطمینان حاصل شود که نتایج قابل اعتماد و ثابتی را در سناریوهای مختلف ارائه میکند و به راهنمایی مؤثر تصمیمگیریهای شرابسازان کمک میکند.
شفافیت و توضیح پذیری: این مهم است که مدل برای ذینفعان قابل درک باشد و به خوبی با شیوه های سنتی در ارزیابی کیفیت شراب ترکیب شود و اعتماد به راه حل های یادگیری ماشین را افزایش دهد.
پیشرفت مداوم: به روز رسانی و تنظیم مداوم برای انطباق با داده های جدید و شرایط در حال تغییر ضروری است و اطمینان حاصل می شود که مدل مرتبط و موثر باقی می ماند.
ملاحظات اخلاقی:
تعصب و انصاف: پرداختن و کاهش هرگونه سوگیری در داده های آموزشی ضروری است تا تضمین شود که ارزیابی های مدل منصفانه و بی طرفانه هستند.
حریم خصوصی داده ها: رعایت استانداردهای سختگیرانه حفاظت از داده ها، حتی اگر مجموعه داده اولیه حاوی اطلاعات حساس نباشد، برای محافظت از پیشرفت های داده در آینده ضروری است.
تاثیر بر سهامداران: این مدل باید با آگاهی از تأثیرات بالقوه آن بر همه ذینفعان، ترویج انصاف و اجتناب از آسیب، توسعه و به کار گرفته شود.
سوالاتی برای کاوش بیشتر:
روشهای اعتبارسنجی: برای ارزیابی دقت و قابلیت اطمینان مدل پیشبینی کیفیت شراب از چه استراتژیهای اعتبارسنجی خاصی میتوان استفاده کرد؟
تکنیک های توضیح پذیری: کدام تکنیکها را میتوان برای افزایش شفافیت و توضیحپذیری مدل، بهویژه برای سهامداران ناآشنا با یادگیری ماشین استفاده کرد؟
شناسایی سوگیری: چه متدولوژی هایی را می توان برای شناسایی و تصحیح سوگیری ها در مجموعه داده به طور موثر پیاده سازی کرد؟
منابع
Cortez، P.، Cerdeira، A.، Almeida، F.، Matos، T. و Reis، J.، 2009. مدل سازی ترجیحات شراب با داده کاوی از خواص فیزیکوشیمیایی. سیستم های پشتیبانی تصمیم، 47(4)، pp.547-553.
Chawla، NV، Bowyer، KW، Hall، LO و Kegelmeyer، WP، 2002. SMOTE: روش نمونه برداری بیش از حد اقلیت مصنوعی. مجله تحقیقات هوش مصنوعی، 16، pp.321–357.
Han, H., Wang, WY and Mao, BH, 2005, August. Borderline-SMOTE: یک روش جدید نمونه برداری بیش از حد در یادگیری مجموعه داده های نامتعادل. در کنفرانس بین المللی محاسبات هوشمند (صص 878-887). برلین، هایدلبرگ: Springer Berlin Heidelberg.
Chawla، NV، Bowyer، KW، Hall، LO و Kegelmeyer، WP، 2002. SMOTE: روش نمونه برداری بیش از حد اقلیت مصنوعی. مجله تحقیقات هوش مصنوعی، 16، pp.321–357.
James, G., Witten, D., Hastie, T. and Tibshirani, R., 2013. مقدمه ای بر یادگیری آماری (جلد 112، ص 18). نیویورک: Springer.
کوهن، ام و جانسون، ک.، 2013. مدل سازی پیش بینی کاربردی (جلد 26، ص 13). نیویورک: اسپرینگر.
پدرگوسا، اف.، واروکو، جی.، گرامفورت، آ.، میشل، وی.، تیریون، بی.، گریزل، او.، بلوندل، ام.، پرتنهوفر، پی.، ویس، آر.، دوبورگ، وی. Vanderplas, J., 2011. Scikit-learn: یادگیری ماشینی در پایتون. مجله تحقیقات یادگیری ماشین، 12، pp.2825-2830.
هستی، تی، تبشیرانی، ر. و وین رایت، م.، 1394. یادگیری آماری با پراکندگی. رساله های آمار و احتمال کاربردی، 143(143)، ص8.
Han, H., Wang, WY and Mao, BH, 2005, August. Borderline-SMOTE: یک روش جدید نمونه برداری بیش از حد در یادگیری مجموعه داده های نامتعادل. در کنفرانس بین المللی محاسبات هوشمند (صص 878-887). برلین، هایدلبرگ: Springer Berlin Heidelberg.
Jain، K.، Kaushik، K.، Gupta، SK، Mahajan، S. و Kadry، S.، 2023. مدل سازی پیش بینی مبتنی بر یادگیری ماشین برای افزایش کیفیت شراب. گزارش های علمی، 13(1)، ص17042.
Di, S. and Yang, Y., 2022. پیش بینی کیفیت شراب قرمز با استفاده از شبکه های عصبی کانولوشنال یک بعدی. پیش چاپ arXiv arXiv:2208.14008.