برنامه نویسی

تعصب در علم داده؟ 3 رایج ترین انواع و راه های مقابله با آنها

Summarize this content to 400 words in Persian Lang
از آنجایی که هیچ فرد داده ای (دانشمند، مهندس، تحلیلگر و غیره) از ارتکاب سوگیری مبرا نیست، در این مقاله، سوزانا پاچو، متخصص علوم داده و زیست شناس محاسباتی، شما را از طریق 3 نوع رایج راهنمایی می کند و ابزارها و تکنیک هایی را در اختیار شما قرار می دهد. در مورد چگونگی اجتناب از آن

عناوین کتاب‌ها و سرفصل‌های روزنامه‌ها مانند موارد زیر در دنیایی که توسط الگوریتم‌ها و علم داده تنظیم می‌شود، امری عادی است.

هرچه دنیا بیشتر به الگوریتم های مبتنی بر داده متکی شود، بیشتر شاهد مواردی از این دست خواهیم بود. با این حال، سوگیری یادگیری ماشین چیز جدیدی نیست.

یکی از پر استنادترین مقالات IT در این موضوع “کاهش سوگیری و ناکارآمدی در الگوریتم انتخاب” توسط جیمز ادوارد بیکر، مربوط به سال 1987 با بیش از 2000 استناد است. بنابراین می‌توانیم ببینیم که دهه‌هاست با این موضوع سروکار داریم.

این یک مسئله قدیمی با مشکلات فعلی است. هیچ فرد داده ای (دانشمند، مهندس، تحلیلگر و غیره) از ارتکاب این نوع اشتباهات مبرا نیست. بهترین راه برای مقابله با آنها صحبت کردن در مورد آنها است. بنابراین، در این مقاله، من شما را از طریق 3 نوع رایج سوگیری راهنمایی می‌کنم و به شما ابزارها و ایده‌هایی در مورد نحوه اجتناب از آنها ارائه می‌دهم.

اما ابتدا بیایید الگوریتمی را تعریف کنیم. در ساده‌ترین تعریف، تعصب الگوریتمی «خطاهای سیستماتیک و قابل تکرار در یک سیستم رایانه‌ای را توصیف می‌کند که نتایج ناعادلانه‌ای ایجاد می‌کند، مانند امتیاز دادن به یک گروه دلخواه از کاربران بر دیگران».

بنابراین، بیایید 3 سناریوی معمولی که در آن این اتفاق می افتد و تکنیک های مقابله با آنها را ببینیم.

1 – سوگیری تایید

رایج ترین تعصب، همه ما قربانی آن بوده ایم.

زمانی اتفاق می‌افتد که با انتظار قبلی از آنچه که امیدواریم ببینیم وارد داده‌ها می‌شویم. این می تواند آگاهانه یا ناخودآگاه باشد، بنابراین برای یک دانشمند داده بسیار مهم است که به این نوع سوگیری توجه کند. سوگیری ما قضاوت خودمان را مخدوش می‌کند و در نهایت می‌توانیم درباره داده‌هایی قضاوت کنیم که ممکن است مطابق با واقعیت نباشد.

یک مثال کلاسیک کوارتت Anscombe با 4 مجموعه داده مختلف با 2 متغیر x و y است. اگر آمار خلاصه ساده را انجام دهید، نتایج مشابهی برای همه دریافت خواهید کرد.

مقدار متوسط ​​x برای هر مجموعه داده 9 است
میانگین مقدار y برای هر مجموعه داده 7.50 است
واریانس برای x 11 و واریانس برای y 4.12 است
همبستگی بین x و y برای هر مجموعه داده 0.816 است. رگرسیون خطی (خط بهترین تناسب) برای هر مجموعه داده از معادله y = 0.5x + 3 پیروی می کند.

در ابتدا، ممکن است فکر کنید که آنها معادل هستند، آمار توصیفی همه یکسان است. اما سپس آنها را طرح ریزی می کنید و در کمال تعجب، همه آنها متفاوت هستند. واقعیت با تعصب شما مطابقت ندارد.

هیچ راه آسانی برای خروج از این نوع تعصب وجود ندارد. دو راه اصلی برای جلوگیری از آن، نگه داشتن یک پروتکل استاندارد از تجزیه و تحلیل داده ها است که به طور مداوم در پروژه ها استفاده می کنید، و نزدیک نگه داشتن کارشناسان دانش حوزه برای ارزیابی کار شما. مطمئن باشید که آن متخصصان دانش حوزه، تنوع مشتریان مورد انتظار شما را منعکس می‌کنند، بنابراین شما همان سوگیری را اما در متخصص دانش حوزه خود بازتولید نکنید.

2 – سوگیری نمونه گیری (همچنین به عنوان سوگیری انتخاب شناخته می شود)

وقتی یک مجموعه داده جمعیتی را که مدل در آن استفاده خواهد شد منعکس نمی کند، سوگیری نمونه گیری اتفاق خواهد افتاد. بیایید شکست ابزار استخدام هوش مصنوعی آمازون را به عنوان مثال در نظر بگیریم. این مدل برنامه‌های خوب زنان را نادیده می‌گرفت، زیرا مجموعه داده‌های آموزشی آن به‌طور عمده با متقاضیان مرد پر شده بود. دقت برای نامزدهای BIPOC نیز کاهش یافت.

روش‌هایی برای کاهش این سوگیری وجود دارد، مانند داده‌های مصنوعی (تولید داده‌های مصنوعی از گروه‌های کمتر ارائه‌شده) یا تکنیک‌های نمونه‌گیری مجدد (ایجاد زیرمجموعه‌ای از داده‌های اصلی که گروه‌ها را متعادل می‌کند) اما ابتدا، برای ما مهم است که آگاه باشیم که این سوگیری نمونه‌گیری وجود دارد. و برای آن، ابزارهایی مانند Aequitas – ابزاری رایگان برای انجام ممیزی های جانبداری و انصاف در پروژه های شما – فوق العاده هستند.

استفاده از ابزارهایی مانند این باید به یک استاندارد در کار شما تبدیل شود.

3 – تعصب انجمن

این شایع ترین سوگیری در اخبار امروز است. معمولاً زمانی ظاهر می شود که داده ها به وضوح تقویت یک سوگیری فرهنگی را نشان دهند.

این می تواند به سادگی یک بازی کلمات مرتبط باشد که مردان را با برنامه نویسان و زنان را با پرستاران جفت می کند و یک کلیشه را تقویت می کند. همچنین می‌تواند به همان اندازه جدی و مشکل‌ساز باشد که هوش مصنوعی در تصمیمات دادگاه در ایالات متحده به کار گرفته شد، که به طور مداوم آنها را نسبت به آمریکایی‌های آفریقایی تبار نسبت به آمریکایی‌های سفیدپوست خشن‌تر می‌کرد.

الگوریتمی که COMPAS نام دارد در تلاشی برای پیش‌بینی خطر عود هر مجرم ایجاد شد و بر اساس آن خطر، ارزش وثیقه محاسبه شد. در حالی که هنگام محاسبه ارزش وثیقه در همان مسابقه به طور معقولی کار می کرد، در مقایسه با آمریکایی های سفیدپوست به وضوح نسبت به آمریکایی های آفریقایی تبار تعصب داشت. محاسبات داده ها را منعکس می کند و سوگیری داخلی را که در سیستم قضایی وجود دارد نشان می دهد.

راه حل های این نوع سوگیری برای مدیریت و استفاده آسان و بحث برانگیز نیست. امروزه، بهترین شیوه‌ها به ما می‌گویند که بررسی‌های جانبداری مداوم توسط تیم‌های مختلف برای اجتناب از موقعیت‌هایی مانند این بسیار مهم است. یک تیم متنوع (که نشان دهنده جمعیتی است که مدل به آنها خدمات می دهد) بهترین مسیر رو به جلو است.

انعکاس جهان در تیم‌هایمان، بررسی کار توسط بیش از یک گروه، و هوشیاری نسبت به این واقعیت که سوگیری بخشی از علم داده است، به ما کمک می‌کند به سمت دنیای الگوریتمی منصفانه‌تر حرکت کنیم.

به یاد داشته باشید، همکاران داده، محتاط باشید، هوشیار باشید و تمام تلاش خود را برای جلوگیری از تعصب انجام دهید.

این تمام چیزی است که می توان از یک حرفه ای داده خوب درخواست کرد.

بیایید در رسانه های اجتماعی ارتباط برقرار کنیم، ما را در لینکدین دنبال کنید!

مقاله نوشته شده توسط سوزانا پاکو، و در ابتدا در https://kwan.com/blog/bias-data-science-3-most-common-types-and-ways-to-deal-with-them/ در 24 ژوئن منتشر شده است. 2021.

شما را در مقاله بعدی می بینیم!

از آنجایی که هیچ فرد داده ای (دانشمند، مهندس، تحلیلگر و غیره) از ارتکاب سوگیری مبرا نیست، در این مقاله، سوزانا پاچو، متخصص علوم داده و زیست شناس محاسباتی، شما را از طریق 3 نوع رایج راهنمایی می کند و ابزارها و تکنیک هایی را در اختیار شما قرار می دهد. در مورد چگونگی اجتناب از آن

عناوین کتاب‌ها و سرفصل‌های روزنامه‌ها مانند موارد زیر در دنیایی که توسط الگوریتم‌ها و علم داده تنظیم می‌شود، امری عادی است.

توضیحات تصویر

توضیحات تصویر

توضیحات تصویر

هرچه دنیا بیشتر به الگوریتم های مبتنی بر داده متکی شود، بیشتر شاهد مواردی از این دست خواهیم بود. با این حال، سوگیری یادگیری ماشین چیز جدیدی نیست.

یکی از پر استنادترین مقالات IT در این موضوع “کاهش سوگیری و ناکارآمدی در الگوریتم انتخاب” توسط جیمز ادوارد بیکر، مربوط به سال 1987 با بیش از 2000 استناد است. بنابراین می‌توانیم ببینیم که دهه‌هاست با این موضوع سروکار داریم.

این یک مسئله قدیمی با مشکلات فعلی است. هیچ فرد داده ای (دانشمند، مهندس، تحلیلگر و غیره) از ارتکاب این نوع اشتباهات مبرا نیست. بهترین راه برای مقابله با آنها صحبت کردن در مورد آنها است. بنابراین، در این مقاله، من شما را از طریق 3 نوع رایج سوگیری راهنمایی می‌کنم و به شما ابزارها و ایده‌هایی در مورد نحوه اجتناب از آنها ارائه می‌دهم.

اما ابتدا بیایید الگوریتمی را تعریف کنیم. در ساده‌ترین تعریف، تعصب الگوریتمی «خطاهای سیستماتیک و قابل تکرار در یک سیستم رایانه‌ای را توصیف می‌کند که نتایج ناعادلانه‌ای ایجاد می‌کند، مانند امتیاز دادن به یک گروه دلخواه از کاربران بر دیگران».

بنابراین، بیایید 3 سناریوی معمولی که در آن این اتفاق می افتد و تکنیک های مقابله با آنها را ببینیم.

1 – سوگیری تایید

رایج ترین تعصب، همه ما قربانی آن بوده ایم.

زمانی اتفاق می‌افتد که با انتظار قبلی از آنچه که امیدواریم ببینیم وارد داده‌ها می‌شویم. این می تواند آگاهانه یا ناخودآگاه باشد، بنابراین برای یک دانشمند داده بسیار مهم است که به این نوع سوگیری توجه کند. سوگیری ما قضاوت خودمان را مخدوش می‌کند و در نهایت می‌توانیم درباره داده‌هایی قضاوت کنیم که ممکن است مطابق با واقعیت نباشد.

یک مثال کلاسیک کوارتت Anscombe با 4 مجموعه داده مختلف با 2 متغیر x و y است. اگر آمار خلاصه ساده را انجام دهید، نتایج مشابهی برای همه دریافت خواهید کرد.

  • مقدار متوسط ​​x برای هر مجموعه داده 9 است
  • میانگین مقدار y برای هر مجموعه داده 7.50 است
  • واریانس برای x 11 و واریانس برای y 4.12 است
  • همبستگی بین x و y برای هر مجموعه داده 0.816 است. رگرسیون خطی (خط بهترین تناسب) برای هر مجموعه داده از معادله y = 0.5x + 3 پیروی می کند.

توضیحات تصویر

در ابتدا، ممکن است فکر کنید که آنها معادل هستند، آمار توصیفی همه یکسان است. اما سپس آنها را طرح ریزی می کنید و در کمال تعجب، همه آنها متفاوت هستند. واقعیت با تعصب شما مطابقت ندارد.

هیچ راه آسانی برای خروج از این نوع تعصب وجود ندارد. دو راه اصلی برای جلوگیری از آن، نگه داشتن یک پروتکل استاندارد از تجزیه و تحلیل داده ها است که به طور مداوم در پروژه ها استفاده می کنید، و نزدیک نگه داشتن کارشناسان دانش حوزه برای ارزیابی کار شما. مطمئن باشید که آن متخصصان دانش حوزه، تنوع مشتریان مورد انتظار شما را منعکس می‌کنند، بنابراین شما همان سوگیری را اما در متخصص دانش حوزه خود بازتولید نکنید.

2 – سوگیری نمونه گیری (همچنین به عنوان سوگیری انتخاب شناخته می شود)

وقتی یک مجموعه داده جمعیتی را که مدل در آن استفاده خواهد شد منعکس نمی کند، سوگیری نمونه گیری اتفاق خواهد افتاد. بیایید شکست ابزار استخدام هوش مصنوعی آمازون را به عنوان مثال در نظر بگیریم. این مدل برنامه‌های خوب زنان را نادیده می‌گرفت، زیرا مجموعه داده‌های آموزشی آن به‌طور عمده با متقاضیان مرد پر شده بود. دقت برای نامزدهای BIPOC نیز کاهش یافت.

روش‌هایی برای کاهش این سوگیری وجود دارد، مانند داده‌های مصنوعی (تولید داده‌های مصنوعی از گروه‌های کمتر ارائه‌شده) یا تکنیک‌های نمونه‌گیری مجدد (ایجاد زیرمجموعه‌ای از داده‌های اصلی که گروه‌ها را متعادل می‌کند) اما ابتدا، برای ما مهم است که آگاه باشیم که این سوگیری نمونه‌گیری وجود دارد. و برای آن، ابزارهایی مانند Aequitas – ابزاری رایگان برای انجام ممیزی های جانبداری و انصاف در پروژه های شما – فوق العاده هستند.

توضیحات تصویر

استفاده از ابزارهایی مانند این باید به یک استاندارد در کار شما تبدیل شود.

3 – تعصب انجمن

این شایع ترین سوگیری در اخبار امروز است. معمولاً زمانی ظاهر می شود که داده ها به وضوح تقویت یک سوگیری فرهنگی را نشان دهند.

این می تواند به سادگی یک بازی کلمات مرتبط باشد که مردان را با برنامه نویسان و زنان را با پرستاران جفت می کند و یک کلیشه را تقویت می کند. همچنین می‌تواند به همان اندازه جدی و مشکل‌ساز باشد که هوش مصنوعی در تصمیمات دادگاه در ایالات متحده به کار گرفته شد، که به طور مداوم آنها را نسبت به آمریکایی‌های آفریقایی تبار نسبت به آمریکایی‌های سفیدپوست خشن‌تر می‌کرد.

توضیحات تصویر

الگوریتمی که COMPAS نام دارد در تلاشی برای پیش‌بینی خطر عود هر مجرم ایجاد شد و بر اساس آن خطر، ارزش وثیقه محاسبه شد. در حالی که هنگام محاسبه ارزش وثیقه در همان مسابقه به طور معقولی کار می کرد، در مقایسه با آمریکایی های سفیدپوست به وضوح نسبت به آمریکایی های آفریقایی تبار تعصب داشت. محاسبات داده ها را منعکس می کند و سوگیری داخلی را که در سیستم قضایی وجود دارد نشان می دهد.

راه حل های این نوع سوگیری برای مدیریت و استفاده آسان و بحث برانگیز نیست. امروزه، بهترین شیوه‌ها به ما می‌گویند که بررسی‌های جانبداری مداوم توسط تیم‌های مختلف برای اجتناب از موقعیت‌هایی مانند این بسیار مهم است. یک تیم متنوع (که نشان دهنده جمعیتی است که مدل به آنها خدمات می دهد) بهترین مسیر رو به جلو است.

انعکاس جهان در تیم‌هایمان، بررسی کار توسط بیش از یک گروه، و هوشیاری نسبت به این واقعیت که سوگیری بخشی از علم داده است، به ما کمک می‌کند به سمت دنیای الگوریتمی منصفانه‌تر حرکت کنیم.

به یاد داشته باشید، همکاران داده، محتاط باشید، هوشیار باشید و تمام تلاش خود را برای جلوگیری از تعصب انجام دهید.

این تمام چیزی است که می توان از یک حرفه ای داده خوب درخواست کرد.

بیایید در رسانه های اجتماعی ارتباط برقرار کنیم، ما را در لینکدین دنبال کنید!

مقاله نوشته شده توسط سوزانا پاکو، و در ابتدا در https://kwan.com/blog/bias-data-science-3-most-common-types-and-ways-to-deal-with-them/ در 24 ژوئن منتشر شده است. 2021.

شما را در مقاله بعدی می بینیم!

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا