پرسش و پاسخ درباره Big Data – DEV Community

Summarize this content to 400 words in Persian Lang
چرا هر وب سایتی از شما می خواهد که «کوکی ها» را بپذیرید؟ به طور خلاصه، این به این دلیل است که داده های مرور شما بیشتر از آنچه فکر می کنید ارزشمند است. امروز عصر فناوری اطلاعات است و جمع آوری کلان داده به موضوعی بحث برانگیز تبدیل شده است. کاربران از جمعآوری اطلاعاتشان غافل هستند، زیرا شرکتهای سودآور میخواهند با توصیههای متناسب در سبک زندگی آنها نفوذ کنند که به آن «شخصیسازی» میگویند.
1. داده های بزرگ چیست؟
داده های بزرگ با 3 ولت برجسته می شوند: حجم، تنوع و سرعت. همانطور که از نام آن پیداست، به حجم عظیمی از داده ها اشاره دارد که باید با روش های محاسباتی تجزیه و تحلیل شوند. انواع مختلف داده ها به سرعت تولید می شوند. بنابراین، آنها در زمان واقعی ذخیره و به روز می شوند.
دارای 3 دسته ساختاریافته، نیمه ساختاریافته و بدون ساختار است.
در یک جدول، داده های ساختاریافته گسسته هستند و می توانند بر اساس ستون هایی مانند “نام”، “آدرس”، “سن” و غیره سازماندهی شوند. نمونه هایی از فرم های اطلاعات کارکنان و جداول حسابداری از پایگاه داده هر شرکتی هستند.
داده های نیمه ساختار یافته ترکیبی از داده های ساختاریافته و بدون ساختار است. به عنوان مثال، صفحات وب، ایمیل ها، اسناد CSV، XML و JSON و فایل های فشرده شده.
دادههای بدون ساختار شامل فایلهای pdf، .doc، .txt و فیلمها هستند که نمیتوانند در هیچ جدول دادهای قرار بگیرند.
2. داده های بزرگ از کجا می آیند و چگونه سازماندهی می شوند؟
معماری: مدیریت کلان داده از معماری توزیع شده استفاده می کند. این بدان معنی است که یک مخزن مرکزی از داده ها وجود دارد که با سیستم های دیگر مانند پلتفرم های انبار و پایگاه داده NoSQL همکاری می کند.
منبع: داده های بزرگ از همه جا. نمونه هایی از سیستم های داخلی: تراکنش های بانکی، فعالیت های رسانه های اجتماعی و سوابق مراقبت های بهداشتی، و داده های حسگر تولید شده توسط ماشین ها نمونه هایی از داده های خارجی: شرایط جغرافیایی، بازارها و تحقیقات علمی.
روش شناسی: تحلیل های مقایسه ای، بازاریابی و احساسات.تجزیه و تحلیل مقایسه ای یک شرکت را قادر می سازد تا کیفیت و کیفیت محصول خود را با رقبای خود مقایسه کند. تجزیه و تحلیل بازاریابی اطلاعات را از هشتگ ها در رسانه های اجتماعی و داده های مصرف کنندگان استخراج می کند تا کمپین های بازاریابی خود را پیش ببرند و ابتکار عمل را حفظ کنند. تجزیه و تحلیل احساسات بر تمام بازخوردها در مورد تجربه مشتری متمرکز است و به حل مشکلات احتمالی خدمات اختصاص دارد.
3. برخی از کاربردهای داده های بزرگ چیست؟
کوکی های وب سایت:در همان ابتدا به این سوال بروید، رفتارهای مرور شما بخشی از مجموعه داده های بزرگ است. اگر اولویت مدیریت نشود، از کوکیها نه تنها برای ردیابی کلمات کلیدی که در وبسایت آنها تایپ میکنید، بلکه کل تاریخچه مرورگر شما استفاده میشود. به عنوان مثال، اگر آمازون شما تخفیف های لوازم التحریر را توصیه می کند، و شما هیچ کلمه کلیدی مرتبطی را در آن جستجو نکرده اید، ممکن است واقعیت این باشد که کوکی ها تعداد دفعات ورود شما به حساب دانشجویی خود را ثبت کرده اند.
رسانه های اجتماعیدر سال 2006، اعتراضی آنلاین علیه فید خبری “شخصی” فیس بوک صورت گرفت. فید اخبار هر به روز رسانی و لحظه به روز پروفایل را به دنبال کنندگان یک نفر نشان می داد. کاربران از آن به عنوان “شور آور” و “سرزده” شکایت کردند زیرا اطلاعات شخصی آنها در معرض دید افرادی قرار می گرفت که به آنها اعتماد ندارند.
4. چرا کاربران باید مراقب کلان داده ها باشند؟
کلان داده کاربران را در حباب های فیلتر قرار می دهد. وقتی همان کلمه کلیدی «کانادا» را در رایانههای خود و دوستتان جستجو میکنید، اگر معمولاً روی اخبار سیاسی/مهاجرت کلیک میکنید، اما دوستتان تمایل دارد روی راهنماهای سفر ضربه بزند، نتیجه جستجوی برتر متفاوت خواهد بود. همچنین، هنگامی که در شبکه های اجتماعی هستید، می توانستید متوجه شوید که اکثر مردم به چیزهایی که شما دوست دارید علاقه مند هستند و نظرات آنها با شما موافق است. با این حال، شما فریب الگوریتم داده های بزرگ را می خورید. رفتار مرور شما همیشه توسط برنامهها و کوکیها ردیابی میشود، آنها میدانند برای چه چیزهایی ارزش قائل هستید و رضایت شما را برآورده میکنند تا نظرات خوبی دریافت کنند یا از تبلیغات شخصیشده درآمد کسب کنند.
سوگیری تایید زمانی ظاهر می شود که فقط به نظراتی که شبیه نظرات شما هستند دسترسی داشته باشید و آن را بدیهی فرض کنید. به این ترتیب، شما تنها می توانید شواهدی برای حمایت از فرضیه خود بیابید و در عین حال از شواهد متقابل غفلت کنید. در نتیجه، وقتی فکر میکنید در حال یادگیری هستید، در واقع تعصب فعلی خود را با تعصب دیگری تقویت میکنید.
کلان داده به حریم خصوصی کاربران نفوذ می کند. هنگامی که تراکنش و سوابق پزشکی شما توسط کاربر نهایی نظارت می شود، با خطر فروش آن به شبکه و شرکت شما روبرو می شوید. به عنوان مثال، اگر افسردگی دارید و هر هفته به روانپزشک مراجعه می کنید، کارفرمای شما آن را از روی داده های بزرگی که مخفیانه خریده است می داند و ممکن است به شما انگ شود. اگرچه شرکت های مدیریت داده نیز برای جلب اعتماد، رمزگذاری داده ها را پیش می برند، اما همیشه بدبین است.
5. چشم انداز کلان داده چیست؟
دانشمندان داده روندهای آینده را از روی الگوهای کلان داده پیش بینی می کنند. به عنوان مثال، آنها می توانند داده های مصرف کننده را با استفاده از نمودارهای خطی تجسم کنند تا مشخص کنند کدام یا کدام بخش از یک کالای موجود در بازار محبوب باقی می ماند.
یادگیری ماشینی: هوش مصنوعی را می توان برای خودکارسازی تصمیم گیری با استفاده از داده های بزرگ آموزش داد. به عنوان مثال، قبل از اینکه پیشنهاد وام کم بهره را در صندوق پستی دریافت کنید، سیستم ایمیل خودکار بانک شما وام گیرندگان بالقوه را با تجزیه و تحلیل همه شرایط آنها از مجموعه داده استخراج می کند. علاوه بر این، توسعه سیستم پردازش زبان طبیعی به هوش مصنوعی اجازه میدهد تا دادههای بدون ساختار را مانند متون طولانی درک کند.
چرا هر وب سایتی از شما می خواهد که «کوکی ها» را بپذیرید؟ به طور خلاصه، این به این دلیل است که داده های مرور شما بیشتر از آنچه فکر می کنید ارزشمند است. امروز عصر فناوری اطلاعات است و جمع آوری کلان داده به موضوعی بحث برانگیز تبدیل شده است. کاربران از جمعآوری اطلاعاتشان غافل هستند، زیرا شرکتهای سودآور میخواهند با توصیههای متناسب در سبک زندگی آنها نفوذ کنند که به آن «شخصیسازی» میگویند.
1. داده های بزرگ چیست؟
داده های بزرگ با 3 ولت برجسته می شوند: حجم، تنوع و سرعت. همانطور که از نام آن پیداست، به حجم عظیمی از داده ها اشاره دارد که باید با روش های محاسباتی تجزیه و تحلیل شوند. انواع مختلف داده ها به سرعت تولید می شوند. بنابراین، آنها در زمان واقعی ذخیره و به روز می شوند.
دارای 3 دسته ساختاریافته، نیمه ساختاریافته و بدون ساختار است.
-
در یک جدول، داده های ساختاریافته گسسته هستند و می توانند بر اساس ستون هایی مانند “نام”، “آدرس”، “سن” و غیره سازماندهی شوند. نمونه هایی از فرم های اطلاعات کارکنان و جداول حسابداری از پایگاه داده هر شرکتی هستند.
-
داده های نیمه ساختار یافته ترکیبی از داده های ساختاریافته و بدون ساختار است. به عنوان مثال، صفحات وب، ایمیل ها، اسناد CSV، XML و JSON و فایل های فشرده شده.
-
دادههای بدون ساختار شامل فایلهای pdf، .doc، .txt و فیلمها هستند که نمیتوانند در هیچ جدول دادهای قرار بگیرند.
2. داده های بزرگ از کجا می آیند و چگونه سازماندهی می شوند؟
-
معماری: مدیریت کلان داده از معماری توزیع شده استفاده می کند. این بدان معنی است که یک مخزن مرکزی از داده ها وجود دارد که با سیستم های دیگر مانند پلتفرم های انبار و پایگاه داده NoSQL همکاری می کند.
-
منبع: داده های بزرگ از همه جا.
نمونه هایی از سیستم های داخلی: تراکنش های بانکی، فعالیت های رسانه های اجتماعی و سوابق مراقبت های بهداشتی، و داده های حسگر تولید شده توسط ماشین ها
نمونه هایی از داده های خارجی: شرایط جغرافیایی، بازارها و تحقیقات علمی. -
روش شناسی: تحلیل های مقایسه ای، بازاریابی و احساسات.
تجزیه و تحلیل مقایسه ای یک شرکت را قادر می سازد تا کیفیت و کیفیت محصول خود را با رقبای خود مقایسه کند.
تجزیه و تحلیل بازاریابی اطلاعات را از هشتگ ها در رسانه های اجتماعی و داده های مصرف کنندگان استخراج می کند تا کمپین های بازاریابی خود را پیش ببرند و ابتکار عمل را حفظ کنند.
تجزیه و تحلیل احساسات بر تمام بازخوردها در مورد تجربه مشتری متمرکز است و به حل مشکلات احتمالی خدمات اختصاص دارد.
3. برخی از کاربردهای داده های بزرگ چیست؟
-
کوکی های وب سایت:
در همان ابتدا به این سوال بروید، رفتارهای مرور شما بخشی از مجموعه داده های بزرگ است. اگر اولویت مدیریت نشود، از کوکیها نه تنها برای ردیابی کلمات کلیدی که در وبسایت آنها تایپ میکنید، بلکه کل تاریخچه مرورگر شما استفاده میشود. به عنوان مثال، اگر آمازون شما تخفیف های لوازم التحریر را توصیه می کند، و شما هیچ کلمه کلیدی مرتبطی را در آن جستجو نکرده اید، ممکن است واقعیت این باشد که کوکی ها تعداد دفعات ورود شما به حساب دانشجویی خود را ثبت کرده اند. -
رسانه های اجتماعی
در سال 2006، اعتراضی آنلاین علیه فید خبری “شخصی” فیس بوک صورت گرفت. فید اخبار هر به روز رسانی و لحظه به روز پروفایل را به دنبال کنندگان یک نفر نشان می داد. کاربران از آن به عنوان “شور آور” و “سرزده” شکایت کردند زیرا اطلاعات شخصی آنها در معرض دید افرادی قرار می گرفت که به آنها اعتماد ندارند.
4. چرا کاربران باید مراقب کلان داده ها باشند؟
-
کلان داده کاربران را در حباب های فیلتر قرار می دهد. وقتی همان کلمه کلیدی «کانادا» را در رایانههای خود و دوستتان جستجو میکنید، اگر معمولاً روی اخبار سیاسی/مهاجرت کلیک میکنید، اما دوستتان تمایل دارد روی راهنماهای سفر ضربه بزند، نتیجه جستجوی برتر متفاوت خواهد بود. همچنین، هنگامی که در شبکه های اجتماعی هستید، می توانستید متوجه شوید که اکثر مردم به چیزهایی که شما دوست دارید علاقه مند هستند و نظرات آنها با شما موافق است. با این حال، شما فریب الگوریتم داده های بزرگ را می خورید. رفتار مرور شما همیشه توسط برنامهها و کوکیها ردیابی میشود، آنها میدانند برای چه چیزهایی ارزش قائل هستید و رضایت شما را برآورده میکنند تا نظرات خوبی دریافت کنند یا از تبلیغات شخصیشده درآمد کسب کنند.
-
سوگیری تایید زمانی ظاهر می شود که فقط به نظراتی که شبیه نظرات شما هستند دسترسی داشته باشید و آن را بدیهی فرض کنید. به این ترتیب، شما تنها می توانید شواهدی برای حمایت از فرضیه خود بیابید و در عین حال از شواهد متقابل غفلت کنید. در نتیجه، وقتی فکر میکنید در حال یادگیری هستید، در واقع تعصب فعلی خود را با تعصب دیگری تقویت میکنید.
-
کلان داده به حریم خصوصی کاربران نفوذ می کند. هنگامی که تراکنش و سوابق پزشکی شما توسط کاربر نهایی نظارت می شود، با خطر فروش آن به شبکه و شرکت شما روبرو می شوید. به عنوان مثال، اگر افسردگی دارید و هر هفته به روانپزشک مراجعه می کنید، کارفرمای شما آن را از روی داده های بزرگی که مخفیانه خریده است می داند و ممکن است به شما انگ شود. اگرچه شرکت های مدیریت داده نیز برای جلب اعتماد، رمزگذاری داده ها را پیش می برند، اما همیشه بدبین است.
5. چشم انداز کلان داده چیست؟
-
دانشمندان داده روندهای آینده را از روی الگوهای کلان داده پیش بینی می کنند. به عنوان مثال، آنها می توانند داده های مصرف کننده را با استفاده از نمودارهای خطی تجسم کنند تا مشخص کنند کدام یا کدام بخش از یک کالای موجود در بازار محبوب باقی می ماند.
-
یادگیری ماشینی: هوش مصنوعی را می توان برای خودکارسازی تصمیم گیری با استفاده از داده های بزرگ آموزش داد. به عنوان مثال، قبل از اینکه پیشنهاد وام کم بهره را در صندوق پستی دریافت کنید، سیستم ایمیل خودکار بانک شما وام گیرندگان بالقوه را با تجزیه و تحلیل همه شرایط آنها از مجموعه داده استخراج می کند. علاوه بر این، توسعه سیستم پردازش زبان طبیعی به هوش مصنوعی اجازه میدهد تا دادههای بدون ساختار را مانند متون طولانی درک کند.