تشخیص بیماری آلزایمر با EEG و یادگیری عمیق

چکیده
بیماری آلزایمر (AD) نشان دهنده یک چالش مهم بهداشت جهانی است. در این مقاله یک رویکرد آزمایشی برای تشخیص اولیه AD با استفاده از سیگنال های الکتروانسفالوگرافی (EEG) که از طریق یک معماری نوآورانه یادگیری عمیق پردازش می شوند ، پیشنهاد می کند. من یک مدل توجه مبتنی بر فرکانس کانال را پیشنهاد می کنم که به طور موثری ویژگی های طیفی را در مناطق مختلف مغز ضبط می کند. این مدل از پیچیدگی های عمق ، بلوک های فشار و تحریک و منظم سازی ترکیبی فضایی برای یادگیری کارآمد در داده های EEG استفاده می کند. این مجموعه داده دارای ضبط EEG 19 کانال از افراد مبتلا به آلزایمر ، کنترل سالم و زوال عقل Frontotemporal است. این مدل دقت 83.81 ٪ را نشان می دهد ، که در مورد پتانسیل آن به ما می گوید.
مقدمه
بیماری آلزایمر (AD) یک اختلال عصبی پیشرونده است که میلیون ها نفر از افراد جهان را تحت تأثیر قرار می دهد و کاهش تدریجی شناختی ، از دست دادن حافظه و تغییرات رفتاری را نشان می دهد. بسیاری از افراد به دنبال کمک پزشکی به دلیل اینکه آنها از دست دادن حافظه به پیری طبیعی نسبت می دهند ، به تأخیر می اندازند و منجر به تشخیص دیر هنگام درمان می شوند.
روشهای تشخیصی فعلی برای AD اغلب به روشهای تهاجمی و گران قیمت مانند توموگرافی انتشار پوزیترون (PET) متکی است. بنابراین ، ما به یک ابزار غیر تهاجمی ، مقرون به صرفه و به راحتی در دسترس برای تشخیص اولیه تبلیغ نیاز داریم. الکتروانسفالوگرافی (EEG) به دلیل ماهیت غیر تهاجمی و هزینه نسبتاً کم کاندیدای خوبی است.
مطالعات متعددی نشان داده اند که افزایش قدرت در باندهای با فرکانس پایین مانند دلتا و تتا و کاهش قدرت در باندهای بالاتر مانند آلفا و بتا ، می تواند به عنوان نشانگرهای زیستی برای تشخیص اولیه AD باشد.
مدل های یادگیری عمیق می توانند به طور خودکار الگوهای داده های خام یا حداقل پردازش شده را که ممکن است از روشهای تجزیه و تحلیل سنتی فرار کنند ، بیاموزند.
در این مقاله یک مدل DL برای تشخیص AD با استفاده از سیگنال های EEG پیشنهاد شده است. مدل ما الگوهای موجود در داده های EEG را ضبط می کند و با تمرکز بر ویژگی های نسبی باند از پنج باند فرکانس: آلفا ، بتا ، گاما ، دلتا و تتا. سهم اصلی این مقاله عبارتند از:
- یک مدل توجه با فرکانس کانال که سعی می کند رابطه بین مناطق مختلف مغز و نوارهای فرکانس را ضبط کند
- خط لوله پیش پردازش برای استخراج قدرت باند نسبی (RBP) از سیگنال های EEG از پیش پردازش شده
- تجزیه و تحلیل عملکرد مدل.
یادگیری عمیق برای تجزیه و تحلیل EEG
استفاده از یادگیری عمیق در تجزیه و تحلیل EEG در سالهای اخیر کشش قابل توجهی به دست آورده است ، و این پتانسیل را برای یادگیری خودکار ویژگی های مربوطه از داده های حداقل پردازش شده ارائه می دهد. معماری های مختلف یادگیری عمیق برای تشخیص AD مبتنی بر EEG ، از جمله شبکه های عصبی حلقوی (CNN) ، شبکه های عصبی مکرر (RNN) ، شبکه های اعتقاد عمیق (DBN) و اخیراً ترانسفورماتورها مورد بررسی قرار گرفته است.
ژائو (2014) از جمله محققان اولیه بود که از یادگیری عمیق برای تشخیص AD مبتنی بر EEG استفاده می کرد ، با استفاده از یک شبکه رمزگذاری خودکار عمیق برای استخراج ویژگی های EEG Data4. این مطالعه نشان داد که یادگیری عمیق می تواند بین بیماران AD و کنترل های سالم بدون نیاز به مهندسی ویژگی های دستی ، تبعیض قائل شود. با تکیه بر این کار ، مطالعات اخیر بیشتر معماری های پیچیده ای را توسعه داده اند.
Ieracitano و همکاران. (2019) یک مدل CNN را برای تشخیص AD مبتنی بر EEG پیشنهاد کرد و با یادگیری مستقیم از بازنمایی های فرکانس زمان سیگنال های EEG ، به دقت طبقه بندی بالا می رسید. به همین ترتیب ، هاگینز و همکاران. (2020) از یک معماری مبتنی بر Alexnet برای طبقه بندی داده های EEG تبدیل شده به نمودارهای فرکانس زمان با استفاده از تبدیل مداوم موجک استفاده کرد و به یک دقت چشمگیر 98.90 ٪ برای طبقه بندی سه طبقه رسید.
اخیراً ، وانگ و همکاران. (2024) LEAD ، یک مدل پایه بزرگ برای تشخیص AD مبتنی بر EEG. این رویکرد از یادگیری متضاد بر روی بخش بزرگی از داده های EEG از اختلالات مختلف عصبی استفاده می کند ، و به دنبال آن تنظیم دقیق در مجموعه داده های خاص AD. این مدل پیشرفتهای قابل توجهی نسبت به روشهای قبلی نشان داد ، و پتانسیل یادگیری انتقال و رویکردهای خودرس را در داده های محدود AD خاص 7 برجسته کرد.
چالش ها در تشخیص تبلیغات مبتنی بر EEG
با وجود نتایج امیدوارکننده ، چندین چالش در تشخیص AD مبتنی بر EEG با آن روبرو است. یکی از چالش های مهم ، تغییرات بین افراد مختلف است ، و تهیه الگویی که به خوبی به جمعیتی جدید افراد تعمیم می یابد ، دشوار است. سیگنال های EEG تحت تأثیر عوامل مختلفی از جمله جنسیت ، دارو و سن قرار می گیرند و باعث می شوند که الگوهای خاص AD را جدا کند.
یکی دیگر از چالش ها ، در دسترس بودن محدود مجموعه داده های EEG با کیفیت بالا است. بیشتر مجموعه داده ها شامل تعداد کمی از افراد است که تعمیم مدل های آموزش داده شده بر روی آن را محدود می کند.
کیفیت داده ها همچنین یک نگرانی مهم است ، زیرا ضبط EEG مستعد ابتلا به مصنوعات مختلف از جمله حرکات چشم ، فعالیت عضلات و سر و صدای محیطی است. پیش پردازش داده ها می تواند این مسائل را کاهش دهد ، اما ممکن است اطلاعات مربوطه مهم را نیز حذف کرده و تعصبات را در مجموعه داده ها معرفی کند.
سرانجام ، درک ویژگی ها یا الگوهای خاص این مدل های یادگیری عمیق چالش برانگیز است. این طبیعت “جعبه سیاه” می تواند مانع از پذیرش بالینی شود ، زیرا ارائه دهندگان مراقبت های بهداشتی عموماً ابزارهای تشخیصی را با عقلانیت واضح و قابل تفسیر ترجیح می دهند.
مدل پیشنهادی
دستیابی به داده ها و پیش پردازش
مطالعه ما از داده های EEG از یک مجموعه داده حاوی ضبط شده از افراد مبتلا به بیماری آلزایمر (با عنوان “A”) ، زوال عقل Frontotemporal (برچسب “F”) و کنترل های سالم (برچسب “C”) استفاده کرده است. این مجموعه داده شامل ضبط EEG 19 کانال به دنبال سیستم استاندارد بین المللی 10-20 برای قرار دادن الکترود بود.
شکل 1. نمودار جریان خط لوله پیش پردازش EEG. پرونده های خام Eeglab .Set با استفاده از روش Welch برای محاسبه PSD فیلتر ، دوران و پردازش می شوند. ویژگی های قدرت باند نسبی (RBP) قبل از ورود به مدل طبقه بندی ، استخراج و سپس استاندارد می شوند.
خط لوله پیش پردازش شامل چندین مرحله بود که برای استخراج ویژگی های معنی دار و ضمن به حداقل رساندن مصنوعات طراحی شده است:
- بارگیری داده ها و نقشه برداری برچسب: ما داده های EEG را با استفاده از MNE-Python بارگذاری کردیم و گروه های تشخیصی را به برچسب های عددی نقشه برداری کردیم (0 برای آلزایمر ، 1 برای زوال عقل Frontotemporal و 2 برای کنترل سالم).
- فیلتر سیگنال: ما از یک فیلتر باند (0.5-45 هرتز) استفاده کردیم تا مصنوعات را از بین ببریم و فقط باندهای فرکانس مربوط به تجزیه و تحلیل ما را حفظ کنیم. این مرحله باعث از بین رفتن نویز خط برق (به طور معمول در 50 یا 60 هرتز) و رانش های با فرکانس بسیار پایین می شود.
- دوره ای: ضبط های مداوم EEG به دوره های 2 ثانیه ای با همپوشانی 1 ثانیه تقسیم شدند. این رویکرد به ما اجازه می دهد تا ضمن تولید نمونه های کافی برای آموزش مدل ، الگوهای عصبی گذرا را ضبط کنیم.
- تجزیه و تحلیل طیفی: ما چگالی طیفی قدرت (PSD) را برای هر دوره با استفاده از روش Welch محاسبه کردیم ، که با میانگین دوره های پریودوگرام بخش های همپوشانی ، تخمین قوی از محتوای فرکانس سیگنال های EEG را ارائه می دهد.
-
استخراج قدرت باند نسبی: ما ویژگی های باند نسبی (RBP) را برای پنج باند فرکانس استاندارد EEG استخراج کردیم:
- دلتا (0.5-4 هرتز): همراه با خواب عمیق و حالات پاتولوژیک
- تتا (4-8 هرتز): مرتبط با خواب آلودگی و برخی شرایط پاتولوژیک
- آلفا (8-13 هرتز): غالب در هنگام بیداری آرام
- بتا (13-25 هرتز): مربوط به تفکر و تمرکز فعال است
- گاما (25-45 هرتز): همراه با پردازش شناختی و اتصال ادراکی
شکل 2. نمودار مفهومی تولید ویژگی باند نسبی (RBP) برای یک دوره واحد. چگالی طیفی قدرت (PSD) با استفاده از روش Welch محاسبه می شود. قدرت سپس برای پنج باند فرکانس کلیدی (تتا ، دلتا ، آلفا ، بتا ، گاما) جمع و عادی می شود و یک نقشه ویژگی 19×5 (19 کانال x 5 فرکانس) تولید می کند به عنوان ویژگی های ورودی
قدرت باند نسبی با تقسیم قدرت مطلق در هر باند فرکانس با قدرت کل در تمام باندها محاسبه شد ، در نتیجه یک اندازه گیری عادی که باعث کاهش تأثیر تنوع بین موضوع در دامنه سیگنال کلی می شود.
- تغییر شکل: ویژگی های RBP استخراج شده به یک تانسور 4D (دوره ها ، کانال ها ، باند فرکانس ، 1) مناسب برای ورود به شبکه عصبی حلقوی ما تغییر یافت.
- تقسیم داده ها و استاندارد سازی: مجموعه داده به آموزش (80 ٪) و مجموعه آزمایش (20 ٪) تقسیم شد و از استاندارد سازی برای عادی سازی توزیع ویژگی ها ، بهبود ثبات آموزش و عملکرد مدل استفاده شد.
ورودی نهایی به مدل ما دارای شکل (N ، 19 ، 5 ، 1) بود که نمایانگر دوره های N ، 19 کانال EEG ، پنج باند فرکانس و یک ویژگی (قدرت باند نسبی) بود.
ما یک مدل یادگیری عمیق ترکیبی را که ترکیب شبکه های عصبی حلقوی (CNN) و شبکه های حافظه کوتاه مدت بلند مدت دو طرفه (BILSTM) برای تشخیص AD را پیشنهاد می کنیم. این مدل قدرت باند نسبی (RBP) را نشان می دهد که از دوره های EEG 2 ثانیه ای غیر همپوشانی استخراج شده است. این ویژگی ها به عنوان تانسرهای ورودی شکل (19 ، 5 ، 1) ساختار یافته اند ، که 19 کانال EEG ، 5 باند فرکانس متعارف را نشان می دهد (دلتا: 0.5-4Hz ، تتا: 4-8Hz ، آلفا: 8-13Hz ، بتا: 13-25Hz ، گاما: 25-45Hz) [Adjust band definitions if different]، و یک بعد ویژگی (قدرت).
شکل 3. معماری طبقه بندی طبقه بندی CNN -bilstm.
معماری شامل:
- استخراج کننده ویژگی CNN: ورودی (19 ، 5 ، 1) ورودی.
- بلوک 1: CONV2D (32 فیلتر ، هسته 3×3 ، L2 reg.) -> batchnormalization -> relu -> maxpooling2d (اندازه استخر (2 ، 1)) ، کاهش بعد کانال ضمن حفظ اطلاعات فرکانس.
- بلوک 2: CONV2D (64 فیلتر ، هسته 3×3 ، L2 reg.) -> batchnormalization -> relu -> maxpooling2d (اندازه استخر (2 ، 2)) ، پایین آمدن هر دو بعد. این مرحله الگوهای مکانی محلی را در کانال ها و الگوهای طیفی در باندهای فرکانس ضبط می کند.
- تهیه توالی: یک لایه مجاز ، ابعاد خروجی CNN را برای اولویت بندی محور فرکانس (دسته ای ، reduced_freqs ، cheaded_channels ، فیلترها) و یک لایه تغییر شکل ، کانال و فیلتر را ادغام می کند ، ابعاد فیلتر را ادغام می کند ، ایجاد یک ورودی توالی برای LSTM: (دسته ای ، دنباله_ طول = creaded_freqs_freqs ، ویژگی های_ per_step).
- مدل سازی متوالی (BILSTM): یک لایه LSTM دو طرفه (64 واحد ، ترک تحصیل ، ترک تحصیل مکرر ، L2 Reg.) توالی ویژگی های حاصل از نوارهای فرکانس را پردازش می کند. این امر وابستگی ها و اطلاعات متنی را در سراسر مشخصات طیفی ضبط می کند (به عنوان مثال ، روابط بین ویژگی های آلفا و بتا باند). Return_queences = false برای طبقه بندی استفاده می شود.
- سر طبقه بندی: ترک تحصیل -> متراکم (128 واحد ، Relu ، L2 Reg.) -> ترک تحصیل -> متراکم (3 واحد ، فعال سازی SoftMax) برای پیش بینی کلاس نهایی (A ، F ، C).
معماری مدل در نمودار زیر خلاصه شده است:
روش آموزش
این مدل با استفاده از بهینه ساز آدام با میزان یادگیری 0.001 و یک عملکرد از دست دادن متقابل آنتروپی طبقه ای پراکنده آموزش داده شد. این مجموعه داده عدم تعادل کلاس متوسط را به نمایش گذاشت (کلاس A: 42 ٪ ، F: 24 ٪ ، C: 34 ~ 34 ٪ از کل دوره ها). وزن کلاس متعادل با استفاده از حالت “متعادل” Sklearn محاسبه شد و در طول تمرین برای کاهش این کار استفاده شد.
تمرینات با استفاده از مجازات های L2 در لایه های حلقوی و متراکم ، ترک تحصیل در لایه های LSTM و ضخیم و دو تماس تلفنی تنظیم شد: اوایل حرکت (نظارت بر Val_loss ، صبر 20 ، بازگرداندن بهترین وزن) و Reducelronplateau (نظارت بر Val_Loss ، فاکتور 0.2 ، صبر 7). آموزش حداکثر 100 دوره با اندازه دسته ای از 128 در یک مجموعه داده به 80 ٪ آموزش (دوره 55K ~) و 20 ٪ آزمایش (دوره های 14K پوند) تقسیم شد. وزن مدل نهایی بر اساس کمترین از دست دادن اعتبار سنجی حاصل از آموزش انتخاب شد.
ارزیابی سیستم پیشنهادی
راه اندازی آزمایشی
ما مدل خود را با استفاده از یک چارچوب آزمایشی دقیق برای ارزیابی عملکرد آن در طبقه بندی سیگنال های EEG از افراد مبتلا به آلزایمر ، زوال عقل Frontotemporal و کنترل سالم ارزیابی کردیم. مجموعه داده ها به مجموعه آموزش (80 ٪) و آزمایش (20 ٪) تقسیم شد. ما از ماتریس های دقت ، از دست دادن و سردرگمی به عنوان معیارهای ارزیابی اصلی خود استفاده کردیم.
این مدل با استفاده از Tensorflow و Keras اجرا می شود.
نتایج و تجزیه و تحلیل عملکرد
این مدل به دقت آزمون 81 /81 ٪ و الف از دست دادن ورود به سیستم 0.4188بشر در ضریب کاپا کوهن 0.7520 بودبشر
عملکرد هر کلاس ، همانطور که در جدول I شرح داده شده است ، نتایج به طور کلی قوی را در تمام کلاس ها نشان می دهد. کلاس C (“کنترل”) به بالاترین دقت (0.8751) و فراخوان بالا (0.8478) دست یافت و منجر به بهترین نمره F1 (0.8612) شد. کلاس A (“آلزایمر”) نیز با دقت و فراخوان متعادل (0.8407) عملکرد خوبی داشت. کلاس F (“زوال عقل Frontotemporal”) معیارهای کمی پایین تر ، با دقت 0.7838 و فراخوان 0.8195 (نمره F1: 0.8012).
جدول I: گزارش طبقه بندی
طبقه | دقت | یادآوری کردن | نمره F1 | حمایت |
بوها | 0.8407 | 0.8407 | 0.8407 | 5724 |
ج | 0.7838 | 0.8195 | 0.8012 | 3335 |
جف | 0.8751 | 0.8478 | 0.8612 | 4883 |
دقت | 0.8381 | 13942 | ||
کلوچه | 0.8332 | 0.8360 | 0.8344 | 13942 |
AVG وزنی | 0.8391 | 0.8381 | 0.8384 | 13942 |
این جدول عملکرد مدل را در سه کلاس (A ، F ، C) از نظر دقت ، فراخوان و نمره F1 خلاصه می کند. میانگین های وزنی و کلان ، نمای کلی از عملکرد کلی مدل را ارائه می دهد. دقت نشان دهنده نسبت کلی موارد طبقه بندی شده صحیح است.
تجزیه و تحلیل بیشتر با استفاده از منطقه تحت منحنی مشخصه عملکرد گیرنده (AUC) با یک استراتژی یک VS-REST نشانگر جدایی کلاس عالی در سطح احتمال بود. نمرات AUC بود 0.9454 برای کلاس A ، 0.9558 برای کلاس F و 0.9625 برای کلاس C، با یک AUC متوسط کلان 0.9546بشر
ماتریس سردرگمی نرمال (شکل y – به شکل نقشه گرما مراجعه کنید) بینش در مورد الگوهای خطای خاص ارائه می دهد. عناصر مورب مقادیر فراخوان بالا را برای هر کلاس تأیید می کنند (A: 0.84 ، F: 0.82 ، C: 0.85). قابل توجه ترین طبقه بندی در جایی رخ داده است 13 ٪ از نمونه های کلاس F واقعی به عنوان کلاس A پیش بینی شده بودندوت 10 ٪ از موارد کلاس C واقعی به عنوان کلاس A پیش بینی شده بودبشر سایر طبقه بندی های نادرست کمتر مکرر بودند (<8 ٪). این نتایج نشان می دهد که در حالی که مدل به طور موثری کلاس ها را به طور کلی متمایز می کند ، برخی از سردرگمی باقیمانده ، به ویژه در تمایز کلاس های F و C از کلاس A بر اساس الگوهای طیفی آموخته شده وجود دارد.
شکل 4. ماتریس سردرگمی نرمال (فراخوان) از مدل CNN -bilstm پیشنهادی در کلاس های A ، F و C ..
قابلیت تفسیر مدل
معماری این مدل یک فرایند یادگیری ویژگی های ردیف را نشان می دهد. لایه های CNN به شناسایی الگوهای محلی در بازنمایی RBP با فرکانس کانال (به عنوان مثال ، کند شدن کانونی ، نسبت قدرت باند خاص) کمک می کند. BILSTM متعاقباً نحوه ارتباط این الگوهای در طیف فرکانس (دلتا از طریق گاما) را مدل می کند. عملکرد بالا مشاهده شده ، به ویژه نمرات بالا AUC ، نشان می دهد که مدل ویژگی های مشخصات طیفی تبعیض آمیز برای هر کلاس با موفقیت آموخته شده است.
مشاهده
مدل CNN-bilstm ترکیبی همگرایی را در طول آموزش نشان می دهد: از دست دادن به طور هموار در طول دوره ها کاهش می یابد ، و دقت آن تا زمانی که فلات IT بهبود می یابد ، نشان می دهد که نشان دهنده یادگیری مؤثر از ویژگی های EEG است. دقت آموزش کمی بالاتر از دقت آزمون 83.81 ٪ است و دلالت بر تعمیم خوب دارد. این نشان می دهد که بیش از حد محدود است.
معماری CNN-BILSTM به طور موثری استخراج ویژگی های مکانی و زمانی را ترکیب می کند. لایه های حلقوی الگوهای فضایی را از قدرت باند EEG یاد می گیرند ، در حالی که BILSTM پویایی زمانی را ضبط می کند. معیارهای عملکرد قوی (دقت 83.81 ٪ ، کاپا 0.7520 ، کلان AUC 0.9546) نشانگر تبعیض کلاس عالی است.
با این وجود ، برخی از سردرگمی طبقاتی باقی مانده است. همپوشانی در ویژگی های طیفی EEG برای FTD و کنترل منجر به سوء طبقه بندی می شود. Kappa کوهن (0.7520) نشان دهنده توافق قابل توجهی است ، و AUC بالا (0.9546) نشان می دهد که هر کلاس به طور متوسط به خوبی از هم جدا شده است.
پایان
سهم اصلی این کار یک مدل CNN-Bilstm است که از ویژگی های طیفی EEG برای طبقه بندی بیماری آلزایمر ، زوال عقل Frontotemporal و کنترل های سالم استفاده می کند. دقت بالای مدل (83.81 ٪) ، کاپا قابل توجه (0.7520) و کلان AUC (0.9546) اثربخشی و کاربرد بالقوه آن را برای غربالگری زوال عقل عملی نشان می دهد. نتایج نشان می دهد که CNN-BILSTM می تواند با موفقیت الگوهای EEG مربوط به این شرایط را ضبط کند.
با این حال ، چالش ها باقی مانده است ، به ویژه سردرگمی طبقاتی بین FTD و کنترل. این نشان می دهد که ما باید ویژگی های تبعیض آمیز تری داشته باشیم. مسیرهای آینده شامل افزودن نسبت های طیفی پیشرفته یا نشانگرهای زیستی اتصال و آموزش مدل در مجموعه داده های متنوع تر و بزرگتر است.