عن المبالغات في تقدير دور الذكاء الاصطناعي في المجال الطبي

في حياتنا اليومية نستخدم أدوات تعتمد على الذكاء الاصطناعي، لعل من أكثرها شيوعًا تطبيقا المساعدة الصوتية «أليكسا» Alexa و«سيري» Siri، هذه المنتجات الاستهلاكية تؤدي عملها جيدًا إلى حدٍّ معقول، فمثلًا تطبيق المساعدة الصوتية “سيري” يفهم معظم ما نقوله، بيد أن تلك الأدوات أبعد ما تكون عن المثالية، لكننا نتقبل أوجه القصور فيها ونعدّل من طريقة استخدامنا لها حتى نتلقى الإجابات الصحيحة منها، أو نستسلم ونتوقف عن المحاولة، وعلى أي حال، فإن العواقب الناجمة عن سوء فهم “سيري” أو “أليكسا” لطلب المستخدم لا تكون خطيرةً في المعتاد.

من جهة أخرى، الأخطاء التي ترتكبها نماذج الذكاء الاصطناعي التي تدعم القرارات الإكلينيكية قد تصبح مسألة حياة أو موت، لذلك من الأهمية بمكان أن نفهم مدى كفاءة تلك النماذج قبل التوسُّع في استخدامها، ترسم التقارير المنشورة عن هذه التقنية في الوقت الحالي صورةً ورديةً مفرطةً في التفاؤل عن مدى دقتها، وتتحول تلك الصورة في بعض الأحيان إلى أخبارٍ مثيرة تُنشر في الصحافة، وتعج وسائل الإعلام بنقاشات تتناول الخوارزميات التي يمكنها تشخيص مرض ألزهايمر في مراحله المبكرة بدقة تصل إلى 74%، أو بدرجة أدق مما يستطيعه الأطباء الإكلينيكيون، أما الأوراق البحثية العلمية التي تعرض تلك التطورات تفصيلًا فقد تصبح نقاط انطلاق لشركات جديدة، ولاستثمارات ومسارات بحثية جديدة، ولخطط تطبيق واسعة النطاق في أنظمة المستشفيات، بيد أن هذه التقنية لا تكون جاهزةً للاستخدام في معظم الحالات،

فيما يلي بيانٌ بالأسباب التي تقف وراء ذلك، بينما يعكف الباحثون على تغذية نماذج الذكاء الاصطناعي بالبيانات، يكون من المتوقع أن تصبح النماذج أكثر دقة، أو على الأقل ألا يزداد أداؤها سوءًا، ومع ذلك، فقد وجدنا العكس في البحث الذي أجريناه وكذلك في أبحاث الآخرين؛ إذ تتناقص مستويات الدقة المُعلَن عنها في النماذج المنشورة مع تزايُد حجم مجموعة البيانات.

يكمُن سبب هذا السيناريو غير المنطقي في الطريقة التي يتبعها العلماء لتقدير نسبة دقة نموذج بعينه وكيفية إعلانهم عن هذه النسبة، وفقًا لأفضل الممارسات، يدرّب الباحثون نموذج الذكاء الاصطناعي لديهم باستخدام جزءٍ من مجموعة البيانات الخاصة بهم، مع الاحتفاظ ببقية تلك المجموعة في “صندوق مُقفل”، بعد ذلك يستخدمون تلك البيانات “المحجوبة” لاختبار دقة ذلك النموذج، على سبيل المثال، لنفترض أن علماء يطورون نموذج ذكاء اصطناعي لتمييز الأشخاص المصابين بالخرَف عن الأشخاص غير المصابين به من خلال تحليل طريقتهم في الحديث، تُستخدم في تطوير هذا النموذج بيانات تدريبية عبارة عن عينات من اللغة المنطوقة إضافةً إلى التصنيفات الخاصة بتشخيص الخرف؛ بهدف التنبؤ بما إذا كان الشخص يعاني من الخرف أم لا من خلال طريقته في الحديث، يعقب ذلك اختبار النموذج باستخدام بيانات محجوبة من النوع نفسه لتقدير مدى دقة أدائه، ثم يُسجَّل تقدير الدقة ذلك ويُنشَر في المطبوعات والمؤلفات الأكاديمية، وكلما زادت دقة النموذج عند اختباره بواسطة البيانات المحجوبة، زادت كفاءة الخوارزمية وفق ما يؤكد العلماء.

لكن لمَ تزعم الأبحاث أن مستوى الدقة المعلَن عنه يتناقص مع تزايُد حجم مجموعة البيانات؟ في الوضع الأمثل، لا يطّلع العلماء على البيانات المحجوبة مطلقًا إلا بعد اكتمال النموذج وإصلاح ما فيه من أخطاء، ومع ذلك، قد يُلقي العلماء نظرةً خاطفةً على البيانات، أحيانًا دون قصد، ويُعدِّلون النموذج حتى يصل إلى درجة عالية من الدقة، وهي ظاهرة تُعرف باسم تسرب البيانات، لذا عندما يستخدم الباحثون البيانات المحجوبة في تعديل النموذج الخاص بهم ثم في اختباره، فإنهم بذلك يضمنون بصورة شبه مؤكدة أن ينجح النظام في التنبؤ الصحيح بالبيانات المحجوبة، ما يؤدي إلى تقديرات مبالَغ فيها لمستوى الدقة الحقيقية للنموذج، عوضًا عن ذلك، يجب عليهم استخدام مجموعات بيانات جديدة لاختبار نماذج الذكاء الاصطناعي؛ وذلك لمعرفة ما إذا كان النموذج قادرًا بالفعل على التعلُّم وأن بإمكانه تحليل بيانات غير مألوفة نوعًا ما للتوصل إلى التشخيص الصحيح.

وفي حين أن هذه التقديرات المفرطة في التفاؤل لمستوى الدقة عادةً ما تُنشر في الأدبيات العلمية، فإن النماذج ذات الأداء الأضعف تُكدس في نهاية المطاف فيما يطلق عليه “دُرج المحفوظات”؛ حيث لا يمكن أن تقع عليها أنظار الباحثين الآخرين مطلقًا، وحتى إذا قُدِّمت للنشر، فمن غير المرجح قبولها، كذلك من الملحوظ أن الآثار الناجمة عن تسرب البيانات والتحيز في النشر تزداد على نحوٍ استثنائي في حالة النماذج التي يجري تدريبها وتقييمها باستخدام مجموعات صغيرة من البيانات، بمعنى أن النماذج التي طورها الباحثون بالاستعانة بمجموعات صغيرة من البيانات من الأرجح أن تُنتج تقديرات مبالَغ فيها فيما يخص مستوى الدقة، لذا نرى هذا الاتجاه العجيب في الأدبيات المنشورة؛ حيث يكون مستوى الدقة المُسجَّل في النماذج المدربة باستخدام مجموعات صغيرة من البيانات أعلى منه في النماذج المدربة بواسطة مجموعات كبيرة من البيانات.

يمكننا منع هذه المشكلات من خلال اتباع معايير أكثر صرامةً بشأن كيفية التحقق من كفاءة النماذج وكيفية نشر النتائج في الأدبيات البحثية، فبعد التأكُّد من أن تطوير نموذج ذكاء اصطناعي من أجل استخدامٍ معين أمرٌ لا غبار عليه أخلاقيًّا، فإن أول سؤال يجب على مصمم الخوارزمية طرحه هو: “هل لدينا بيانات كافية لنمذجة بنية بالغة التعقيد مثل صحة البشر؟”، إذا كانت الإجابة بنعم، فإنه يتعين على العلماء حينئذٍ قضاء المزيد من الوقت في إجراء تقييم موثوق به للنماذج، جنبًا إلى جنبٍ مع تقليل الوقت الذي ينفقونه في محاولة اعتصار كل ذرَّة من “الدقة” من النموذج، يبدأ التحقق الموثوق به من كفاءة النماذج بالتأكد من توافُر بيانات تمثيلية، فمن الجدير بالذكر أن أصعب المشكلات التي تواجه تطوير نماذج الذكاء الاصطناعي تتمثل في تصميم بيانات التدريب والاختبار ذاتها؛ فبينما تجمع الشركات الاستهلاكية المتخصصة في الذكاء الاصطناعي البيانات بشكل انتهازي، تتطلب نماذج الذكاء الاصطناعي الإكلينيكية مزيدًا من العناية في جمع البيانات بسبب ارتفاع نسبة المخاطر، من ثمَّ يتعين على مصممي الخوارزميات تفحُّص حجم البيانات المستخدمة في تدريب النماذج وتكوين تلك البيانات على نحوٍ منتظم بهدف التأكد من أنها تُمثّل مجمل أعراض المرض المستهدف والتركيبة السكانية لمستخدمين، ويجدر بنا القول إن جميع مجموعات البيانات يشوبها النقص في بعض النواحي، ومن ثمَّ يجب أن يهدف الباحثون إلى فهم أوجه القصور في البيانات المستخدمة لتدريب النماذج وتقييمها، وتأثير تلك الأوجه على أداء النموذج.

للأسف، ما من وصفة سحرية للتحقق الموثوق به من كفاءة النماذج الإكلينيكية التي تستخدم تقنية الذكاء الاصطناعي؛ فكل أداة وكل مجموعة إكلينيكية تختلف عن الأخرى، إذا أردنا أن نتوصل إلى خطط تحقُّق مُرضيَة تأخذ في الاعتبار الظروف القائمة على أرض الواقع، فينبغي أن يشارك الأطباء الإكلينيكيون والمرضى في المراحل المبكرة من عملية التصميم، مع ضمان الحصول على مدخَلات من الجهات المعنية مثل هيئة الغذاء والدواء الأمريكية، لا شك أنه لو اتسعت دائرة الحوار لكان من المرجَّح أن يضمن ذلك توافر مجموعات بيانات تدريبية تمثيلية، واستخدام معايير ومؤشرات مناسبة للتأكد من نجاح النموذج، وتلقِّي الأطباء نتائج ومخرَجات صالحة ومناسبة من نماذج الذكاء الاصطناعي، ثمة دروس ينبغي تعلُّمها من أزمة إثبات قابلية النتائج للتكرار في البحوث الإكلينيكية، واقترح البعض إستراتيجيات مثل التسجيل المسبق لفرضيات الدراسات العلمية ومناهجها، والتركيز على المرضى بوصفهما وسيلتين لزيادة الشفافية وتعزيز الثقة، وبالمثل، فإن اتباع نهج اجتماعي تقني في تصميم نماذج الذكاء الاصطناعي سوف يجعلنا ندرك أن تصميم نماذج ذكاء اصطناعي جديرة بالثقة ويمكن الاعتماد عليها لأغراض إكلينيكية ليس مشكلةً تقنيةً بحتة، بل يتطلب الأمر معرفةً عميقةً بالمجال الأساسي للتطبيق الإكلينيكي، وإدراكًا أن هذه النماذج توجد في سياق أنظمة أكبر، ووعيًا بالأضرار المحتملة في حالة حدوث خلل في أداء النموذج عند استخدامه.

وأخيرًا نقول إنه من دون ذلك النهج الشامل، ستستمر المبالغة ويستمر التهويل في مجال الذكاء الاصطناعي، وهذا لا شك أمرٌ يُؤسَف له؛ لأن هذه التقنية لها إمكانيات حقيقية لتحسين النتائج الإكلينيكية وتوسيع نطاق الرعاية الإكلينيكية لتصل إلى المجتمعات المحرومة والمهمَّشة، كذلك فإن تبنِّي نهج أكثر شموليةً في تطوير نماذج الذكاء الاصطناعي الإكلينيكية واختبارها سيؤدي إلى توليد نقاشات ومحاورات أدق حول مدى النجاح الذي يمكن أن تحققه تلك النماذج وأوجه القصور التي تشوبها، ونحن نرى أن اتباع هذا النهج سيؤدي في النهاية إلى تمكُّن هذه التقنية من تحقيق كامل إمكانياتها وإفادة الناس كافة.عن “ساينتافيك أميريكان”

عن المبالغات في تقدير دور الذكاء الاصطناعي في المجال الطبي

تصفح نسخة العدد

تحميل نسخة العدد

الأعداد السابقة

الأكثر قراءة