کد خبر: 49183
تاریخ انتشار: یکشنبه, 20 آبان 1403 - 08:00

داخلی

»

مقاله های روز

کاربرد تکنیک شاپ در مدل های پایه علم اطلاعات

منبع : لیزنا
دکتر جعفر مهراد 
کاربرد تکنیک شاپ در مدل های پایه علم اطلاعات

دکتر جعفر مهراد استاد پیشکسوت دانشگاه شیراز و بنیانگذار موسسه ISC: مقاله «مدل های پایه در علم اطلاعات» در ٢٧ مهر ماه ١۴٠٣ در خبرگزاری لیزنا منتشر شد. بنا بود تکنیک «شاپ» SHapley Additive exPlanations (SHAP) را با کاربردهایی که در علم اطلاعات دارد برای تشریح بیشتر «شفافیت» به طور جداگانه توضیح و ارایه دهم. همین مورد، سوال یکی از خوانندگان محترم خبرگزاری لیزنا بود (خانم المیرا سفیان) که در پاسخ به ایشان درخواست کردم به مقاله ای که در این زمینه تهیه خواهم کرد، مراجعه کنند.

 در علم اطلاعات شاپ ابزاری است قدرتمند برای افزایش شفافیت و توضیح پذیری، به ویژه زمانی که با مدل های پیچیده در کارهایی مانند رده بندی اسناد و متون، سیستم های توصیه و بازیابی اطلاعات سر و کار داریم(١). توجه داشته باشید که در این مقاله به مبانی نظری شاپ، اصول نظریه بازی ها، تخصیص مقادیر برای پیش بینی یک مدل به هر ویژگی یا مقدار ویژگی نخواهیم پرداخت. با این وجود، اگر خوانندگان محترم سوال یا سوالاتی در این زمینه داشته باشند آن را در مقاله دیگری خواهم آورد.

 شاپ در علم اطلاعات چگونه کار می کند:

 شاپ، به هر ویژگی مقداری را اختصاص می دهد ( مثلاً، واژه، فراوانی اصطلاح، ابرداده) و آنگاه، این سهم را در تصمیم گیری مدل به کمیت تبدیل می کند. این رویکرد، به توضیح این که چرا یک مدل تصمیم خاصی را اتخاذ کرده است، کمک می کند تا از  شفافیت در سناریوهای رایج در علم اطلاعات اطمینان حاصل کنیم:

 ١- رتبه بندی اسناد در بازیابی اطلاعات:

در یک نظام بازیابی اطلاعات، مانند یک موتور جستجو، یک مدل یادگیری ماشینی اسناد را براساس ربط با یک جستجو، رتبه بندی می کند. از شاپ برای توضیح اینکه چرا یک سند خاص بالاتر یا پایین تر از سایر مدارک رتبه بندی شده است، با شناسایی ویژگی هایی مانند کلید واژه‌ها، ابرداده و رفتار کاربر، که بیشترین تاثیر را در رتبه بندی دارند، استفاده کرد (٢).

 مثال:

 فرض کنید سیستمی دارید که مقاله های تحقیقاتی را براساس ربط آن ها با سوالی مانند «یادگیری ماشینی در مراقبت های بهداشتی» رتبه بندی می کند. تکنیک شاپ را می‌توان برای توضیح اینکه چرا یک مقاله خاص، در رتبه اول و بالاتر از سایر اسناد قرار دارد، بکار برد. این روند ممکن است نشان دهد که:

 -- وجود اصطلاحات کلیدی مانند «یادگیری ماشینی» یا «مراقبت های بهداشتی» در عنوان کمک مهمی داشت.

 --  وقوع مکرر اصطلاحات مربوطه مانند «شبکه های عصبی» در چکیده مقاله دلالت بر ربط موضوع داشت.

 -- تعداد استنادهای مقاله تاثیر زیادی بر رتبه بندی آن داشت.

 با تجزیه و تحلیل مقادیر شاپ، پژوهشگران و کاربران می توانند تصمیم مدل را درک نموده و ببیند که هر ویژگی در رتبه بندی مقاله نقش مهم داشته است.

 ٢- رده بندی متن:

به عنوان مثال، اگر مدلی مقالات علمی را به دسته های چون «علوم رایانه»، «پزشکی» یا «علوم اجتماعی» رده‌بندی کند، شاپ می تواند توضیح دهد که چرا این مقاله به یک دسته نسبت به دسته دیگر رده بندی شده است. این مدل ممکن است ویژگی هایی مانند فراوانی اصطلاحات با موضوع خاص، محل انتشار یا وابستگی سازمانی نویسنده را در نظر بگیرد. شاپ، می تواند تجزیه و تحلیلی ارایه دهد که کدام اصطلاحات و ویژگی ها بیشترین تاثیر را در تصمیم گیری رده بندی داشته اند(٣).

 مثال:

یک مدل رده بندی کننده، یک مقاله مجله را به «پزشکی» نسبت می دهد. شاپ می تواند تشخیص دهد که:

 -- اصطلاح «کارازمایی بالینی»  بیشترین تاثیر مثبت را داشته است.

 -- واژه «بیمار» نیز کمک قابل توجهی داشته است.

 -- فقدان اصطلاحاتی مانند «الگوریتم» یا «محاسبات»  تاثیر منفی داشته است که در سایر حوزه ها مانند علوم کامپیوتر معمول هستند.

 این نوع تفکیک های تفصیلی،  به توضیح رده بندی کمک نموده و به کاربر اجازه می دهد تا درستی یا صحت تصمیمات مدل را تایید کند.

 ٣- سیستم های توصیه:

سیستم های بازیابی اطلاعات اغلب مقالات، کتاب ها یا سایر محتوا ها را براساس اولویت های کاربر و داده های تاریخی، از استفاده هایی که از سیستم های بازیابی اطلاعات بعمل آمده است، توصیه می کنند. شاپ، با نسبت دادن توصیه ها به عواملی که در زیر ملاحظه می کنیم، می تواند توضیح دهد که چرا یک فقره خاص به یک کاربر توصیه شده است (۴ و ۵):

 -- شباهت مدرک جدید به محتوای مشاهده شده قبلی.

 --  رفتار کاربر (به عنوان مثال، زمان صرف شده برای خواندن مقالات مشابه)

 -- ابرداده مانند برچسب های موضوع، نویسندگان یا سال انتشار.

 مثال:

 سیستمی را در نظر بگیرید که مقالات پژوهشی را به یک محقق توصیه می کند. شاپ، می تواند توضیح دهد که:

 -- چهل درصد از توصیه ها براساس علاقه قبلی محقق بوده است که در مورد «شبکه های عصبی» بحث می کردند.

 -- سی درصد از توصیه ها از چاپ مقاله در نشریه ای است که محقق اغلب مطالعه می کند.

 -- بیست درصد به دلیل شباهت بین کلید واژه های مقاله فعلی و کلید واژه های موجود در پروفایل محقق بود.

 ۴- شفافیت اخلاقی در علم اطلاعات:

 شفافیت در موضوعاتی مانند بازیابی اطلاعات حقوقی یا مرور در ادبیات یک رشته موضوعی بسیار مهم است. شاپ را می‌توان برای تشخیص سوگیری ها یا رفتار ناعادلانه در تصمیم گیری الگوریتمی استفاده کرد. به عنوان مثال، در یک سیستم بازیابی اسناد حقوقی، شاپ می تواند توضیح دهد که چرا قوانین مورد خاص به طور مداوم در رتبه های بالاتر یا پایین تر قرار می گیرند. بدیهی است، چنین رویکردی کمک می کند تا از منصفانه بودن توصیه ها اطمینان حاصل کرد. در مرور ادبیات یک رشته، شاپ ممکن است نشان دهد که آیا یک مدل بیش از حد به ناشران خاص یا تعداد استنادها متکی است یا خیر، که این روند در صورت مثبت بودن به طور بالقوه باعث ایجاد سوگیری هایی در پژوهش هایی می شود که «مرتبط» تلقی می شوند.

 مزایای استفاده از شاپ در علم اطلاعات (۶ و ٧):

 ١- شفافیت و اعتماد: شاپ در مورد تصمیم گیری های یک مدل توضیحات روشنی ارایه می دهد و بدین ترتیب به کاربران کمک می کند تا به سیستم های خودکار در بازیابی و رده بندی اطلاعات اعتماد کنند.

٢- تشخیص سوگیری: شاپ با برجسته کردن ویژگی هایی که به یک تصمیم کمک می کنند، می کوشد سوگیری های احتمالی را در مدل کشف نموده که خود به نفع کلید واژه ها، ناشران یا نویسندگان خاص تمام می‌شود. 

 ٣- اشکال زدایی مدل: شاپ به پژوهشگران و توسعه دهندگان کمک می کند تا خطا های منطق مدل را شناسایی کنند که کدام ویژگی ها تاثیر گذار بوده‌اند و آیا آن ویژگی ها باید وزن متفاوتی داشته باشند.

 ۴- بهبود تجربه کاربر: با توضیح اینکه چرا یک سیستم،  توصیه یا رده بندی می کند، شاپ به کاربران کمک می کند تا تعامل خود را با سیستم درک نموده و در صورت لزوم آن را تغییر دهند  که این روند،  در نهایت، به رضایت کلی کاربر را از سیستم بازیابی منجر می گردد.

 مثالی از کاربرد شاپ در مدل بازیابی اطلاعات:

 فرض کنید یک مدل برای رتبه بندی اسناد براساس یک پرس و جو در یک موتور جستجوی دانشگاهی ساخته شده است. پس از اعمال شاپ، مشخص می‌شود که:

 ١- کلید واژه های عنوان ۶٠٪‏ به امتیاز ربط کمک کردند.

٢- طول چکیده ٢٠٪‏ تاثیر داشت.

٣- تاریخ انتشار ١۵٪‏ کمک کرده است که به اسناد جدیدتر امتیاز بیشتری می دهد.

۴- تعداد استنادها ۵٪‏ کمک کرده است، به مقالاتی که دارای استنادهای بیشتر است، وزن کمتری تعلق گرفته است.

 فرض کنید کاربر متوجه می شود که مقاله های اخیر بدون در نظر گرفتن ربط، به طور مداوم رتبه بندی بالاتری دارند. در آن صورت، تفکیک شاپ تاثیر تاریخ انتشار را نشان می دهد و توسعه دهندگان را وادار می سازد تا وزن این ویژگی را در تکرار مدل های آینده تنظیم کنند.

 منابع:

1- SHAP.readthedocs.io

2- Ruggero, A., Explaining Learning to Rank Models with Tree Shap. July 15, 2020

3- Dewi, C., Tsai, J. & Chen, R. C. (2022) SHapley Additive Explanations for Text Classification and Sentiment Analysis of Internet Movie Database. In: Szczerbicki, E., et al., Recent Challenges in Intelligent Information and Database Systems. ACIIDS, 2022

4- Zhong, J. & Negre, E., Shap-enhanced Counterfactual Explanation for Recommendations. Digital Library, may 6, 2020

5- Nath, S., Demystifying Model Interpretability with SHAP: Understand Your AI's Decisions. Medium, September 11, 2023

6- Raval, V., Information Ethics Transparency and IT professional. ISACA, November 1, 2015

7- Trevisan, V., Using SHAP Values to Explain How Your Machine Learning Model Works. Toward Data Science, January 17, 2022