داخلی
»مقاله های روز
لیزنا، مقالههای روز 8): میثم داستانی، دکتری علم اطلاعات و دانش شناسی (بازیابی اطلاعات)، کارشناس مسئول واحد خدمات اطلاع رسانی و ترجمان دانش، دانشگاه علوم پزشکی گناباد:
انتشارات علمی کرونا ویروس در پنجاه سال گذشته
در این یادداشت به معرفی مقاله ای با عنوان Retrospective and Prospective approach of Coronavirus’ publications in the last half century: A Latent Dirichlet Allocation Analysis پرداخته شده است که در یکی از معتبرترین مجلات علم اطلاعات و دانش شناسی با عنوان Library Hi Tech منتشر شده است. این مقاله توسط دکتر فرشید دانش، دکتر میثم داستانی و دکتر محمد قربانی منتشر شده است.
در مقدمه مقاله ابتدا به رشد سریع انتشارات و مستندات علمی در حوزه های مختلف و همچنین اهمیت ارزیابی محتوای این انتشارات اشاره شده است. سپس نویسندگان بیان می کنند که با توجه به حجم زیاد انتشارات در هر کدام از حوزه های علمی ارزیابی تک تک این اسناد به صورت دستی کاری زمانبر و حتی غیر ممکن است که برای حل این مشکل روش های خودکار استخراج دانش از متون که همان متن کاوی است، پیشنهاد می گردد. بهطورکلی، متن کاوی به فرایند استخراج دانش و اطلاعات کاربردی و مهم از متون مختلف اشاره دارد(1). شناسایی موضوعات متون علمی و سیر تکاملی این موضوعات و کاربرد ابزارهای تجسم برای ارائه هر موضوع و ارتباط میان آنها بهعنوان روشی به منظور کمک به کاربران برای تعیین موضوعات، از اهداف پژوهشهای متنکاوی است(2).
در همین راستا و با توجه به اهمیت انتشارات علمی مخصوصاً انتشارات علمی حوزه کرونا ویروس در همه گیری فعلی در این مقاله به متن کاوی انتشارات کروناویرویس؛ کشف و تحلیل ساختار موضوعات و نیز شناسایی تکامل موضوعی انتشارات کروناویروس در گذر زمان پرداخته شده است.
بدین منظور انتشارات علمی کرونا ویروس به زبان انگلیسی در پنجاه سال گذشته از پایگاه استنادی Web of Science بازیابی گردیده است. جهت انجام فنون متن کاوی در این انتشارات عنوان، چکیده و کلیدواژه های مقالات استخراج گردیده و در یک فایل با پسوند CSV ذخیره گردیده است. الگوریتم های متن کاوی بکار گرفته شده در این مطالعه با استفاده از زبان برنامه نویسی پایتون بر روی انتشارات مذکور پیاده سازی شده است.
لازم به ذکر است که جهت اعتبار و صحت نتایج، پس از هر مرحله متن کاوی و و تحلیل داده ها، نتایج با مشاوره نویسنده سوم مقاله که مشاور موضوعی این مطالعه بوده، تفسیر گردیده است.
نتایج این مطالعه در مرحله اول مهمترین واژگان کلیدی انتشارات کرونا ویروس ها با بکار گیری الگوریتم TFIDF نشان داده است. مهم ترین این واژگان عبارت از SARS, science, protein, MERS, veterinary, cell, human, RNA, medicine, virology بوده است.
در ادامه با استفاده از الگوریتم مدل سازی تخصیص پنهان دیریکله (Latent Dirichlet Analysis -LDA) موضوعات انتشارات کرونا ویروس ها شناسایی شدند.
مدل سازي موضوعي رويکرد يادگيري ماشينی درجهت کشف الگوها يا موضوعات درون مجموعه اسناد است. يکي از روشهاي پيادهسازي مدلسازي موضوعي LDA است(3). LDA به طور گسترده مورد استفاده قرار میگیرد و در شناسايي موضوعات معنايي مرتبط در متون علمي بسيار اثر بخش است (3)
موضوعات انتشارت کرونا ویروس ها شناسایی شده در این مطالعه و میزان انتشارات در هر کدام از موضوعات در شکل زیر آمده است.
شکل مذکور نشان داده است که بیشترین سهم (96/22 درصد) انتشارات کرونا ویروس در نیم قرن اخیر در موضوع “Structure and Proteomics” منتشر شده است. “Cell signaling and immune response” با 21/20 درصد و “Clinical presentation and detection” با 25/17 درصد موضوعاتی هستند که پس از موضوع نخست، بیشترین سهم را به خود اختصاص دادهاند. در مجموع این سه موضوع بیش از 60 درصد سهم انتشارات کرونا ویروس را در پنجاه سال اخیر از آن خود نمودهاند. از سوی دیگر، موضوع “Gastrointestinal Tissue” با 84/0 درصد کمترین سهم را در بین موضوعات مربوط به انتشارات کروناویروس کسب کرده است.
نتایج این مطالعه نشان داده است که روند انتشارات علمی کرونا ویروس، ثابت نبوده و با شیوع این ویروس در هر دوره زمانی انتشارات علمی این قلمرو نیز رشد داشته است. همچنین این انتشارات از گذشته تا کنون در موضوعات مختلف از ویروس شناسی تا درمان در پاسخ به شرایط موجود منتشر شده است. همچنین بعد از شیوع covid19 بیشترین انتشار مربوط به موضوعات ویروس شناسی و ساختار ویروس، تشخیص و مدیریت اپیدمی بوده است.
Danesh F, Dastani M, Ghorbani M. Retrospective and prospective approaches of coronavirus publications in the last half-century: a Latent Dirichlet allocation analysis. Library Hi Tech. 2021.
داستانی، میثم. « انتشارات علمی کرونا ویروس در پنجاه سال گذشته». ستون مقاله های روز لیزنا: شماره 8 . 1شهریور ۱۴۰۰.
----------------------------------------------------------------------
منابع:
1- Rodriguez-Esteban R, Bundschus M. Text mining patents for biomedical knowledge. Drug discovery today. 2016;21(6):997-1002.
2- Salloum SA, Al-Emran M, Monem AA, Shaalan K. Using text mining techniques for extracting information from research articles. Intelligent Natural Language Processing: Trends and Applications: Springer; 2018. p. 373-97.
3- Blei DM. Probabilistic topic models %J Commun. ACM. 2012;55(4):77-84.
4- Griffiths TL, Steyvers M. Finding scientific topics. Proceedings of the National academy of Sciences. 2004;101(suppl 1):5228-35.
۱. از توهین به افراد، قومیتها و نژادها خودداری کرده و از تمسخر دیگران بپرهیزید و از اتهامزنی به دیگران خودداری نمائید.
۲.از آنجا که پیامها با نام شما منتشر خواهد شد، بهتر است با ارسال نام واقعی و ایمیل خود لیزنا را در شکل دهی بهتر بحث یاری نمایید.
۳. از به کار بردن نام افراد (حقیقی یا حقوقی)، سازمانها، نهادهای عمومی و خصوصی خودداری فرمائید.
۴. از ارسال پیام های تکراری که دیگر مخاطبان آن را ارسال کرده اند خودداری نمائید.
۵. حتی الامکان از ارسال مطالب با زبانی غیر از فارسی خودداری نمائید.