داخلی
»گزارش
امکان تجزیه و تحلیل مقالات علمی فارسی توسط ژرفای دانش
به گزارش لیزنا، دکتر عبدالصمد کرامتفر، دکتری آی تی دانشگاه قم و مسئول اداره تحلیل داده مرکز اطلاعات علمی جهاد دانشگاهی، تجربه ملی خود را تحت عنوان «ژرفای دانش» با همراهی محدثه رفیعی خشنود در پنل سوم سومین همایش ملی کتابخانههای دیجیتالی: پردازش و سازماندهی اطلاعات و دانش دانشگاه علامه طباطبایی ارائه کرد.
کرامتفر در ابتدا گفت: کاری که ما انجام دادیم به صورت تجربه است. سیستمی را طراحی کردیم که یک مقدار هم با همین صحبتهای دکتر فتاحی هماهنگ است. درواقع کاری که ما انجام دادیم اس آی دی است، احتمالاً بزرگواران حاضر، سیستم را میشناسند. تقریباً 15-16 سال است که تمام مقالات علمی پژوهشی کشور در بانک مقالات ما نمایه میشود. تلاش کردیم که فنون جدید اِی آی را به نحوی در این داده پیدا کنیم و سعی کنیم با هر رویکردی که میتوانیم به کشف دانش و تولید خودکار دانش بپردازیم. یک کارهایی ما انجام دادیم. بعضی از این کارهایی هم که اینجا آمده است، مقالاتش هم نوشته شد. چیزی که فعلاً داریم، نسخه بتا است. داده و فراداده تمام مقالات علمی را ما تحلیل کردیم. کاری که شما میتوانید انجام دهید این است که اینجا بیایید و یک موضوع علمی را جستجو کنید. مثلاً فکر کنم برای امروز بحث مدیریت دانش مناسب باشد یا بحث کتابخانههای دیجیتال. ما اینجا فقط یک جستجوی نرمال SQL ای داریم. موضوعاتی که ما اینجا داریم، موضوعاتی هستند که به عنوان کلیدواژه در مقالات علمی آمدهاند. برای فازهای بعدی قصد توسعهاش را داریم. ولی فعلاً فقط کلیدواژههای مقالات علمی تحلیل شدهاند. چیزی که شما در صفحه Mining دارید، یک تعریفی از ویکیپدیا در حوزه مدیریت دانش دارید که بیشتر میتوانید کاوش کنید.
وی افزود: اولین تحلیلی که فراهم کردیم میزان استفاده کلیدواژههای معادل در مقالات علمی است. مثلاً شما یک موضوع علمی را که دارید کار میکنید، مثلاً بحث دادههای بزرگ که کلی ترجمه فارسی برایش آمده است؛ ما اینجا نشان میدهیم که کدام کلیدواژه بیشتر استفاده شده است. به طور مثال در حوزه مدیریت دانش 297 مقاله توانستیم پیدا کنیم کهKnowledge Management یا مخفف آن KM، مدیریت دانش ترجمه شده است. بعضی جاها این خیلی کمک میکند. یک سری از کلمات تخصصی هستند که بهتر است ما همان مصطلحتر را استفاده کنیم. همانی که پذیرفتهتر است.
همچنین گفت: تحلیل دیگری که در این موضوع داریم، توزیع این موضوع در مقالات علمی رشتههای مختلف است. این دستهبندی که ما اینجا داریم، دستهبندی وزارت علوم است. 69-70 تا دستهبندی موضوعی دارد، براساس همان ما آن کلیدواژه را در حوزههای موضوعی مختلف پخش کردیم. شما میبینید 255 تا از مقالات که فکر کنم 49.4% شوند؛ در حوزه مدیریت بودند و در این قسمت هم علوم تربیتی و اینجا هم فکر میکنم کتابداری باشد که 51 مقاله در این حوزه داشت. روند انتشار مقالات را داریم. در هر صورت شما وقتی که میخواهید در یک حوزه علمی کار کنید، مهم است که بدانید که آن حوزه، حوزهای است که دارد رشد میکند یا اینکه حوزه قدیمی یا منسوخ شده است. شبیه چیزی که در گوگل ترند ارائه میشود؛ ولی اینجا برای مقالات علمی است. برای انتخاب موضوع میتواند مفید باشد.
توضیح دیگری که ما اینجا داریم، بحث مجلاتی است که بیشترین مقالات را در این زمینه چاپ کردهاند. الان ما در بحث مدیریت دانش میبینیم که این ژورنال رشد فناوری و مدیریت فناوری اطلاعات بیشترین مقالات را چاپ کردهاند. که حالا یکی از کاربردهایی که این دارد برای انتخاب مجله میتواند مفید باشد.
مورد دیگری که داریم بحث رتبهبندی دانشگاهها است. که باز این فقط دانشگاههای وزرات علوم است. که میبینیم در این زمینه مدیریت دانش کدام دانشگاه، به چه میزان کار کردند. در هر موضوعی دسترسی به این رتبهبندی را میتوانید داشته باشید.
کار دیگری که انجام شده است ما درواقع در هر رشتهای، آن رشتههایی که من گفتم دستهبندی وزارت علوم است. این کلیدواژهها موضوعات علمی را یک جوری آوردهایم و میانگین تازگی اینها را حساب کردیم. کاری که انجام شده است این است که برای هر کلیدواژه در تمام مقالاتی که آن کلیدواژه را استفاده کردند، سالشان محاسبه شده است و سپس یک میانگین از این سال انتشارها گرفته شده است. بعد از اینکه این کار انجام شد تمام کلیدواژههای آن رشته، کوآرتربندی شدند و نتیجهای یک Q شده است که ما اینجا داریم. شما میتوانید ببینید این رشتههایی که Q1 خوردهاند، یعنی اینکه این کلیدواژه مدیریت دانش برای اینها جدید است. برای این موضوعات مثلاً در رشته حسابداری قدیمیتر است.
کرامتفر تصریح کرد: یک کار دیگری که ما انجام دادیم، حالا مرتبط با بحثی که بیشتر صورت گرفت که هستیشناسی است؛ یک گراف دانش ایجاد کردیم که این به صورت خودکار خود سیستمان یاد گرفته است و کاری که انجام میدهد این است که توانسته است به ازای هر موضوعی که اینجا موضوع مدیریت دانش است؛ مرتبطترین موضوعاتی که وجود دارد را شناسایی کند و اینجا به شما نشان میدهد که میزان ارتباطش چقدر است. لیست کاملش هم موجود است. درواقع محدود به این نیست. اینجا 25 تایش را نمایش دادیم. 25 تا موضوعی که بیشترین ارتباط را دارند. تحلیلهایی که در بخش موضوعات داریم فعلاً این است، در قسمت رشتهها هم یک کارهایی را انجام دادیم.
وی در ادامه گفت: مثلاً در صفحه رشته، رشته فیزیک را انتخاب میکنیم. موضوعات علمی با Q هایشان وجود دارند. در رشته فیزیک الان میتوانید متوجه شوید که کدام موضوعات اکنون جدیدتر هستند و کدام موضوعات، موضوعاتی هستند که اکنون به نوعی منسوخ شدهاند. میتوانید به جستجوی گوگل اسکالر دسترسی داشته باشید و باز به همان صفحه کاوش موضوع که شما میتوانید موضوع را کاوش کنید و تعدادش را ببینید. این لیست تا موضوعات Q4 ادامه دارد. بعد از این هم یک لیست دیگری داریم که برای همین رشته شما میتوانید مجلات را داشته باشید به اضافه تعداد مقالاتی که در این زمینه چاپ شده است. یک کاوشی هم روی هر کدام از مجلاتی که در این زمینه کار کردند؛ وجود دارد.
کرامتفر گفت: ما چند شاخص جدید هم درآوردیم، باز براساس تحلیلهایی هم که انجام شده است؛ استخراج شده منتها هنوز آنلاین نشده است. ولی فعلاً چیزی که وجود دارد تعداد مقالات را میتوانید ببینید، ترندش را میتوانید بیینید که چقدر کار کرده است و ابر واژگانی که از مقالاتی که در این نشریه چاپ شده است، استخراج شده است.
وی افزود: در طی یک جمعبندی میتوان گفت که برای اولین بار با استفاده از داده علمی فارسی، پردازش اطلاعات صورت گرفته و امکان تجزیه و تحلیل مقالات علمی فارسی انجام شده است. در این پایگاه داده بر اساس حوزههای موضوعی وزارت علوم، دسته بندی صورت گرفته و امکان جستجوی تخصصی موضوعات به وجود آمده است. میتوان در این پایگاه به تازگی حوزههای موضوعی دست یافت و میزان ارتباط آن با دیگر حوزهها را مشاهده کرد. ژرفای دانش، به معرفی موضوعات داغ فارسی پرداخته است.
به عبارت دیگر با توجه به نیاز کشور برای تجزیه و تحلیل اطلاعات مقالات فارسی برای اولین بار این امکان به وسیله پایگاه ژرفا انجام شد. ژرفا با استفاده از تحلیل دادگان مقالات فارسی مرکز اطلاعات علمی جهاد دانشگاهی، برای اولین بار متن کاوی روی مقالات فارسی انجام شد. ژرفای دانش از نظر شباهت به پایگاه سای ول نزدیک است. این پایگاه در قسمت جستجو به ارائه تعریف اصطلاح از ویکی پدیا، معادل انگلیسی، توزیع مقالات در رشته های مختلف، روند انتشار مقالات، توزیع مقالات در مجلات مختلف، توزیع دانشگاهها، میزان تازگی کلمات کلیدی و مرتبطترین موضوعات میپردازد.
با کلیک روی حوزههای موضوعی که بر اساس وزارت علوم هستند، میتوان به اطلاعاتی مثل تعداد مدارک علمی در پایگاه مرکز اطلاعات علمی، میانگین سال انتشار مقالات، کلمات کلیدی به کار رفته در مقالات آن حوزه و میزان تازگی آنها، کاوش در موضوع، مقالات در مرکز اطلاعات علمی و پایگاه اسکالر و مجلاتی که بیشترین تعداد مقاله را در آن حوزه موضوعی منتشر کردهاند، دست یافت.
با جستجو در این پایگاه میتوانید به اطلاعاتی مثل: تعریف کلمه در ویکی پدیا، معادل انگلیسی کلمه جستجو شده و میزان تکرار آن، توزیع مقالات این موضوع در رشته های مختلف، روند انتشار مقالات در سالهای مختلف، توزیع مجلات در حوزه مورد نظر، دانشگاههایی که بیشترین تعداد مدارک علمی در آن حوزه موضوعی را منتشر کردهاند، تازگی حوزه موضوعی و دسترسی به گراف حوزههای موضوعی و میزان ارتباط آن با کلمه یا موضوع جستجو شده را ملاحظه کرد.
پيش از آغاز پروژه گامهای زیر صورت گرفت:
تمیز کردن داده (Data cleaning)
برچسب گذاری روی داده (Labeled data)
دستهبندی داده (data clustering)
تجزیه و تحلیل داده (data analytics)
آماده سازی برای نمایش در وب سایت
در حين اجراي پروژه سعی شد که چالش مشکلات زبان فارسی حل شود و پیش بینی میشود که این پروژه بتواند بخشی از مشکلات مالی مرکز اطلاعات علمی را حل کند. تا کنون هیچ تجزیه و تحلیلی روی مقالات فارسی صورت نگرفته است، ژرفا همانند سایول ابزاری برای تحلیل داده فارسی است.
گزارش: ملیکا خرمشکوه
۱. از توهین به افراد، قومیتها و نژادها خودداری کرده و از تمسخر دیگران بپرهیزید و از اتهامزنی به دیگران خودداری نمائید.
۲.از آنجا که پیامها با نام شما منتشر خواهد شد، بهتر است با ارسال نام واقعی و ایمیل خود لیزنا را در شکل دهی بهتر بحث یاری نمایید.
۳. از به کار بردن نام افراد (حقیقی یا حقوقی)، سازمانها، نهادهای عمومی و خصوصی خودداری فرمائید.
۴. از ارسال پیام های تکراری که دیگر مخاطبان آن را ارسال کرده اند خودداری نمائید.
۵. حتی الامکان از ارسال مطالب با زبانی غیر از فارسی خودداری نمائید.