داخلی
»مطالب کتابداری
»کتابخانه و کتابداری
معرفی و بیان ویژگیهای انواع رویکردهای نمایهسازی ماشینی در کتابخانههای دیجیتال
به گزارش لیزنا، طاهری در ابتدا درباره ملزومات نمایهسازی ماشینی گفت: نرم افزار، متن و سیاستها و خط مشی نمایهسازی سه عنصر اصلی در نمایهسازی به شمار میروند.
او درباره تفاوت نمایه سازی ماشینی و خودکار نیز گفت: نمایهسازی ماشینی دارای دو مدل کلی است؛ نمایهسازی به کمک ماشین که انسان به کمک کامپیوتر نمایهسازی را انجام میدهد، نمایهسازی خودکار که تمام مراحل آن توسط کامپیوتر و به صورت خودکار است. در اصل سه رویکرد کلی نمایهسازی خودکار وجود دارد. نمایه سازی استخراجی خودکار، که نوع دوم نمایهسازی ماشینی محسوب میشود و کار آن استخراجی است. مبنای اصلی این رویکرد بسامد واژگان است، در این نوع نمایهسازی با حذف واژههای پر بسامدی مانند افعال و حروف اضافه، سایر واژههای درون متن استخراج میشوند. سپس طبقه بندی این واژه ها بر اساس بسامد صورت میپذیرد، یعنی واژه های پرکاربرد در بالاترین سطح و کم کاربردها در پایینترین سطح ذخیره میشوند. به این مدل بسامد مطلق میگویند.
طاهری افزود: برای تعیین این بسامدها محدودیتهایی در نظر گرفتند؛ ورود واژه هایی که به میزان مشخصی تکرار میشوند، انتخاب حجم برای هر صفحه و تعیین میزان مشخصی واژه مهمترین این محدودیتها است. نوع دیگری از بسامدها، بسامد نسبی نام دارد که بر اساس آن باید بسامد یک اصطلاح در یک مدرک نسبت به کل پایگاه، سطح قابل قبولی داشته باشد. نوع سوم بسامد بافتی است، در یک مدرک بخشهای مهمی مانند عناوین، چکیدهها و عناوین موضوعی وجود دارند که از آنها میتوان اصطلاحات و مفاهیم مهم مدرک را استخراج کرد و مبنای مناسبی برای تحلیل ماشینی هستند. در این بسامد فقط در بخشهای مهم استخراج صورت میگیرد و بر اساس این بسامد یک سری وزن دهی نیز انجام میشود، یعنی اهمیت واژهها با توجه به اینکه در کدام یک از این بخشهای مهم قرار دارند، مشخص میشود.
طاهری درباره رویکرد دوم نمایه سازی اظهار داشت: نوع دوم، نمایه سازی تخصیصی خودکار نام دارد و در آن واژگان با اصطلاحنامههای مورد نظر تطاابق داده میشوند، در واقع واژگانی استخراج میشوند که در این اصطلاحنامهها وجود دارند. ویژگی مثبت این روش این است که در آن وازگان به صورت خودکار کنترل میشوند و به وسیله آن یک دستی در جستجو به وجود میآید، یعنی با توجه به اینکه اساس آن اصطلاحنامهها است بنابراین تمام منابع موجود بازیابی میشوند. مشکل این روش این است که واژه های اسم یا عبارت اسمی استخراج میشوند، در این صورت ممکن است واژگان اصلی در متن به صورت اشکال مختلفی آمده باشند و به این روش بازیابی نشوند. برای حل این مشکل استخراج را بر اساس ریشه کلمات در نظر گرفتند تا اصطلاحات بیشتری استخراج شوند.
عضو هیئت علمی دانشگاه علامه طباطبایی ادامه داد: این روش هم مشکلات مختلفی دارد، از جمله نداشتن عمق، حذف اصطلاحات جدید که در اصطلاح نامه وجود ندارند. برای حل این مشکلات بعد از انجام این نمایه، این نمایهها توسط عامل انسانی چک میشوند. این روش در دنیا بسیار متداول است، به این دلیل که میتواند به نمایه سازی ماشینی بسیار نزدیک باشد.
طاهری در پایان این دورهمی درباره رویکرد سوم نیز گفت: رویکرد سوم نمایههای پایانی کتاب است. در این روش اصطلاحات نمایی پایانی کتاب استخراج میشود، سپس این اصطلاحات در پایگاه دیگر به عنوان نمایه مقلوب قرار میدهند. در واقع این روش مشابه نمایههای پایانی کتاب است و محل پایگاه هر اصطلاح را نشان میدهد. در این روش میتوان هم به صورت آنلاین و هم به صورت آفلاین اصطلاحات را بازیابی کرد.
۱. از توهین به افراد، قومیتها و نژادها خودداری کرده و از تمسخر دیگران بپرهیزید و از اتهامزنی به دیگران خودداری نمائید.
۲.از آنجا که پیامها با نام شما منتشر خواهد شد، بهتر است با ارسال نام واقعی و ایمیل خود لیزنا را در شکل دهی بهتر بحث یاری نمایید.
۳. از به کار بردن نام افراد (حقیقی یا حقوقی)، سازمانها، نهادهای عمومی و خصوصی خودداری فرمائید.
۴. از ارسال پیام های تکراری که دیگر مخاطبان آن را ارسال کرده اند خودداری نمائید.
۵. حتی الامکان از ارسال مطالب با زبانی غیر از فارسی خودداری نمائید.