داخلی
»مطالب کتابداری
»کتابخانه و کتابداری
ایجاد نخستین پیکره بهروزشونده در زبان فارسی توسط محققان دانشگاهی
به گزارش لیزنا، بر اساس اعلام روابط عمومی دانشگاه شیراز، امیرسعید مولودی، عضو هیئت علمی بخش زبانهای خارجی و زبانشناسی دانشگاه شیراز و مدیر پروژه پیکره بهروزشونده با بیان اینکه در این پیکره استانداردهایی رعایت شده است که پیش از این در تهیه پیکرههای زبان فارسی مغفول مانده بود، گفت: این پیکره و جستجوگر آن ابزار پژوهشی مهمی برای تحقیقات زبانشناسی و سایر حوزههای علوم انسانی است و علاوه بر این برای اهداف پردازشی زبان فارسی نیز میتواند مورد استفاده قرار گیرد.
وی افزود: ایده اولیه این طرح حدود دو سال پیش شکل گرفت و پس از انجام مراحل مطالعاتی در سال ۱۳۹۵، پیادهسازی فاز نخست آن با تمرکز بر متون خبری آغاز شد که رونمایی از این پیکره، مطابق برنامهریزیهای انجامگرفته، در هفته پژوهش امسال در آذرماه انجام خواهد شد.
مدیر پروژه پیکره بهروزشونده با اشاره به این نکته که امروزه از پیکرههای زبانی تقریباً در تمامی حوزههای علوم انسانی به طور عام و مطالعات زبانی به طور خاص استفاده میشود، گفت: بحث بهروز بودن، توازن و نماینده بودن سه ویژگی مهم برای کارآمدی پیکرههای زبانی است که در پروژه حاضر مورد توجه قرار گرفته است؛ بنابراین پیکره حاضر از این حیث که تنوعات زبانی را با انتخاب داده از ژانرهای مختلف پوشش میدهد، داده به میزان مساوی از هر ژانر انتخاب میشود و اینکه هر روز دادههای آن افزایش مییابد، بهترتیب برخوردار از سه ویژگی نماینده بودن، توازن و بهروزشوندگی است.
وی ادامه داد: بهروزشونده بودن پیکره حاضر به پژوهشگر این امکان را میدهد که بتواند تغییرات زبانی و حتی فرهنگی-جامعهشناختی را با استفاده از آن بررسی و تحلیل کند.
مولودی یادآور شد: در فاز نخست این پروژه، هر روز متون خبری به صورت متوازن از ۶ حوزه موضوعی و از خبرگزاریهای مختلف به پیکره اضافه میشود.
همچنین مرتضی رضایی شریفآبادی، دانشجوی دکتری زبانشناسی دانشگاه شیراز و مسئول فنی پروژه با بیان اینکه مراحل اجرایی کار با همکاری تیمی قوی از مهندسان نرمافزار و با بهرهگیری از جدیدترین فناوریها انجام شده است، گفت: علاوه بر امکان دریافت داده پیکره، علاقهمندان میتوانند برای کاوش در پیکره از ابزار جستجوی برخط تهیهشده استفاده کنند.
وی افزود: تمام متون پیکره به صورت خودکار نرمالسازی و ریشهیابی میشوند و برچسب اجزای کلام به واژههای آنها اختصاص مییابد و برای توازن متون در سطح موضوع و زیرموضوع و همچنین توازن زمانی نیز از روشی ابتکاری استفاده شده است.
رضایی تصریح کرد: هماکنون پیکره بهروزشونده و ابزار جستجوگر آن به صورت آزمایشی و با دسترسی محدود راهاندازی شده است.
بر اساس اعلام روابط عمومی دانشگاه شیراز، یکی از مهمترین گامها در طراحی و ساخت سیستمهای بازشناسی گفتار پیوسته با دایره لغات بزرگ (LVCSR)، تعلیم مدل زبانی (Language Model) برای مدل کردن نحوه توالی کلمات در یک زبان خاص است. برای انجام چنین کاری، داشتن مقادیر بسیار زیادی از دادگان متنی (Text) از آن زبان همراه با برچسبهای لازم ضروری است. از طرفی در بسیاری از پروژههای تحقیقاتی در زمینه پردازش زبان طبیعی (Natural Language Processing)، چنین دادگانی مورد نیاز است.
پیکره مجموعهای از پارههای زبانی است که انتخاب و بر اساس معیارهای زبانی روشنی مرتب میشوند به نحوی که همچون نمونهای از زبان به کار گرفته میشوند. پیکره شامل متنهای پیوسته طبیعی است که میتوان از آن اطلاعاتی درباره عناصر زبانی، هم واژگانی هم غیرواژگانی (مانند سبک، نقطهگذاری، دستور، گونه کاربردی) به دست آورد.
کشف واژههایی خاص یا کاربردهایی خاص از آنها در پیکرهای از متنهای معتبر که متخصصان هر زمینه موضوعی آن را نوشتهاند، بسیار ارزشمند است زیرا نشان میدهد اگرچه همه واژهها در فرهنگهای لغت ظاهر میشوند، در بافتهایی خاص نمیتوان از آنها استفاده کرد، حتی اگر جمله به لحاظ دستوری درست باشد.
۱. از توهین به افراد، قومیتها و نژادها خودداری کرده و از تمسخر دیگران بپرهیزید و از اتهامزنی به دیگران خودداری نمائید.
۲.از آنجا که پیامها با نام شما منتشر خواهد شد، بهتر است با ارسال نام واقعی و ایمیل خود لیزنا را در شکل دهی بهتر بحث یاری نمایید.
۳. از به کار بردن نام افراد (حقیقی یا حقوقی)، سازمانها، نهادهای عمومی و خصوصی خودداری فرمائید.
۴. از ارسال پیام های تکراری که دیگر مخاطبان آن را ارسال کرده اند خودداری نمائید.
۵. حتی الامکان از ارسال مطالب با زبانی غیر از فارسی خودداری نمائید.