جلسه بیست و پنجم کارگاه آموزشی "پژوهش در محیط وب" از سری جلسات دورهمی علمی کتابداران به همت کتابخانه آیت الله العظمی بروجردی و با تدریس دکتر سید مهدی طاهری به صورت مجازی برگزار شد.

معرفی آرشیو اینترنت (archive.org) و کاربردهای آن

به گزارش لیزنا، دکتر طاهری در این جلسه به معرفی آرشیو اینترنت (archive.org) پرداخت و گفت: این سامانه وبی دربرگیرنده آرشیو اینترنت و به‌طورخاص، داده‌های دسترس‌پذیر در محیط شبکه وب است. دلیل ایجاد این آرشیو این است که برخی از داده‌های منتشر شده در وب در طول زمان از بین می‌روند (مانند Chunked) و یا به دلایل گوناگون محتوای یک صفحه وب حذف (Defuncted) می‌شود. اهدافی همانند حفظ و نگهداری محتوای قدیمی و صفحات از بین رفته وب، تجمیع داده‌های باکیفیت و ایجاد دسترسی یکپارچه به منابع اینترنتی منجر به ایجاد سامانه archive.org شد‌ه‌اند. این اهداف باعث شدند در سال 1996، Brewster Kahle موسسه‌ای با نام Internet Archive را در شهر سانفرانسیسکو ایجاد نماید.

وی افزود: امروزه، داده‌های ارزشمند موجود در وب در این وب‌سایت گردآوری و آرشیو می‌شوند و محصول آن آرشیوی جامع از اینترنت است که در آن منابع گوناگون همانند کتاب، صفحات وب، نرم‌افزار و جز آن یافت می‌شوند. در واقع، یکی از وب‌سایت‌هایی که می‌توانیم برای یافتن منابع خاص در آن جستجو نماییم آرشیو اینترنت است. هنگامی که جستجوی ما در دیگر صفحات وب نتیجه‌ای نداشت، احتمال یافتن منابع مورد نیاز در این وب‌سایت وجود دارد. پس بهتر است در جستجوها به آرشیو اینترنت نیز مراجعه شود.

سپس دکتر طاهری در مورد نحوه تأمین محتوای این وب‌سایت گفت: بخشی از داده‌ها توسط افراد بارگذاری و پس از بازبینی و ویرایش در آرشیو اینترنت منتشر می‌شوند. بخشی دیگر از داده‌های ارزشمند موجود در صفحات وب توسط روباتی استخراج و گردآوری (Harvest) شده، و در آرشیو اینترنت نگهداری می‌شوند. این فرایند مشابه کار موتورهای کاوش است با این تفاوت که در آرشیو اینترنت وب‌سایت‌های مشخص که دارای داده‌های باکیفیت هستند، انتخاب می‌شوند. سومین روش تأمین محتوا در این وب‌سایت، دسترسی به کتاب‌های اسکن شده است؛ یعنی در این وب‌سایت کتاب‌های مفید و معتبر فیزیکی اسکن شده، دسترس‌پذیر می‌شوند.

وی افزود: در این آرشیو بیش از 486 میلیارد صفحه وب نمایه شده است. این وب‌سایت بخشی با نام (way back machine) دارد که داده‌هایی که قبلا منتشر شده‌اند، همانند انتشارات پیشین یک ناشر به صورت فیزیکی یا الکترونیکی (Backlists یا Backfiles) را نمایش می‌دهد. این آرشیو دربرگیرنده تمام محتوای اینترنت است. لیکن بخش way back machine صرفاً ویژه استخراج صفحات موجود در شبکه وب است. در وب‌سایت archive.org بیش از 5/4 میلیون کتاب وجود دارد که پس از سال 1800 میلادی منتشر شده‌اند و به صورت متن کامل و رایگان، قابل دسترس هستند. افزون بر کتاب‌، حدود 20 میلیون فیلم، انواع نرم‌افزارها، فایل‌های صوتی، موسیقی‌های معروف جهان، بازی‌های رایانه‌ای و جز آن در آرشیو اینترنت وجود دارند که یافتن آن‌ها در دیگر آرشیوهای پیوسته دشوار است. همچنین، تصاویر نایاب همانند تصاویر سازمان فضایی ناسا و دیگر مجموعه‌ها در آن وجود دارند. بخش دیگر، کتاب‌های صوتی و پادکست‌های این مجموعه است که در چندین زبان ارائه شده‌اند. تمام پادکست‌ها و فایل‌های صوتی گردآوری شده در این وب‌سایت را می‌توانید به اشتراک بگذارید یا در فهرست علاقه‌مندی‌های خود ذخیره و بر اساس ویژگی‌های خاص مرتب و بازنمایی نمایید.

رئیس کتابخانه مرکزی دانشگاه علامه طباطبایی در ادامه به بررسی آثار متنی آرشیو اینترنت پرداخت و گفت: در این وب‌سایت شماری از مجموعه‌ها وجود دارند که از مکان‌هایی معتبر همانند کتابخانه‌های امریکا، کتابخانه‌های کانادا، کتابخانه‌های دانشگاهی، پروژه گوتنبرگ (بزرگترین پروژه دیجیتال‌سازی جهان) گردآوری شده و به صورت رایگان در ‌دسترس هستند. انتشار منابع به شکل رایگان در آرشیو اینترنت منجر به شکایت و اعتراض برخی ناشران شده است. به همین دلیل پروژه دیگری با نام Open library توسط آرشیو اینترنت راه‌اندازی گردید. در این پروژه افراد می‌توانند با پرداخت هزینه به منابع دسترسی یابند. این مجموعه، نسخه‌های الکترونیکی کتاب‌ها را در قالب‌های گوناگون فراهم نموده است. حتی درصورتی که نیاز به فایل فیزیکی کتاب داشته باشید، می‌توانید در فهرست جهانی (WorldCat) جستجو نمایید تا کتابخانه‌هایی که فایل فیزیکی کتاب مورد نظر را دارند و نزدیک به موقعیت مکانی شما هستند، مشخص شوند. البته باید توجه داشت در فهرست جهانی کتابخانه‌های ایران پوشش داده نمی‌شوند.

وی افزود: پیشنهاد می‌شود حتماً یک حساب کاربری شخصی در آرشیو اینترنت ایجاد نمایید تا بتوانید از تمامی خدمات این وب‌سایت به طور رایگان استفاده نمایید. به‌خصوص برای بارگذاری منابع حتما نیاز است یک حساب کاربری داشته باشید. البته همان‌طور که اشاره شد، پیش از انتشار منابع ارسال شده توسط کاربران، ارزیابی‌هایی بر روی شخص و محتوای بارگذاری‌شده انجام می‌شود. یادآوری این نکته ضروری است که جستجو در این وب‌سایت این تفاوت را با موتورکاوش گوگل دارد که داده‌های منتشر شده در این وب‌سایت از صفحات معتبر اینترنت استخراج شده‌اند، و داده‌هایی ارزشمند و معتبرتری قلمداد می‌شوند.

دکتر طاهری در پایان جلسه در خصوص پشتیبانی از زبان فارسی در آرشیو اینترنت گفت: بازیابی و جستجو در این وب‌سایت به زبان‌های گوناگون انجام می‌شود و زبان فارسی نیز در آن پشتیبانی می‌گردد. زیرا در مجموعه‌هایی همانند کتابخانه کنگره و جز آن نیز منابع یا کتاب‌های فارسی وجود دارند. اما مجموعه خاص و جداگانه‌ای به زبان فارسی در آن ایجاد نشده است. برای جستجوی کتاب‌های فارسی و یافتن شکل مستند آوانویسی شده واژگان فارسی به انگلیسی، پیشنهاد می‌شود به فهرست مستند بین‌المللی مجازی (viaf.org) مراجعه نمایید. به این صورت که آوانویسی نام موردنظر را به شکل صحیح و مستند نمایش می‌دهد. به‌عنوان‌نمونه، شکل مستند آوانویسی‌شده نام صادق هدایت به زبان انگلیسی به صورت hidayat, sadiq است.

بدین ترتیب جلسه بیست‌ و پنجم کارگاه «پژوهش در محیط وب» پایان یافت و ادامه مباحث مربوط به پژوهش در محیط وب به جلسه آینده موکول شد.

گزارش از: بنت الهدی موحدی محب

برچسب ها :

اشتراک گذاری

خبرهای مرتبط

رویکرد سیستم، کاربر و بافت مدار از رویکردهای سیستم های اطلاعاتی به ویژه کتابخانه هاست

98/10/22 - 18:02

هشتمین جلسه کارگروه پياده‌سازی استاندارد آر‌دی‌ای برگزار شد

98/11/13 - 11:38

نهمین کارگاه آموزشی استاندارد توصیف و دسترسی به منبع (آردی‌اِی)

99/01/06 - 06:53

دهمین کارگاه آموزشی استاندارد توصیف و دسترسی به منبع برگزار شد

99/01/16 - 03:49

برگزاری یازدهمین کارگاه آموزشی استاندارد توصیف و دسترسی به منبع

99/01/18 - 03:01

نظر شما

خواهشمند است جهت تسهیل ارتباط خود با لیزنا، در هنگام ارسال پیام نکات ذیل را در نظر داشته باشید:
۱. از توهین به افراد، قومیت‌ها و نژاد‌ها خودداری کرده و از تمسخر دیگران بپرهیزید و از اتهام‌زنی به دیگران خودداری نمائید.
۲.از آنجا که پیام‌ها با نام شما منتشر خواهد شد، بهتر است با ارسال نام واقعی و ایمیل خود لیزنا را در شکل دهی بهتر بحث یاری نمایید.
۳. از به کار بردن نام افراد (حقیقی یا حقوقی)، سازمان‌ها، نهادهای عمومی و خصوصی خودداری فرمائید.
۴. از ارسال پیام های تکراری که دیگر مخاطبان آن را ارسال کرده اند خودداری نمائید.
۵. حتی الامکان از ارسال مطالب با زبانی غیر از فارسی خودداری نمائید.

آخرین اخبار

پربازدیدها
پربحث ترین ها

رایگان وبینار برگزار کنید به سادگی از دانش خود کسب درآمد کنید