داخلی
»گزارش
معرفی آرشیو اینترنت (archive.org) و کاربردهای آن
به گزارش لیزنا، دکتر طاهری در این جلسه به معرفی آرشیو اینترنت (archive.org) پرداخت و گفت: این سامانه وبی دربرگیرنده آرشیو اینترنت و بهطورخاص، دادههای دسترسپذیر در محیط شبکه وب است. دلیل ایجاد این آرشیو این است که برخی از دادههای منتشر شده در وب در طول زمان از بین میروند (مانند Chunked) و یا به دلایل گوناگون محتوای یک صفحه وب حذف (Defuncted) میشود. اهدافی همانند حفظ و نگهداری محتوای قدیمی و صفحات از بین رفته وب، تجمیع دادههای باکیفیت و ایجاد دسترسی یکپارچه به منابع اینترنتی منجر به ایجاد سامانه archive.org شدهاند. این اهداف باعث شدند در سال 1996، Brewster Kahle موسسهای با نام Internet Archive را در شهر سانفرانسیسکو ایجاد نماید.
وی افزود: امروزه، دادههای ارزشمند موجود در وب در این وبسایت گردآوری و آرشیو میشوند و محصول آن آرشیوی جامع از اینترنت است که در آن منابع گوناگون همانند کتاب، صفحات وب، نرمافزار و جز آن یافت میشوند. در واقع، یکی از وبسایتهایی که میتوانیم برای یافتن منابع خاص در آن جستجو نماییم آرشیو اینترنت است. هنگامی که جستجوی ما در دیگر صفحات وب نتیجهای نداشت، احتمال یافتن منابع مورد نیاز در این وبسایت وجود دارد. پس بهتر است در جستجوها به آرشیو اینترنت نیز مراجعه شود.
سپس دکتر طاهری در مورد نحوه تأمین محتوای این وبسایت گفت: بخشی از دادهها توسط افراد بارگذاری و پس از بازبینی و ویرایش در آرشیو اینترنت منتشر میشوند. بخشی دیگر از دادههای ارزشمند موجود در صفحات وب توسط روباتی استخراج و گردآوری (Harvest) شده، و در آرشیو اینترنت نگهداری میشوند. این فرایند مشابه کار موتورهای کاوش است با این تفاوت که در آرشیو اینترنت وبسایتهای مشخص که دارای دادههای باکیفیت هستند، انتخاب میشوند. سومین روش تأمین محتوا در این وبسایت، دسترسی به کتابهای اسکن شده است؛ یعنی در این وبسایت کتابهای مفید و معتبر فیزیکی اسکن شده، دسترسپذیر میشوند.
وی افزود: در این آرشیو بیش از 486 میلیارد صفحه وب نمایه شده است. این وبسایت بخشی با نام (way back machine) دارد که دادههایی که قبلا منتشر شدهاند، همانند انتشارات پیشین یک ناشر به صورت فیزیکی یا الکترونیکی (Backlists یا Backfiles) را نمایش میدهد. این آرشیو دربرگیرنده تمام محتوای اینترنت است. لیکن بخش way back machine صرفاً ویژه استخراج صفحات موجود در شبکه وب است. در وبسایت archive.org بیش از 5/4 میلیون کتاب وجود دارد که پس از سال 1800 میلادی منتشر شدهاند و به صورت متن کامل و رایگان، قابل دسترس هستند. افزون بر کتاب، حدود 20 میلیون فیلم، انواع نرمافزارها، فایلهای صوتی، موسیقیهای معروف جهان، بازیهای رایانهای و جز آن در آرشیو اینترنت وجود دارند که یافتن آنها در دیگر آرشیوهای پیوسته دشوار است. همچنین، تصاویر نایاب همانند تصاویر سازمان فضایی ناسا و دیگر مجموعهها در آن وجود دارند. بخش دیگر، کتابهای صوتی و پادکستهای این مجموعه است که در چندین زبان ارائه شدهاند. تمام پادکستها و فایلهای صوتی گردآوری شده در این وبسایت را میتوانید به اشتراک بگذارید یا در فهرست علاقهمندیهای خود ذخیره و بر اساس ویژگیهای خاص مرتب و بازنمایی نمایید.
رئیس کتابخانه مرکزی دانشگاه علامه طباطبایی در ادامه به بررسی آثار متنی آرشیو اینترنت پرداخت و گفت: در این وبسایت شماری از مجموعهها وجود دارند که از مکانهایی معتبر همانند کتابخانههای امریکا، کتابخانههای کانادا، کتابخانههای دانشگاهی، پروژه گوتنبرگ (بزرگترین پروژه دیجیتالسازی جهان) گردآوری شده و به صورت رایگان در دسترس هستند. انتشار منابع به شکل رایگان در آرشیو اینترنت منجر به شکایت و اعتراض برخی ناشران شده است. به همین دلیل پروژه دیگری با نام Open library توسط آرشیو اینترنت راهاندازی گردید. در این پروژه افراد میتوانند با پرداخت هزینه به منابع دسترسی یابند. این مجموعه، نسخههای الکترونیکی کتابها را در قالبهای گوناگون فراهم نموده است. حتی درصورتی که نیاز به فایل فیزیکی کتاب داشته باشید، میتوانید در فهرست جهانی (WorldCat) جستجو نمایید تا کتابخانههایی که فایل فیزیکی کتاب مورد نظر را دارند و نزدیک به موقعیت مکانی شما هستند، مشخص شوند. البته باید توجه داشت در فهرست جهانی کتابخانههای ایران پوشش داده نمیشوند.
وی افزود: پیشنهاد میشود حتماً یک حساب کاربری شخصی در آرشیو اینترنت ایجاد نمایید تا بتوانید از تمامی خدمات این وبسایت به طور رایگان استفاده نمایید. بهخصوص برای بارگذاری منابع حتما نیاز است یک حساب کاربری داشته باشید. البته همانطور که اشاره شد، پیش از انتشار منابع ارسال شده توسط کاربران، ارزیابیهایی بر روی شخص و محتوای بارگذاریشده انجام میشود. یادآوری این نکته ضروری است که جستجو در این وبسایت این تفاوت را با موتورکاوش گوگل دارد که دادههای منتشر شده در این وبسایت از صفحات معتبر اینترنت استخراج شدهاند، و دادههایی ارزشمند و معتبرتری قلمداد میشوند.
دکتر طاهری در پایان جلسه در خصوص پشتیبانی از زبان فارسی در آرشیو اینترنت گفت: بازیابی و جستجو در این وبسایت به زبانهای گوناگون انجام میشود و زبان فارسی نیز در آن پشتیبانی میگردد. زیرا در مجموعههایی همانند کتابخانه کنگره و جز آن نیز منابع یا کتابهای فارسی وجود دارند. اما مجموعه خاص و جداگانهای به زبان فارسی در آن ایجاد نشده است. برای جستجوی کتابهای فارسی و یافتن شکل مستند آوانویسی شده واژگان فارسی به انگلیسی، پیشنهاد میشود به فهرست مستند بینالمللی مجازی (viaf.org) مراجعه نمایید. به این صورت که آوانویسی نام موردنظر را به شکل صحیح و مستند نمایش میدهد. بهعنواننمونه، شکل مستند آوانویسیشده نام صادق هدایت به زبان انگلیسی به صورت hidayat, sadiq است.
بدین ترتیب جلسه بیست و پنجم کارگاه «پژوهش در محیط وب» پایان یافت و ادامه مباحث مربوط به پژوهش در محیط وب به جلسه آینده موکول شد.
گزارش از: بنت الهدی موحدی محب
۱. از توهین به افراد، قومیتها و نژادها خودداری کرده و از تمسخر دیگران بپرهیزید و از اتهامزنی به دیگران خودداری نمائید.
۲.از آنجا که پیامها با نام شما منتشر خواهد شد، بهتر است با ارسال نام واقعی و ایمیل خود لیزنا را در شکل دهی بهتر بحث یاری نمایید.
۳. از به کار بردن نام افراد (حقیقی یا حقوقی)، سازمانها، نهادهای عمومی و خصوصی خودداری فرمائید.
۴. از ارسال پیام های تکراری که دیگر مخاطبان آن را ارسال کرده اند خودداری نمائید.
۵. حتی الامکان از ارسال مطالب با زبانی غیر از فارسی خودداری نمائید.