داخلی
»گزارش
بیستمین جلسه کارگاه پژوهش در محیط وب برگزار شد
به گزارش لیزنا، بیستمین جلسه از کارگاه آموزشی «پژوهش در محیط وب» از سلسله جلسات دورهمی علمی کتابداران به همت کتابخانه آیت الله بروجردی و با تدریس دکتر سید مهدی طاهری به صورت مجازی برگزار شد.
دکتر سید مهدی طاهری نخست به معرفی سربرگ آمار و لاگها (statistics and logs) و کارکرد لاگهای موتور کاوش شخصی گوگل پرداخت و گفت: لاگها، پارامترهایی هستند که تراکنشهای سیستم، فعالیتها و اطلاعات کاربران را در پایگاه داده ثبت میکنند. پیش از این، لاگهای گوگل مبتنی بر کنشهایی بودند که با استفاده از ورودیهایی همانند صفحه کلید و از طریق عملیاتی مانند تایپ، کلیک یا تب ثبت میشدند. اکنون حتی حرکات و چرخش چشم نیز ردیابی و تمرکز آن بر روی یک مطلب خاص ثبت میشوند.
وی گفت: در حال حاضر، موتورهای کاوش پس از ثبت لاگها به تحلیل رفتار اطلاعیابی کاربر میپردازند و متناسب با نیازهای کاربر خدمات شخصیسازیشده ارائه میدهند. زمانی که با حساب کاربری خود در موتورهای کاوش جستجو میکنید، موتورهای کاوش براساس اطلاعات حساب کاربری میتوانند تمامی عملیات و رفتارهای شما را ثبت و تحلیل نمایند. در جستجوهای بعدی، وبسایتهای بازدید شده از سوی کاربر در رتبه بالاتری قرار میگیرند و با رنگ متفاوتی (هایلایت) نمایش داده میشوند. دلیل آن این است که موتور کاوش براساس لاگهای پیشین، این وبسایتها را شناسایی کرده است. این قابلیت، نمونهای از یادگیری ماشین (Machine learning) است که براساس تحلیل لاگها صورت میگیرد.
عضو هیأت علمی دانشگاه علامه طباطبایی در ادامه گفت: آخرین ویژگی یا پنل مربوط به ایجاد و مدیریت موتورهای کاوش شخصی در گوگل، سربرگ آمار و لاگها (statistics and log) است که پس از استفاده از موتور کاوش شخصی، لاگهای ثبت شده را نمایش میدهد.
وی افزود: برای تحلیل لاگهای یک وبسایت یا موتورکاوش شخصی به google analytics مراجعه کنید. اگر وبسایت داشته باشید، گوگل آنالیتیکس در بخش مدیریت وبسایت (Webmaster tools)، آمارها را به صورت نموداری و یا توصیفی نشان میدهد. یعنی لاگهای کاربران را ثبت و تحلیل میکند و نشان میدهد چه افرادی، در چه زمانی، از کدام منطقه وبسایت را بازدید کرده، و چه واژههایی را جستجو کرده، یا چه بخشهایی را مشاهده نمودهاند. این امکان موتور کاوش به شما کمک میکند لاگهای موتور کاوش خود را تحلیل کنید.
دکتر سید مهدی طاهری در ادامه افزود: ثبت لاگها براساس کلیک، تایپ، مکث یا حتی حرکت چشمها انجام میشود. یکی از دلایلی که توصیه میشود هنگام جستجو در گوگل و یا شبکههای اجتماعی، دوربین لپ تاپ یا تلفن همراه را بپوشانید این است که از ردیابی حرکات چشم جلوگیری شود. البته به تازگی سنسورهای دیگری نیز طراحی شدهاند که از روی دمای بدن و یا تغییر حالات چهره نیز به ثبت لاگ و تحلیل کنشهای کاربران میپردازند.
رئیس کتابخانه مرکزی دانشگاه علامه طباطبایی در ادامه به تشریح نکات مهم موتورهای کاوش پرداخت و گفت: یکی از نکات مهم در مورد موتورهای کاوش، بستر نحوی (Syntax) نشانی اینترنتی (URL) جستجوها و نتایج بازیابی است. بستر نحوی یعنی نشانههای و واژههایی که در کنار هم قرار میگیرند تا معنای خاصی را بازنمون نمایند. بهعنوانمثال هر متن یا مقاله دارای syntax خاصی است. بهطورکلی، جملات، ترتیب قرار گرفتن واژهها کنار یکدیگر، نقطهگذاریها (Punctuation) و غیره را بستر نحوی مینامند که اغلب براساس گرامر، دستور زبان یا الگوهای نگارشی خاص تنظیم میشوند. در موتورهای کاوش نیز بحث بسترهای نحوی مطرح است. بستر نحوی موتورهای کاوش بهطورکامل، بر اساس قوانین و الگوریتمهای از پیش تعریف شده، طراحی شده است. بستر نحوی موتورهای کاوش در اصطلاح بستر نحوی یوآرال (URL syntax) نام دارد و یکی از ویژگیهایی است که کاربر میتواند برای انجام جستجو از آن بهره گیرد و اصطلاحاً به search in the fly شهرت دارد. بر اساس این قابلیت، میتوانیم عبارت جستجو را در قسمت نوار آدرس وارد و به صورت حرفهای جستجو کنیم. این قابلیت افزون بر این که به جستجوهای پیشرفته و افزایش تواناییهای کاربران کمک میکند، سرگرم کننده و جذاب نیز هست.
دکتر طاهری در ادامه به معرفی این قابلیت موتوری کاوش گوگل پرداخت و گفت: صفحه اصلی گوگل را در اصطلاح صفحه خانگی (home page) گوگل مینامند. یعنی هر زمان که صفحه گوگل را باز کنیم، صفحه خانگی به نمایش در میآید. زمانی که جستجو میکنیم، یک صفحه جدید تولید میشود که به آن صفحه نتایج (result page) میگویند. باید توجه داشت صفحه اصلی گوگل صفحهای ثابت (static page) است اما صفحه نتایج صفحهای پویا (dynamic page) است. منظور از صفحه پویا این است که نشانی صفحه، ثابت نیست و دلیل آن این است که این صفحه از قبل وجود نداشته، و گوگل براساس جستجوی کاربر این صفحه را ایجاد میکند. به این معنا که گوگل واژههایی را که جستجو کردیم با پایگاه داده خود تطبیق داده، و نتایج را طبق الگوریتمهای از پیش تعریف شده در یک صفحه وب به نام result page نمایش میدهد. در صفحه نتایج، خروجی فرایند بازیابی گوگل ارایه شده، و این صفحه براساس درخواست کاربران تولید (generate) میشود.
دکتر طاهری گفت: صفحات پویا بهتر از صفحات ثابت هستند، اما برخی از صفحات مثل صفحات خانگی (home pages) ماهیت ثابتی دارند و نباید تغییر کنند. دادهها در وبسایتها به دو شکل ذخیره میشوند: روش نخست ذخیرهسازی این است که دادههای ثابت در صفحه اچتیامال (HTML) وارد شده، و نشانی خاصی به آنها اختصاص یافته، و این نشانیها در اختیار کاربران قرار میگیرند. روش دوم ذخیرهسازی بدین صورت است که نخست پایگاههای دادهای سیستمها با استفاده از نرمافزارهایی به نام سیستم مدیریت پایگاه داده (DBMS) توسعه مییابند. براساس این نرمافزارها پایگاه داده ایجاد شده و دادهها در آن پایگاه داده ذخیره شدهاند.
وی گفت: صفحات ثابت (static page) در پایگاه داده ذخیره نمیشوند. یعنی این صفحات از پیش ایجاد شدهاند و نشانی آنها ثابت است. در مقابل آنها، محتوای صفحات پویا (dynamic page) در پایگاه داده ذخیره شده است. صفحاتی که محتوای آنها در پایگاه داده و با رویکرد پویا ذخیره میشوند، پیشتر ایجاد نشدهاند، بلکه براساس درخواست کاربر تولید (generate) میشوند. به عنوان مثال وقتی ترکیب واژههای data AND information را جستجو میکنیم، گوگل درخواست جستجو شده را با پایگاه داده خود تطبیق داده، و صفحاتی را که در آنها هم واژه data و هم واژه information به کار رفتهاند، مشخص میکند و در قالب صفحه نتایج جدید به همراه اطلاعات کتابشناختی (توصیف) صفحات مرتبط، نشان میدهد. نشانی صفحات نتایج در نوار آدرس (Address bar) درج گردیده، و اغلب شامل پارامترهایی مانند: % $ # ! ؟ و غیره است. پارامترهایی که در نشانی وبسایت به کار میروند، معنادار و غیرتصادفی هستند، و تغییر در هرکدام از آنها نتایج را تغییر میدهد. تغییراتی که در بستر نحوی اعمال میشود، یکی از مصادیق هک کردن گوگل (google hacking) است. حتی میتوانیم با این تغییرات تعداد نتایج را در بستر نحوی یوآرال (URL syntax) نیز دستکاری کنیم. با یادگیری این ترفندها میتوانیم بدون وارد کردن عبارت جستجو در جعبه جستجوی گوگل، به انجام کاوش و تنظیم نتایج دست بزنیم، و با تغییر در نشانی صفحات پویا با تغییر در نحوه جستجوی نتایج (result search)، به نتایج متفاوتی دست یابیم.
دکتر سید مهدی طاهری مدرس کارگاه در پایان این جلسه گفت: به تمامی این عملیات search in the fly گفته میشود که در جلسه آینده با جزئیات بیشتری در مورد آن صحبت خواهد شد.
گزارش : بنت الهدا موحدی محب
۱. از توهین به افراد، قومیتها و نژادها خودداری کرده و از تمسخر دیگران بپرهیزید و از اتهامزنی به دیگران خودداری نمائید.
۲.از آنجا که پیامها با نام شما منتشر خواهد شد، بهتر است با ارسال نام واقعی و ایمیل خود لیزنا را در شکل دهی بهتر بحث یاری نمایید.
۳. از به کار بردن نام افراد (حقیقی یا حقوقی)، سازمانها، نهادهای عمومی و خصوصی خودداری فرمائید.
۴. از ارسال پیام های تکراری که دیگر مخاطبان آن را ارسال کرده اند خودداری نمائید.
۵. حتی الامکان از ارسال مطالب با زبانی غیر از فارسی خودداری نمائید.