در دورهمی علمی کتابداران در کتابخانه آیت العظمی بروجردی قم اولین جلسه نشستی با عنوان سواد اطلاعاتی و مهارت های پژوهشی (پژوهش در محیط وب: موتورهای کاوش) برگزار شد.

پژوهش در محیط وب: موتورهای کاوش و نمایه‌سازی وب + فیلم

به گزارش لیزنا، در این نشست سيدمهدى طاهرى درباره نمایه سازی وب به عنون یکی از بخش‌های نمایه‌سازی ماشینی به صحبت پرداخت و گفت البته نمایه‌سازی وب را به صورت مستقل نیز دیده اند.

استاد علم اطلاعات و دانش شناسی دانشگاه علامه طباطبایی گفت: وب به عنوان بزرگترین محیط ذخیره و بازیابی داده ها در دنیاست و به دلیل گستردگی و اهمیت آن تمام مباحثی که در حوزه مدیریت اطلاعات و دانش مطرح می شود یک بعد وبی هم پیدا میکند. محیط وب خیلی گسترده است و در آن از فناوری‌های مختلفی استفاده می شود.

وی افزود: فناوری‌های وبی، فناوری هایی هست که موجودیت های محیط وب از این فناوری ها استفاده می کنند و این فناوری ها حتی در خارج از وب نیز استفاده می شوند. همانطور که گفتیم هر مبحثی در حوزه مدیریت اطلاعات و دانش در وب هم مطرح می شود و یکی از اینها نمایه سازی است. Webindexing مترادف با search engine indexing است.

او گفت: موتورهای کاوش به عنوان بهترین ایزارهای کاوش هستند و 90 درصد از زمان کاوش کاربرها در وب از طریق موتورهای کاوش صورت می گیرد. علاوه بر موتورهای کاوش پورتال ها، دیتا بیس ها، bibliographic networks، information gateways و مانند آنها را داریم اما به خاطر قابلیت های زیاد و کاربرپسند بودن موتورهای کاوش، مورد استقبال زیادی قرار گرفتند.

طاهری ادامه داد: GWT فناوری خاص گوگل است ولی گوگل در صفحه اول یک اینترفیس ساده دارد و یکی از دلایل استقبال کاربران ساده بودن آن است.

طاهری درباره نمایه سازی وب گفت: نمایه سازی وب شیوه خاص و منحصر به فردی ندارد. همه روش هایی که در نمایه سازی به کار می رود مانند، نمایه سازی استخراجی خودکار، نمایه سازی تخصیصی خودکار همه اینها در وب استفاه می شود.

وی افزود: موتورهای کاوش سه بخش اصلی دارند: دیتابیس: جایی که دیتا ها در آن ذخیره می شوند. مورتوهای کاوش اول دیتا را ایندکس میکنند و توجه داشته باشید که 20 درصد داده های وب، ایندکس می شوند و باقی وب عمیق است.

او ادامه داد: جزء دوم؛ ربات های موتور کاوش است که به آن نرم افزار خزنده نمایه ساز می گویند. جزء سوم : پردازشگر درخواست است. کار آن این است که درخواست‌ها را از کاربر دریافت می کند و از دیتا بیس پاسخ می آورد و در این کار از نمایه مقلوب استفاده می کند و این بخش کوچکی از ساختار موتورهای کاوش است.

وی افزود: نمایه سازی از واژه ها استخراج می شود نمایه سازی عبارت هم داریم که کمی پیچیده تر است.

طاهری گفت: رویکردی که موتورهای کاوش دارند این است که source صفحات را ایندکس میکنند. این صفحه برای موتور کاوش مهم است. دو محیط داریم یکی داینامیک و دیگری استاتیک محیط‌های داینامیک آنهایی هستند که پشتشان دیتابیس است و صفحه از قبل وجود نداشته و در برابر درخواست کاربر generate می شود و یک صفحه ای برای نمایش ایجاد می کند. استاتیک صفحاتی هستند که از قبل وجود دارند مانند صفحات خانگی سایت‌ها.

رئیس کتابخانه مرکزی و مرکز اسناد دانشگاه علامه طباطبائی ادامه داد: نرم افزار موتور کاوش از طریق یو آر آی (URI) صفحه را پیدا میکند. برای آنکه بتواند این کار را بکنند یکسری feed (غذا، خوراک) در اختیارش می گذارند، یکسری صفحات لینک هست که این ها را fetch می کنند و در آن صفحه هایپر لینک ها را دوباره fetch می کند. صفحاتی که هیچ لینکی ندارند، ربات به آن نمیرسد. بنابراین ربات ها از طریق یو آر آی ها به صفحه میرسند.

وی ادامه داد: رباتهای موتورهای کاوش محتوای برچسب ها را استخراج میکنند. نام تگ ایندکس می شود اما در جستجوها حذف می شود. رویکرد آنها حذف برچسب است و فقط مقدارها و ارزش ها را در جستجو ها می آورند. محتواها را در ایندکس قرار می دهند و آدرس صفحه ای که محتوا در آن است در مقابلش قرار می گیرد مثلا اگر لیزنا را جستجو کنید هر صفحه ای که لیزنا در آن باشد برای شما بازیابی میکند.

طاهری گفت: در صفحه ای که نتایج بازیابی می شود بالای صفحه یک واژه all دارد که یعنی هم متن و هم تصویر و همه موارد مرتبط با درخواست را می آورد و شما میتوانید جزئی تر کنید و فقط عکس یا ویدئو انتخاب کنید. در تعداد نتایج جستجو میزند about مطمئنا نتایج از آنچه آورده بیشتر است چراکه موتور کاوش سرورهای مختلفی در دنیا دارد و سرچ موتوهای کاوش مبتنی بر منطقه ای است که شما جستجو می کنید و بر اساس ip شما پاسخ را برای شما می آورد. منطقه جغرافیایی را در نظر میگیرد و درخواست را به نزدیک ترین سرورهای خود می فرستد و پاسخ را در زیر یک ثانیه می آورد.

او ادامه داد: یک عملگر داریم به نام cash وقتی کش را سرچ میکنید، نتیجه بازیابی شده آخرین صفحه ای است که ایندکس کرده است. یکسری از سایتها هستند که دیگر وجود ندارد اما آخرین نسخه ای که در گوگل ایندکس شده باشد کش شده است و همواره موجود است.

طاهری در پایان صحبت های خود در مورد جستجوهای عبارتی گفت: برای جستجوی عبارتی در گوگل باید "" بگذارید تا عین عبارت را برای شما بیاورد. گوگل این قابلیت را دارد که تا 50 واژه پشت هم را بازیابی کند. اطلاعات جایگاه واژه در صفحه (position information) مختصات واژه در صفحه را می دهد و وقتی عبارتی را جستجو می کنید آن را هایلات می کند. یعنی علاوه بر استخراج هر واژه مختصات هر واژه را هم جستجو میکنند و برای همین میتوانند عبارت را جستجو کنند. برای هر واژه ای یک برچسب word گذاشتند و خیلی از پردازش ها را می توانند از این طریق انجام دهند.

برچسب ها :

اشتراک گذاری

خبرهای مرتبط

پژوهش در محیط وب: جستجوی بافتی + فیلم

98/10/04 - 11:18

برگزاری ششمین جلسه کارگروه پياده‌سازی استاندارد آر‌دی‌ای

98/09/27 - 08:48

برگزاری پنجمین جلسه کارگروه پياده‌سازی استاندارد آر‌دی‌ای

98/09/13 - 10:27

کتاب و کتابخوانی در روی خط خبر

98/09/04 - 09:23

چهارمین جلسه کارگروه پیاده‌سازی آردی‌ای برگزار شد

98/08/05 - 16:08

نظر شما

خواهشمند است جهت تسهیل ارتباط خود با لیزنا، در هنگام ارسال پیام نکات ذیل را در نظر داشته باشید:
۱. از توهین به افراد، قومیت‌ها و نژاد‌ها خودداری کرده و از تمسخر دیگران بپرهیزید و از اتهام‌زنی به دیگران خودداری نمائید.
۲.از آنجا که پیام‌ها با نام شما منتشر خواهد شد، بهتر است با ارسال نام واقعی و ایمیل خود لیزنا را در شکل دهی بهتر بحث یاری نمایید.
۳. از به کار بردن نام افراد (حقیقی یا حقوقی)، سازمان‌ها، نهادهای عمومی و خصوصی خودداری فرمائید.
۴. از ارسال پیام های تکراری که دیگر مخاطبان آن را ارسال کرده اند خودداری نمائید.
۵. حتی الامکان از ارسال مطالب با زبانی غیر از فارسی خودداری نمائید.

آخرین اخبار

پربازدیدها
پربحث ترین ها

رایگان وبینار برگزار کنید به سادگی از دانش خود کسب درآمد کنید