web Indexing and Search Engines
نقش موتورهای جستجو در نمایهسازی وب
تحلیل موضوعات وبی عبارت است از فرایند پیگیری توزیع یک موضوع در محیط های درونخطی. برای مثال پژوهشی در صدد است همه مفاهیم مورد اشاره “مدیریت یکپارچه منابع آب سازمان ملل متحد” را با هدف کشف روش های جهانی آن شناسایی کند. شیوه تحلیل موضوعی با سنجش تاثیر وب آغاز میگردد اما شامل بعضی از فنون زبان شناختی نیز میگردد. از این رو تحلیل یک موضوع وبی، بر پایه یک یا چند جستجوی وبی برای آن موضوع، همراه با انطباق نشانی های اینترنتی یا وبگاههای آن در نظر گرفته شده و یک تحلیل محتوایی هدایت شده برای اعتباربخشی و کمک به تفسیر نتایج و در نهایت تفکیک دامنههای سطح بالا استفاده شده برای اظهار نظر کردن دربارۀ توزیع جهانی آن موضوع استوار است. روش زبان شناختی که “تحلیل موضوعی وب را از “سنجش تاثیر وبی” متمایز میکند عبارت است از شناسایی لغاتی که نسبتا اغلب در صفحات وبی ظاهر میشوند و به موضوع مورد نظر اشاره میکنند. این امر میتواند برای شناسایی مفاهیمی که امکان دارد در فرایند تحلیل محتوا فراموش شوند مفید باشد. شمارش لغت برای این منظور به دلیل زمان بر بودن عملی نیست و بنابراین تنها با پشتیبانی و بهرهگیری از برنامههای کامپیوتری تحلیل متن (نظیر ابزار تحلیل گر متن تعبیه شده در نرم افزار سوسای بوت) قابل انجام است. همچنین یک مجموعه حاوی گروه کنترل از متون میبایست بشکلی مشابه تحلیل شوند تا مقایسه دو نتیجه، منجر به شناسایی لغاتی شود که به نسبت در صفحات وبی مرتبط با موضوع، وجه اشتراک بیشتری دارند. این فرایند، دو سیاهه از واژگان و فراوانی واژگان را ایجاد میکند: یکی برای صفحاتی که مورد اشاره موضوع پژوهش هستند و دیگری برای گروه کنترل. این دو سیاهه را میتوان با استفاده از شناسایی واژگانی که نسبتا رتبه عالی در فهرست موضوعی دارند یا با بهرهگیری از روشهای آماری رسمی برای کشف واژگانی که به شکل غیر عادی فراوانی زیادی را در فهرست موضوعی دارند، مقایسه نمود. یک روش انتخابی در این مورد استفاده از فن پردازش زبان طبیعی برای استخراج اسامی و عبارتهای اسمی از صفحات وبی یافت شده است
اهمیت استفاده از موتورهای جستجو و نمایهسازی
حجم انبوه اطلاعات وب و عدم نمایهسازی جامع، متخصصان این حوزه را برآن داشته تا با مدد از فن آوری افکار، موتورهای جستجو را بکارگیرند و راهکاری مناسب جهت نمایهسازی را فراهم آورند. از سوی دیگر برخی از وبسایتها برای اطمینان از بازیابی بیشترین رتبهبندیهای مرتبط، از اصطلاحات کلیدی استفاده میکنند، این در حالی است که تعدادی دیگر از نمایهسازی کور بهره میگیرند.
مشکل اصلی این نوع نمایهسازی اضافه بازیابی است که حجم زیاد اطلاعات نامرتبط را شامل میشود، لذا جهت افزایش جامعیت و مانعیت بازیابی، موتورهای جستجو به عنوان یک راهکار مطرح شدند.
موتورهای جستجو، ابر موتورها و ابردادهها در واقع ابزارهای کمکی برای نمایهسازی و ارائۀ اطلاعات مرتبط با موضوع مورد جستجو در اینترنت هستند.
حجم وسیع اطلاعات بر روی شبکه وب باعث میگردد تا پاسخدهی به کاوشهای ارسالی را بدون دسترسی به تمام متون و فقط با استفاده از فایلهای نمایه صورت دهیم زیرا در غیر این صورت یا بایستی نسخهای از اطلاعات درخواستی به صورت محلی ذخیره گردد و یا تمام صفحات از راه دور و از طریق شبکه، در هنگام جستجو دسترسپذیر باشد که این روشها بسیار گران و کند است. تمام اینها تأثیر و اهمیت، تلاش برای بهبود روشهای نمایهسازی و الگوریتمهای جستجو را مشخص میسازد. براساس استاندارد نمایهسازی بریتانیا نمایه، ترتیب اصولی از مداخل است که به منظور قادر ساختن استفادهکنندگان برای یافتن اطلاعات خود در یک مدرک ایجاد میشود. نمایهسازی وب کار سادهای نیست و لذا برای کمک به درخواستکنندگان اطلاعات در رسیدن به آن در سطح شبکه از روشهای مختلف نمایهسازی استفاده میگردد.
نمایهها اساس کار موتورهای جستجو در رتبه بندی نتایج جستجو و ترکیب منطقی واژهها (جستجوی بولی) برای بازیابی اطلاعات در اینترنت را تشکیل میدهد.
نمایه های وب برای نشان دادن لیستهای منابع خود از پیوندهای فرامتن استفاده می کنند، آنها این امکان را دارند تا از طریق لینکها صدها و بلکه هزاران منبع را دربربگیرند.
رویکردهای نمایه سازی خودکار در وب
در بیانی کلی میتوان گفت که تا کنون درحوزه ذخیره و فناوری اطلاعات در وب شاهد رویکردهای نمایهسازی گوناگونی چون محتوامحتوری و معنامحوری بودهایم که شرح آنها آورده خواهد شد.
محتوا محوری
اغلب موتورهای کاوش حاضر از روش نمایه ساز ی برمبنای کلیدواژههای متن استفاده میکنند. دراین شکل فرایند نمایهسازی سه مرحله خواهد داشت: شکستن کلمات، تعدیل و حذف کلمات غیرموضوعی، استفاده از الگوریتم ریشهساز جهت تولید ریشههای مفاهیم. در مرحلۀ شکستن کلمات، دادههایی که به صورت رشتهای از کاراکترها هستند مورد
بررسی قرار گرفته و حدود کلمات و فاصله میان آنها مشخص میگردد. درمرحله تعدیل کلمات مزاحم، بزرگ نویسی، نقطهگذاری و مواردی از این دست مدیریت میشود. کلمات مزاحم در نمایهسازی کلماتی هستند که بار معنایی خاصی ندارند و تنها برای ایجاد پیوستگی و ارتباط در جملهها به کار میروند. بعد از این مرحله از الگوریتمی جهت تولید ریشهها و مفاهیم استفاده میشود.
معنا محوری
درحال حاضر اغلب موتورهای کاوش رویکردی مکانیکی دارند و به مفاهیم، الگوها و کلیدهایی که به فهم مفاهیم میانجامد توجهی ندارند . دراین ابزارها، جستوجوی واقعی صرفابر مبنای کلیدواژههاست. استفاده از فهرست مترادفها و بهره گیری از جست وجوی فازی از راهبردهای مطرح شده جهت رفع مشکلات جست وجوی کلیدواژه ای است. روشی که دراینجا مطرح است بهرهگیری از نمایهسازی معنایی پنهان جهت بهبود مانعیت، جامعیت و رتبه بندی نتایج کاوش است .نمایهسازی معنایی پنهان به کاربران این اجازه را میدهد که جستوجوی خود را به مفاهیم و نه فقط کلیدواژه ها محدود کنند. درزمینه نمایهسازی خودکار در وب حرکتهای جاری به سمت بهرهگیری از دادههای ساختار یافته و تحقق وب معنایی است، اما این حرکتها به طورکامل به انجام نرسیده است و هنوز مشکلات حل نشده فراوانی در این مسیر وجوددارد. بیگمان کتابداران و اطلاع رسانان به عنوان متولیان سازماندهی دانش بشر، میتوانند دراین زمینه نقش موثری ایفا کنند. بدیهی است در این راستا کتابدار باید خودرا به دانش و فناوریهای نوین اطلاعاتی مجهز نماید تا بتواند وظیفه نمایهسازی و ذخیرهسازی اطلاعات را انجام دهد.
بازنمود نمایه در وب
نهایتا بحث نمایش نمایه اطلاعات الکترونیکی مطرح میشود. نمایه وب به سه صورت نمایش داده میشود:
- نمایش تیتر حرف
- جعبه فورم
- نمایش سنتی
نمایش تیتر حرف
در این روش یک یا دو ردیف حروف الفبای فارسی یا انگلیسی در صفحه وب نمایش داده میشود.هر حرف یک ابر پیوند میباشد که با کلیک بر روی آن به فهرستی که مدخلهای آن با همان حرف آغاز شدهاند دسترسی پیدا میکنیم هریک از این مدخلها خود یک ابر پیوند هستند و ما را به منبع اصلی اطلاعات متصل میکند.
گاهی این نوع از نمایش توسعه بیشتری پیدا کرده است. بدین صورت که از طریق کلیک بر روی یک ابر پیوند حرف به ابرپیوندهای دو حرفی از همان حرف میرسیم که با کلیک بر روی ابر پیوند مورد نظر به لیستی از مدخلها میرسیم و میتوانیم موضوع مورد نظر را انتخاب و به متن اصلی برسیم مثالی از این مورد در سایت دایره المعارف بریتانیکا مشهود میباشد
نمایش جعبه فورم
جعبه فورم کل مدخلهای نمایه را دربرمیگیرد. واحد اصلی نمایه مدخل میباشد. از آنجا که تمام مدلهای نمایه در یک ستون از صفحه نمایش کامپیوتر قرار نمیگیرد، برای رسیدن به مدخل مورد نظر باید مدخلها را طومارنمایی کرد. با لغزاندن و کشاندن ماوس بر مربعهای کوچک حاشیه فورم، مدخلهای نمایه را بالا و پایین برد تا بالاخره، مدخل مورد نظر به گستره دید فورم برسد. در این صورت با کلیک کردن بر روی مدخل مورد نظر، صفحۀ متناظر متن بر کنار مستطیل فورم نمایان میگردد. جعبه فرم ممکن است از یک فهرست تک سطحی، یا یک فهرست سلسله مراتبی چند سطحی تشکیل شده باشد. منظور از فهرست چند سطحی که معمولا در کنار متن نمایش داده میشود مدخلهایی است که با کلیک بر روی آنها زیر مدخل سطح بعدی نمایان میشود و مانند یک ساختار درختی عمل میکند.
نمایش سنتی
این نوع نمایش مانند نمایۀ کتاب است. در این نوع نمایش میتوان از ابرپیوندها استفاده کرد. در شیوه سنتی در محیط الکترونیکی، نمایه، «دقیقا» همانند کتاب، به صورت دو ستونه و صفحه به صفحه و با سر صفحه و غیره نمایش داده میشود: خواه با ابر پیوند خواه بدون آن. در این شیوه، نمایه، عینا مانند نمایه کتاب، در انتهای صفحه های کتاب قرار داده میشود. اما در مواردی، نمایه الکترونیکی شبیه نمایه سنتی است، ولی جلوی هر مدخل آن، عدد ۱ آمده است. یعنی ظاهرا کاب یا متن الکترونیکی شامل یک صفحه است! در این حالت، کاربر باید ماوس را بر روی عدد «۱» قرار دهد و کلیک کند، تا متن متناظر آورده شود.
برای مطالعه بیشتر لطفا به کتاب نمایه سازی ماشینی مراجعه فرمایید
کتاب نمایه سازی ماشینی
گردآورنده : شهرزاد نیاکان
دیدگاهتان را بنویسید