نمایه‌سازی وب web indexing

web Indexing and Search Engines

نقش موتورهای جستجو در نمایه‌سازی وب

تحلیل موضوعات وبی عبارت است از فرایند پیگیری توزیع یک موضوع در محیط های درون‌خطی. برای مثال پژوهشی در صدد است همه مفاهیم مورد اشاره “مدیریت یکپارچه منابع آب سازمان ملل متحد” را با هدف کشف روش های جهانی آن شناسایی کند. شیوه تحلیل موضوعی با سنجش تاثیر وب آغاز می‌گردد اما شامل بعضی از فنون زبان شناختی نیز می‌گردد. از این رو تحلیل یک موضوع وبی، بر پایه یک یا چند جستجوی وبی برای آن موضوع، همراه با انطباق نشانی های اینترنتی یا وبگاه‌های آن در نظر گرفته شده و یک تحلیل محتوایی هدایت شده برای اعتباربخشی و کمک به تفسیر نتایج و در نهایت تفکیک دامنه‌های سطح بالا استفاده شده برای اظهار نظر کردن دربارۀ توزیع جهانی آن موضوع استوار است. روش زبان شناختی که “تحلیل موضوعی وب را از “سنجش تاثیر وبی” متمایز می‌کند عبارت است از شناسایی لغاتی که نسبتا اغلب در صفحات وبی ظاهر می‌شوند و به موضوع مورد نظر اشاره می‌کنند. این امر می‌تواند برای شناسایی مفاهیمی که امکان دارد در فرایند تحلیل محتوا فراموش شوند مفید باشد. شمارش لغت برای این منظور به دلیل زمان بر بودن عملی نیست و بنابراین تنها با پشتیبانی و بهره‌گیری از برنامه‌های کامپیوتری تحلیل متن (نظیر ابزار تحلیل گر متن تعبیه شده در نرم افزار سوسای بوت) قابل انجام است. همچنین یک مجموعه حاوی گروه کنترل از متون می‌بایست بشکلی مشابه تحلیل شوند تا مقایسه دو نتیجه، منجر به شناسایی لغاتی شود که به نسبت در صفحات وبی مرتبط با موضوع، وجه اشتراک بیشتری دارند. این فرایند، دو سیاهه از واژگان و فراوانی واژگان را ایجاد می‌کند: یکی برای صفحاتی که مورد اشاره موضوع پژوهش هستند و دیگری برای گروه کنترل. این دو سیاهه را می‌توان با استفاده از شناسایی واژگانی که نسبتا رتبه عالی در فهرست موضوعی دارند یا با بهره‌گیری از روش‌های آماری رسمی برای کشف واژگانی که به شکل غیر عادی فراوانی زیادی را در فهرست موضوعی دارند، مقایسه نمود. یک روش انتخابی در این مورد استفاده از فن پردازش  زبان طبیعی برای استخراج اسامی و عبارت‌های اسمی از صفحات وبی یافت شده است

نمایه سازی وب
نمایه سازی وب

اهمیت استفاده از موتورهای جستجو و نمایه‌سازی

حجم انبوه اطلاعات وب و عدم نمایه‌سازی جامع، متخصصان این حوزه را برآن داشته تا با مدد از فن آوری افکار، موتورهای جستجو را بکار‌گیرند و راهکاری مناسب جهت نمایه‌سازی را فراهم آورند. از سوی دیگر برخی از وب‌سایت‌ها برای اطمینان از بازیابی بیشترین رتبه‌بندی‌های مرتبط، از اصطلاحات کلیدی استفاده می‌کنند، این در حالی است که تعدادی دیگر از نمایه‌سازی کور بهره می‌گیرند.

مشکل اصلی این نوع نمایه‌سازی اضافه بازیابی است که حجم زیاد اطلاعات نامرتبط را شامل می‌شود، لذا جهت افزایش جامعیت و مانعیت بازیابی، موتورهای جستجو به عنوان یک راهکار مطرح شدند.

موتورهای جستجو، ابر موتورها و ابر‌داده‌ها در واقع ابزارهای کمکی برای نمایه‌سازی و ارائۀ اطلاعات مرتبط با موضوع مورد جستجو در اینترنت هستند.

حجم وسیع اطلاعات بر روی شبکه وب باعث می‌گردد تا پاسخ‌دهی به کاوش‌های ارسالی را بدون دسترسی به تمام متون و فقط با استفاده از فایل‌های نمایه صورت دهیم زیرا در غیر این صورت یا بایستی نسخه‌ای از اطلاعات درخواستی به صورت محلی ذخیره گردد و یا تمام صفحات از راه دور و از طریق شبکه، در هنگام جستجو دسترس‌پذیر باشد که این روش‌ها بسیار گران و کند است. تمام این‌ها تأثیر و اهمیت، تلاش برای بهبود روش‌های نمایه‌سازی و الگوریتم‌های جستجو را مشخص می‌سازد. براساس استاندارد نمایه‌سازی بریتانیا نمایه، ترتیب اصولی از مداخل است که به منظور قادر ساختن استفاده‌کنندگان برای یافتن اطلاعات خود در یک مدرک ایجاد می‌شود. نمایه‌سازی وب کار ساده‌ای نیست و لذا برای کمک به درخواست‌کنندگان اطلاعات در رسیدن به آن در سطح شبکه از روش‌های مختلف نمایه‌سازی استفاده می‌گردد.

نمایه‌ها اساس کار موتورهای جستجو در رتبه بندی نتایج جستجو و ترکیب منطقی واژه‌ها (جستجوی بولی) برای بازیابی اطلاعات در اینترنت را تشکیل می‌دهد.

 نمایه های وب برای نشان دادن لیست‌های منابع خود از پیوندهای فرا‌متن استفاده می کنند، آنها این امکان را دارند تا از طریق لینک‌ها صدها و بلکه هزاران منبع را در‌بر‌بگیرند.

automatic indexing
automatic indexing

رویکردهای نمایه سازی خودکار در وب

در بیانی کلی می‌توان گفت که تا کنون درحوزه ذخیره و فناوری اطلاعات در وب شاهد رویکردهای نمایه‌سازی گوناگونی چون محتوامحتوری و معنا‌محوری بوده‌ایم که شرح آنها آورده خواهد شد.

محتوا محوری

اغلب موتورهای کاوش حاضر از روش نمایه ساز ی برمبنای کلیدواژه‌های متن استفاده می‌کنند. دراین شکل فرایند نمایه‌سازی سه مرحله خواهد داشت: شکستن کلمات، تعدیل و حذف کلمات غیرموضوعی، استفاده از الگوریتم ریشه‌ساز جهت تولید ریشه‌های مفاهیم. در مرحلۀ شکستن کلمات، داده‌هایی که به صورت رشته‌ای از کاراکترها هستند مورد

بررسی قرار گرفته و حدود کلمات و فاصله میان آنها مشخص می‌گردد. درمرحله تعدیل کلمات مزاحم، بزرگ نویسی، نقطه‌گذاری و مواردی از این دست مدیریت می‌شود. کلمات مزاحم در نمایه‌سازی کلماتی هستند که بار معنایی خاصی ندارند و تنها برای ایجاد پیوستگی و ارتباط در جمله‌ها به کار می‌روند. بعد از این مرحله از الگوریتمی جهت تولید ریشه‌ها و مفاهیم استفاده می‌شود.

معنا محوری

درحال حاضر اغلب موتورهای کاوش رویکردی مکانیکی دارند و به مفاهیم، الگوها و کلیدهایی که به فهم مفاهیم می‌انجامد توجهی ندارند . دراین ابزارها، جست‌و‌جوی واقعی صرفابر مبنای کلیدواژه‌هاست. استفاده از فهرست مترادفها و بهره گیری از جست وجوی فازی از راهبردهای مطرح شده جهت رفع مشکلات جست وجوی کلید‌واژه ای است. روشی که دراینجا مطرح است بهره‌گیری از نمایه‌سازی معنایی پنهان جهت بهبود مانعیت، جامعیت و رتبه بندی نتایج کاوش است .نمایه‌سازی معنایی پنهان به کاربران این اجازه را می‌دهد که جست‌وجوی خود را به مفاهیم و نه فقط کلید‌واژه ها محدود کنند. درزمینه نمایه‌سازی خودکار در وب حرکت‌های جاری به سمت بهره‌گیری از داده‌های ساختار یافته و تحقق وب معنایی است، اما این حرکت‌ها به طورکامل به انجام نرسیده است و هنوز مشکلات حل نشده فراوانی در این مسیر وجوددارد. بی‌گمان کتابداران و اطلاع رسانان به عنوان متولیان سازماندهی دانش بشر، می‌توانند دراین زمینه نقش موثری ایفا کنند. بدیهی است در این راستا کتابدار باید خودرا به دانش و فناوریهای نوین اطلاعاتی مجهز نماید تا بتواند وظیفه نمایه‌سازی و ذخیره‌سازی اطلاعات را انجام دهد.

بازنمود نمایه در وب

نهایتا بحث نمایش نمایه اطلاعات الکترونیکی مطرح می‌شود. نمایه وب به سه صورت نمایش داده می‌شود:

  1. نمایش تیتر حرف
  2. جعبه فورم
  3. نمایش سنتی
automatic indexing
automatic indexing

نمایش تیتر حرف

در این روش یک یا دو ردیف حروف الفبای فارسی یا انگلیسی در صفحه وب نمایش داده می‌شود.هر حرف یک ابر پیوند می‌باشد که با کلیک بر روی آن به فهرستی که مدخلهای آن با همان حرف آغاز شده‌اند دسترسی پیدا می‌کنیم هریک از این مدخلها خود یک ابر پیوند هستند و ما را به منبع اصلی اطلاعات متصل می‌کند.

گاهی این نوع از نمایش توسعه بیشتری پیدا کرده است. بدین صورت که از طریق کلیک بر روی یک ابر پیوند حرف به ابرپیوندهای دو حرفی از همان حرف می‌رسیم که با کلیک بر روی ابر پیوند مورد نظر به لیستی از مدخلها می‌رسیم و می‌توانیم موضوع مورد نظر را انتخاب و به متن اصلی برسیم مثالی از این مورد در سایت دایره المعارف بریتانیکا مشهود می‌باشد

 نمایش جعبه فورم

جعبه فورم کل مدخل‌های نمایه را در‌بر‌‌می‌گیرد. واحد اصلی نمایه مدخل می‌باشد. از آنجا که تمام مدل‌های نمایه در یک ستون از صفحه نمایش کامپیوتر قرار نمی‌گیرد، برای رسیدن به مدخل مورد نظر باید مدخل‌ها را طومار‌نمایی کرد. با لغزاندن و کشاندن ماوس بر مربع‌های کوچک حاشیه فورم، مدخل‌های نمایه را بالا و پایین برد تا بالاخره، مدخل مورد نظر به گستره دید فورم برسد. در این صورت با کلیک کردن بر روی مدخل مورد نظر، صفحۀ متناظر متن بر کنار مستطیل فورم نمایان می‌گردد. جعبه فرم ممکن است از یک فهرست تک سطحی، یا یک فهرست سلسله مراتبی چند سطحی تشکیل شده باشد. منظور از فهرست چند سطحی که معمولا در کنار متن نمایش داده می‌شود مدخل‌هایی است که با کلیک بر روی آنها زیر مدخل سطح بعدی نمایان می‌شود و مانند یک‌‌‌ ‌‌ساختار درختی عمل می‌کند. 

نمایش سنتی

این نوع نمایش مانند نمایۀ کتاب است. در این نوع نمایش می‌توان از ابر‌پیوندها استفاده کرد. در شیوه سنتی در محیط الکترونیکی، نمایه، ‌‍«دقیقا» همانند کتاب، به صورت دو ستونه و صفحه به صفحه و با سر صفحه و غیره نمایش داده می‌شود: خواه با ابر پیوند خواه بدون آن. در این شیوه، نمایه، عینا مانند نمایه کتاب، در انتهای صفحه های کتاب قرار داده می‌شود. اما در مواردی، نمایه الکترونیکی شبیه نمایه سنتی است، ولی جلوی هر مدخل آن، عدد ۱ آمده است. یعنی ظاهرا کاب یا متن الکترونیکی شامل یک صفحه است! در این حالت، کاربر باید ماوس را بر روی عدد «۱» قرار دهد و کلیک کند، تا متن متناظر آورده شود.

برای مطالعه بیشتر لطفا به کتاب نمایه سازی ماشینی مراجعه فرمایید

کتاب نمایه سازی ماشینی

گردآورنده : شهرزاد نیاکان

Loading


دیدگاه‌ها

2 پاسخ به “نمایه‌سازی وب web indexing”

  1. Thanks so much for the post.Really thank you! Keep writing.

    1. Thank you so much for your time and consideration.
      good luck.
      Shahrzad

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *