نمایه سازی ماشینی Automatic Indexing

مفاهیم پایه درباره نمایه سازی

مفاهیم پایه نمایه سازی
مفاهیم پایه نمایه سازی

تعریف نمایه سازی(indexing)

فرایند ساخت نمایه را نمایه سازی گویند.

هدف اصلی نمایه سازی

بازیابی منابع منتشر شده در قالبی که وارد کردن در نوعی از پایگاه داده مناسب باشد.

تعریف نمایه (index)

مجموعه شناسه های الفبایی شده یا تظام یافته که کاربران را به جایگاه اطلاعات در مدرک هدایت می کند.

تعریف مدرک

هر اثری که از محتوای آن بتوان اطلاعات بدست آورد.

بنابراین نمایه سازی تحلیل محتوای مدرک و واژه گزینی (انتخاب کلید واژه ها) است.

تعریف کلید واژه ها (keyword)

شناســاگـرهـایی که کاربر را به جایگاه اطلاعات هدایت می کنند. مثل نمایه انتهای کتاب

نکته: کلید واژه ها کلمات کلیدی در مدرک هستند بنابراین کلید واژه ها نماینده ی محتوای مدرک هستند همچنین کلید واژه ها متمایز کننده مدارک از هم هستند.

بنابراین نمایه (index) لیست کلید واژه ها بهمراه آدرس آنها (جایگاه اصلی در مدرک) است.

منظور از آدرس یا جایگاه اطلاعات موارد زیر است:

شماره صفحه ←در نمایه انتهای کتاب

 شماره رکورد← در بانک اطلاعاتی(فیلد موضوع)

آدرس الکترونیکی سایت ← در موتور جستجو (مثل Google) در صفحات وبی بازیابی شده موجود در لیست نتایج جستجوی کاربر

نکته: نظم و توالی اطلاعات در نمایه از نظم و توالی اطلاعات در مدرک پیروی نمی کنند.

ضرورت استفاده از کلیدواژگان

کلیدواژه در بازیابی اطلاعات کمک میکند تا بازیابی بهتر, مرتبط تر و سریع تری داشته باشیم؛ چرا که کاربر قبل از آنکه متن اصلی را مشاهده کند میتواند از طریق مشاهده کلیدواژگان مرتبط با هر مدرک (که نماینده محتوای هر مدرک هستند) تصمیم بگیرد که آیا مدرک اصلی را مطالعه کند یا نه.

کلید واژه ( keyword ) لغات داخل متن است.
توصیفگرها: اصطلاحات نمایه ای (Descriptor)  اصطلاحات تحصصی موجود در اصطلاحنامه (تزاروس)

نمایه سازی
نمایه سازی

نحوه انتخاب توصیفگر

۱-توسط کامپیوتر: نمایه سازی ماشینی(خودکار) ۲-توسط انسان: نمایه سازی دستی ۳-به کمک کامپیوتر: نمایه سازی به کمک کامپیوتر

چگونه می توان از یک سیستم خبره برای نمایه سازی استفاده کرد؟

این سیستم رایانه ای می تواند به افراد غیرمتخصص کمک نماید تا همانند یک نمایه ساز حرفه ای نمایه سازی کنند. سیستمهایی که اصطلاحاتی را به نمایه سازان پیشنهاد کرده یا بعضی از خطاهای آنان را اصلاح میکنند را میتوان حداقل به عنوان سیستمهایی کمی خبره در نظر گرفت.

مزیت نمایه سازی دستی: استفاده از نیروی تعقل و تصمیم گیری انسان

مزیت نمایه سازی کامپیوتری: یکپارچگی(یکدستی)، کمتر سلیقه ای است

تاریخچه نمایه سازی
تاریخچه نمایه سازی

تاریخچه نمایه سازی

  • نمایه های اولیه: اسامی اشخاص یا ترتیب آمدن کلمات در متن مثل کشف اللغات
  • نمایه  برای طومار پاپیروس (کاغذ کوچک همراه طومار) شامل لیست مطالب داخل طومار
  • اختراع چاپ در نتیجه تولید کتاب که منجر به تولید نوعی   نمایه با نام: آستر بدرقه (حاوی موضوعات مهم کتاب)
    • مثل: برای فهرست الفبایی قوانین مورد نیاز برای وکیل ها و لیست ارجاعات برای کتب مقدس
  • نشریات ادواری و مجلات تخصصی قرن ۱۹: نمایه مشترک برای شماره های متعدد و نشریات گوناگون (نمایه به شکل امروزی)

مراحل اصلی در هر نمایه سازی

۱-کنترل اصطلاحات تخصصی 

۲-تعیین توصیفگرها

۳-هماهنگی و تناسب توصیفگرها

مراحل نمایه سازی موضوعی

  1. تحلیل مفهومی: تشخیص مفاهیم (تشخیص کلماتی که مفهوم نویسنده را در بردارند) (استنباط نمایه ساز از موضوعات قابل نمایه)
  2. ترجمه: تبدیل مفاهیم (کلمات مهم متن) به اصطلاحات نمایه ای (کلید واژه ها و اصطلاحات داخل اصطلاحنامه)

مراحل انجام پروژه نمایه سازی

  1. یافتن کلیدواژه ها (وازگان کلیدی در متن)
  2. اولویت بندی کلیدواژه ها بر اساس میزان اهمیت آنها در متن
  3. تطبیق کلید واژه ها با استانداردها شامل:
    • اصطلاحنامه (تزاروس)
    • مستند مشاهیر و مستند اسامی سازمان ها
    • استاندارد ایزو نمایه سازی
  4. نهایی کردن کلیدواژه ها با توجه به نیاز کاربر هنگام بازیابی مدرک

اصولی که باید در هنگام انجام پروژه نمایه سازی در نظر گرفته شود

۱-تهیه لیست واژگان غیرمجاز برای نمایه سازی (stop list) مثل حروف ربط، حروف اضافه، حروف تعریف و کلمات عمومی و کلی

۲-باتوجه به سطح دانش کاربری که می خواهیم به متن مورد نظر دست پیدا کند کلیدواژه ها را انتخاب می کنیم.

۳- باید  با توجه به انتظارات ما از نحوه سرچ کاربر (استراتژی جستجو) کلید واژه ها را انتخاب کنیم.

۴- درنظر گرفتن وابستگی بعضی از قسمت های متن به کلید واژه های خاص

۵- انتخاب کلید واژه هایی که باعث تمایز متن مورد نظر از بقیه متن ها در آن مجموعه شود.

۶- با توجه به میزان اهمیت در اولویت بازیابی متن مورد نظر در نتایج جستجو، کلید واژه ها انتخاب شود.

۷- درنظر گرفتن تعداد تکرار یک کلمه در متن و جایگاه کلمه در متن

۸-استفاد از واژگانی غیر از کلمات موجود در عنوان زیرا عنوان به تنهایی قابل بازیابی است

۹- کلید واژگان در حالت اسم و به صورت جمع انتخاب شوند.

۱۰- استفاده از کلمات نویسنده متن تا حد امکان، در غیر اینصورت از واژگانی غیر از کلمات موجود در متن می توان به عنوان کلید واژه استفاده کرد.

۱۱- اسامی اشخاص، اسامی سازمانها، اسامی شرکتها و سالهای مختلف می توانند به عنوان کلید واژه استفاده شوند.

۱۲- متن و کلید واژگان می توانند به زبان فارسی و انگلیسی یا زبانهای دیگر انتخاب شوند.

مشاهده فیلم آموزشی نحوه انجام مراحل پروژه نمایه سازی

نمونه پروژه نمایه سازی

سوالات مختلف که نمایه ساز باید درباره یک مدرک از خود بپرسد

  1. مدرک درباره چه موضوعی است؟

(تفاوت این مدرک با بقیه مدارک مجموعه چیست؟) یعنی در مدرک مورد نظر به چه مسائلی اشاره شده که در بقیه مدارک موجود نیست؟

  • چرا این مدرک به مجموعه اضافه شده؟
  • وجه اشتراک این مدرک با بقیه مدارک مجموعه چیست؟ (یعنی در مدرک مورد نظر به چه مسائلی اشاره شده که در بقیه مدارک هم موجود است؟)
  • مخاطبین به چه جنبه هایی از مدرک علاقه مندند؟

دو نکته مهم درباره نمایه سازها باید در نظر داشته باشیم

  1. چه کسانی نمایه سازی می کنند (با چه ویژگیها و سطح دانش و تسلط درباره نمایه سازی و درباره متنی که نمایه سازی می شود)
  2. از چه اصول وسیاستهایی برای نمایه سازی استفاده می کنند(باید طبق استاندارد ایزو و آیین نامه نمایه سازی درهر سازمان نمایه سازی انجام شود

دو ویژگی نمایه که بر عملکرد آن تاثیر می گذارد

  1. جامع نگری: همه عناوین موجود در بانک اطلاعاتی درنظر گرفته شود (نظرات همه کاربران در نظر گرفته شود)
  2. جزء نگری: از اصطلاحات بصورت اخص استفاده شود و از لغاتی استفاده شوند که خاص آن مدرک هستند

مثال : اگر در متن لغت شکست وجود دارد از آنجا که انواع مختلف شکست وجود دارد مانند شکست نور، شکست عاطفی و شکست مالی و …. برای همین نباید کلیدواژه را به صورت خیلی کلی انتخاب کنیم باید نوع شکست تعیین شود تا بازیابی درست انجام شود.

انواع نمایه سازی بر اساس نحوه انتخاب کلیدواژگان

  1. استخراجی: کلید واژه ها از متن استخراج می شوند (استفاده از زبان آزاد (در نمایه سازی ماشینی از واژه شکن استفاده می شود)
  2. تخصیصی: کلید واژه ها از خــارج از متــن انتخاب می شوند و به متن تخصیص داده می شوند (استفاده از زبان مقید (ساختگی،قراردادی)

تعریف نظام های نمایه سازی یا زبان نمایه سازی

  • زبان ساختگی و قراردادی است که برای مقاصد نمایه سازی به ویژه بازیابی اطلاعات و مدرک استفاده می شود
  • بطور کلی زبان نمایه سازی استانداردی را مهیا می کند که هم نمایه ساز و هم جستجوگر می توانند از آن استفاده کنند
  • زبان نمایه سازی مجموعه ای از روش های از پیش تعیین شده برای سازماندهی ، بازیابی و اشاعه اطلاعات است

انواع زبانها و نظامهای نمایه سازی ماشینی

  1. مقید(ساختگی و قراردادی): استفاده از اصطلاحنامه
  2. آزاد: زبان طبیعی : کلمات نویسنده (کلمات موجود در متن)

مفاهیم مربوط به اصطلاحنامه (Thesaurus)

مفاهیم مربوط به اصطلاحنامه (Thesaurus)
مفاهیم مربوط به اصطلاحنامه (Thesaurus)

تعریف اصطلاحنامه (Thesaurus)

  • اصطلاحنامه (گنجواژه) شامل واژگان کنترل‌شده و پویای زمینه‌ای خاص از دانش بشری است
  • اصطلاحنامه مجموعه اصطلاحات یک رشته است که میان آنها روابط معنایی، رده‌ای، و سلسله مراتبی برقرار شده و توانایی آن را دارد که موضوع آن رشته را با همه جنبه‌های اصلی و فرعی و وابسته، به‌گونه‌ای نظام‌یافته و به‌منظور ذخیره و بازیابی  اطلاعات ارائه دهد .

وظیفه و کارکرد اصطلاحنامه :

  • ابزار  کنترل واژه‌ها به‌منظور برگرداندن زبان طبیعی مدارک به زبان مقید است
  • برای ذخیره و بازیابی اطلاعات یک حوزه از علم به‌کار می‌رود
  • اصطلاحنامه هم در هنگام ذخیره سازی و هم بازیابی استفاده می شود
  • در هنگام ذخیره سازی در نمایه سازی ماشینی پس از آنکه اصطلاحنامه به بانک اطلاعاتی لینک شد پس از مقایسه، کلمات مشترک بین آنها بعنوان کلید واژه انتخاب می شود
  • برای بازیابی اطلاعات ، اصطلاحنامه به بانک اطلاعاتی لینک می شود و کاربر پس از انتخاب یک اصطلاح خاص از اصطلاحنامه ، درخواست جستجوی آن اصطلاح را در پایگاه اطلاعات را می دهد (جست وجوی هدایت شونده).

ضرورت استفاده از اصطلاحنامه

برای نمایه سازی دقیقا نمی دانیم که تعدادی از لغت های متن برای آنکه تبدیل به کلید واژه شوند مناسب هستند یا خیر چون نمی دانیم آیا واقعا با این کلمات کاربری که متخصص موضوعی است جستجو می کند تا متن مورد نظر بازیابی شود یا نه چون متخصص موضوعی نیستیم بنابراین به کتابی مراجعه میکنیم که حاوی لغات استاندارد و تخصصی مناسب و مربوط به ان موضوع باشد به این کتاب تزاروس میگویند. تزاروس جمع تزاری است. مانند فرهنگ لغت است اما فرق ان با فرهنگ لغت این است که در این کتاب ها لغت ها را به هم ارتباط داده شده است و دسته بندی شده و لغت ها به صورت سلسله مراتبی مرتب شده و مترادف و زیر مجموعه قرار داده شده است و به ما کمک میکند که هر لغتی را در مجموعه ای از لغت ها ببینیم.

اصطلاحنامه واسطه ای است بین متن و نمایه ساز و متخصص موضوعی (متخصص هر علم  اعم از نویسنده متن و کاربر و طراح اصطلاحنامه)

محتوای هر اصطلاحنامه: حاوی لغات تخصصی مربوط به یک علم خاص است.

روشهای کنترل واژگان در اصطلاحنامه

  1. کنترل مترادفها
    • (مثل تکنولوژی         
      • ب ک فناوری)
  2. فرق گذاشتن بین کلمات هم نگاشت
    • شیر (حیوان)   
    • شیر (لبنیات)
  3. ایجاد ارتباط بین کلماتی که معنای آنها نزدیک به هم هستند    

اهداف اصطلاحنامه :

الف) نمایاندن ساختار زمینه معینی از دانش چنان‌که هم نمایه‌ساز و هم جست‌وجوگر بتوانند از گستره آن زمینه و ارتباط میان مفاهیم آن با اندیشه‌های مرتبط آگاهی یابند (ایجاد ارتباط بین نمایه ساز و کاربر متخصص موضوعی

ب) ارائه اصطلاحات استاندارد در زمینه‌ای معیّن.

 ج) برقراری نظام ارجاعات میان اصطلاحات و رده‌بندی اصطلاحات به‌صورت سلسله مراتبی

 د) تأکید بر توجه به  نیازهای اطلاعاتی استفاده‌کنندگان  

 ه) تعیین اصطلاحات مجاز و مشخص کردن حدود معانی اصطلاحات به‌منظور ایجاد هماهنگی در نمایه‌سازی

تفاوت اصطلاحنامه و واژه نامه

واژه نامه: نظم الفبایی دارد و اصطلاحات ، مجرد و خنثی هستند.

اصطلاحنامه: نظم الفبایی-رده ای دارد و ارتباط بین کلمات و روابط معنایی بین آنها برقرار می کند

انواع ارتباط بین اصطلاحات در اصطلاحنامه

  1. هم ارزی :Equivalence Relation 
  2. سلسله مراتبی (اعم،اخص،ار): Hierarchical Relation  
  3. رابطه همبسته یا همانید(وابسته) (ار): Associative Relation

انواع رابطه سلسله مراتبی

  • رابطه جنس و نوع Generic  

            نشخوارکنندگان

                  اخ   بز

                  اخ   گوسفند

  • رابطه کل و جزء Whole – part

بـدن

                            اخ   دست

  • رابطه مصداقی  Instance Relation

کـوه

                           اخ  دماوند

مجموعه علائم در اصطلاحنامه

-اع اصطلاح اعم Broader TERM: اصطلاح عام تر و کلی تر نسبت به واژه اصلی

-ار:اصطلاح راس Top Term : اصطلاح سر مقوله یه سری اصطلاحات

-اخ:اصطلاخ اخص Narrower Term به معنی خاص تر و زیر مجموعه.

-او:اصطلاح وابسته Related Term  و یک ارتباط معنایی با واژه اصلی وجود دارد.

-ب ج: used for به کار برید به جای

-ب ک USE : به کار ببرید

-ی د یادداشت دامنه scope note : توضیح درباره یک اصطلاح و اصطلاحی است برای اشاره به یادداشت دامنه.

مشاهده ویدیوی آموزشی روش استفاده از اصطلاحنامه ایرانداک

تعریف عامل بندی(Factoring)

به معنی تفکیک اجزای یک توصیفگر به عناصر متشکله خودش است

مثال: تاریخ  فلسفه : که در اینجا تاریخ یک مقوله و فلسفه مقوله دیگری است

مثال دیگر: موتور هواپیما :  که هر کدام مقوله جداگانه و متفاوتی است

نکته: عده ای قائل به عامل بندی هستند یعنی عناصر لغات را جدا کنند و در مقوله خود بیاورند  ولی عملا برای بعضی کلمات میسر نیست مثل آبله مرغان

کاربردهای نمایه سازی

انواع روشهای هوشمند پردازش متن (کامپیوتر را طوری برنامه ریزی کنیم که متن را بفهمد یعنی بتواند بدون ابهام تفسیر کند.)

  1. مقوله بندی متن: طبقه بندی مدارک متنی
  2. استخراج متن: شناسایی و بیرون کشیدن بخشهایی از متن با موضوع مشترک مثل تهیه خلاصه اخبار
  3. ارتباط متن: برای تعیین شباهتهای بین عبارات متن مثلا برای تهیه پیوندهای ابرمتن (hyperlink)
  4. اضافه متن: ادغام بخشهای مختلف از متنهای مختلف مثل ردگیری اخبار وقایع مثل بلایای طبیعی
  5. تلخیص متن:چکیده نویسی خودکار
  6. تولید متن: تهیه گزارشات مثل تهیه مستندات تولیدات صنعتی

نکته: معیار ارزیابی یک پایگاه اطلاعات کتابشناختی توانایی آن در پاسخگویی به نیازهای اطلاعاتی است

معیارهای ارزیابی یک پایگاه اطلاعاتی در رابطه با یک نیاز اطلاعاتی خاص

۱-دامنه پوشش (در یک دوره زمانی معین) 

۲-قابلیت بازیابی

۳-پیش بینی پذیری  (قضاوت بهره گیر چقدر می تواند درباره مناسب یا نامناسب بودن مدارک) ۴-به موقع بودن (حاوی منابع تازه انتشار یافته)

معیارهای ارزیابی نمایه ها

  • بسندگی (که تعداد زیادی از ویژگی ها از جمله دامنه پوشش، خصوصیات واژگان مورد استفاده در نمایه سازی و عوامل نمایه ای مانند جامع نگری و انسجام را در بر می گیرد)
  • شمول (که اصولا به تنوع کاوش هایی که می توان انجام داد اشاره دارد)
  • کارپژوهی (سهولت استفاده)
  • روزآمدی (میزان روزآمد بودن یک ابزار )
  • هزینه

نحوه استفاده از زمان کاوش مورد انتظار به عنوان یکی از ابزارها برای سنجش هزینه

  • در نظر گرفتن همه هزینه های یک جستجو از جمله زمان کاوشگر و هزینه های دسترسی به پایگاه
  • نسبت جامعیت و مانعیت

نکته: می توان هزینه کاوش را بر تعداد مدارک بازیابی شده مرتبط (یا مفید یا جدید یا مناسب) تقسیم کرد.

پرداخت هزینه برای ارجاعات بازیابی شده مرتبط، ابزاری مناسب برای اندازه گیری صرفه اقتصادی یک کاوش است.

در تعیین میزان موفقیت یا عدم موفقیت جستجو در یک پایگاه اطلاعاتی از چه مقیاسهای ساده ای میتوان استفاده کرد؟

جامعیت و مانعیت یعنی بازیابی شده و بازیابی نشده

روشهای ایجاد نوعی همگونی و هماهنگی در یک پایگاه اطلاعاتی: جامعیت و مانعیت

تعریف جامعیت : بازیابی همه مدارک و عناوین مفید  (مرتیط با کلمات جستجو شده)

تعریف مانعیت : توانایی پرهیز از بازیابی مدارک غیر مفید (نامرتیط با کلمات جستجو شده که ریزش کاذب نامیده می شود)

تعریف Relevance (مفهوم ربط) :یعنی اطلاعاتی که در نمایه است تا چه حد با نیازهای کاربر همخوانی دارد.

نکته: میزان ربط را کاربر تعیین می  کند.

عوامل احتمالی که بر انسجام نمایه سازی تاثیر میگذارند

  • تعداد اصطلاحات اختصاص یافته
  • واژگان کنترل شده در برابر نمایه سازی آزاد
  • اندازه و میزان جزء نگری واژگان
  • ویژگیهای محتوای موضوعی و اصطلاح شناسی آن
  • عوامل مربوط به نمایهساز
  • ابزارهایی که نمایهساز در اختیار دارد
  • حجم مدرکی که باید نمایه شود

کارایی یک نمایه به عنوان یک ابزار جستجو، به چه مواردی وابسته است؟

  1. تعداد نقاط دسترسی فرآهم آمده
  2. جزءنگری واژگان مورد استفاده در نمایه
  3. کیفیت و انسجام نمایه سازی و دامنه ای که در آن ابزار مورد استفاده برای کاوشگر (مثلاً از طریق برقراری ارتباط بین اصطلاحات مرتبط معنایی) کمک مثبتی فرآهم میآورد

انواع نمایه و نمایه سازی

تعریف همارایی

  • ترکیب عناصر تشکیل‌ دهنده موضوعِ مورد جستجو .
  • ترکیب اجزای تشکیل دهنده یک مفهوم .
  • در این نظام، واژه های نمایه غالبا از ترکیب دو موضوع یا بیشتر جهت توصیف موضوعهای خاص بدست می آید.

تعریف نمایه سازی پس همارا

یک نظام بازیابی اطلاعات که به کاوشگر امکان میدهد تا به هر طریق ممکن، اصطلاحات را با هم ترکیب کند را یک نظام پس همارا مینامند (پس ترکیب ، اصطلاح دیگری است که مورد استفاده قرار گرفته است)

مانند کتابشناسی تاریخ اصفهان

تعریف نمایه سازی پیش همارا

بین دو یا چند جزء به طور تصنعی و ساختگی، پیوند برقرار می کنیم ( ایجاد نحو )    مانند اصفهان- تاریخ- کتابشناسی

تفاوت نمایه سازی پیش همارا و پس همارا

در نمایه سازی پس همارا، ترکیب یا همارایی عناصر تشکیل‌دهنده موضوع مورد جستجو در هنگام بازیابی و توسط کاربر انجام می شود.

در نمایه سازی پیش همارا، ترکیب یا همارایی عناصر تشکیل‌دهنده موضوع مورد جستجو در هنگام نمایه سازی و هنگام ذخیره سازی صورت می‌گیرد.

ویژگیهای سیستمهای پس همارا

  1. در هنگام جستجو میتوان اصطلاحات را به هر روشی ترکیب کرد.
  2. چند بُعدی بودن ارتباط بین اصطلاحات حفظ میشود.
  3. همه اصطلاحات اختصاص یافته به مدرک وزن یکسانی دارند یعنی اهمیت هیچیک بیشتر از دیگری نیست.

انواع نمایه هایی که اساس کار آنها گردش کلید واژه های عنوان است

نمایه سازی کوئیک و کووک و جایگشتی

انواع نمایه هایی که در آنها کلید واژه های عنوان به صورت نقطه بازیابی در نظر گرفته می شود : نمایه های کوئیک و کووک و جایگشتی

نکته: در نمایه سازی جایگشتی کلید واژه های عنوان به صورت دو تایی انتخاب می شوند        

انواع نمایه انتهای کتاب

۱-نمایه ساده  

۲-نمایه درون بافتی

۳-نمایه برون بافتی

نکته: نمایه درون بافتی بیشتر به حوزه علوم انسانی تعلق دارد

نکته: نمایه برون بافتی بیشتر به حوزه های علوم وفنون مرتبط است و بیشتربرای اصطلاحنامه بکار می رود

شناسه(heading):به همه مجموعه نمابه سر جمع شناسه گفته می شود.

عناصر تشکیل دهنده هر شناسه در نمایه های درون بافتی و برون بافتی

  • مدخل(entry):کلیت ورود یک کلمه یا نماد به شناسه را گویند.عنصر اصلی یک ترکیب است= کانون اصلی واژه ای که به عنوان نمایه بکار می رود.
  • بیانگر(modifier):نقش محدود کننده دامنه معنای مدخل را دارد.تعیین کننده نوع یا چگونگی کانون است.
  • جاینما (locator):محل منابع را نشان می دهد.
  • ارجاع ( Reference):   برای ارجاع اصطلاح غیر مرجح به مرجح . گاهی به جای نما ارجاع نیز گفته می شود

انواع نمایه ها بر حسب روش تنظیم    

۱-الفبایی

 ۲-زمانی

۳-رده ای یا موضوعی

۴-تکاملی

انواع نمایه های رده ای

  • مدخلها زیر شماره های رده ای بسیار خاصی ارائه میشوند که از یک طرح رده بندی عمومی یا خاص استخراج شده اند.
  • مدخلها زیر طبقات موضوعی نسبتاً عام دسته بندی میشوند و با استفاده از نمایه ها امکان دسترسی به موضوعات خاصتر فراهم میآید.

نمایه استنادی

تعریف نمایه استنادی

  • نمایه استنادی شامل فهرستی از مقالات و یک فهرست فرعی تحت هر یک از مقالات منتشر شده است که به  آن مقالات استناد کرده اند.
  • در مورد یک مقاله خاص، نمایه استنادی مشخص می کند که این مقاله توسط چه مقالات دیگری که بعد از آن نوشته شده اند ، مورد استناد قرار گرفته اند.

نکته: مؤسسه اطلاعات علمی (آی اس آی) نمایه استنادی تولید می کند

کاربرد نمایه استنادی

کاربرد آن یافتن مدارک جدیدی است که به آن مدرک استناد کرده اند یعنی ابزارهای جستجوی کاملاً قدرتمندی بدل شوند.

  1. از طریق ارجاع کتابشناختی یک مدرک مورد علاقه یعنی براساس عنوانهای مدارک مورد استناد می توان کلید واژه های بیشتری را به خاطر آورد که ممکن است برای انجام کاوش مناسب باشند
  2. از طریق کلید واژه انجام شود به این صورت که کلید واژه ها میتوانند ما را به سایر کلید واژه های مناسب راهنمایی کنند

مزیت های اصلی نمایه استنادی

  • ارجاع استفاده کننده به جدیدترین مقالات
  • اغلب موتورهای کاوش حاضر از روش نمایه سازی بر مبنای کلیدواژه‌های متن بر مبنای کلیدواژه‌های متن استفاده می‌کنند

نمایه‌سازی در اینترنت

مراحل فرایند نمایه‌سازی در موتورهای کاوش

  • شکستن کلمات . در مرحلۀ شکستن کلمات، داده‌هایی که به صورت رشته‌ای از کاراکترها هستند مورد بررسی قرار گرفته و حدود کلمات و فاصله میان آنها مشخص می‌گردد.
  • تعدیل و حذف کلمات غیرموضوعی. درمرحله تعدیل کلمات مزاحم، بزرگ نویسی، نقطه‌گذاری و مواردی از این دست مدیریت می‌شود. کلمات مزاحم در نمایه‌سازی کلماتی هستند که بار معنایی خاصی ندارند و تنها برای ایجاد پیوستگی و ارتباط در جمله‌ها به کار می‌روند.
  • استفاده از الگوریتم ریشه‌ساز جهت تولید ریشه‌های مفاهیم. در  این مرحله از الگوریتمی جهت تولید ریشه‌ها و مفاهیم استفاده می‌شود.

تعریف محتوا محوری : نمایه سازی برمبنای کلیدواژه‌های متن که اغلب موتورهای کاوش حاضر از این روش  استفاده می‌کنند

تعریف معنا محوری : اغلب موتورهای کاوش رویکردی مکانیکی دارند و دراین ابزارها، جست‌و‌جوی واقعی صرفا بر مبنای کلیدواژه‌هاست و به مفاهیم، الگوها و کلیدهایی که به فهم مفاهیم می‌انجامد توجهی ندارند.

فرایندهایی که جهت رفع مشکلات جستجوی کلید‌واژه ای استفاده می شوند

از فهرست مترادفها و بهره گیری از جست وجوی فازی از راهبردهای مطرح شده

وب پنهان :   Invisible web

اطلاعاتی که در وب تولید می شود ولی بازیابی نمی شود وب پنهان نامیده می شود

نکته: بهره‌گیری از روش نمایه سازی معنایی پنهان جهت بهبود مانعیت، جامعیت و رتبه بندی نتایج کاوش مناسب است

نمایه‌سازی معنایی پنهان چگونه به کاربران کمک می کند؟

نمایه‌سازی معنایی پنهان به کاربران این اجازه را می‌دهد که جست‌وجوی خود را به مفاهیم و نه فقط کلید‌واژه ها محدود کنند.

بخشهای مختلف موتورهای کاوش و نحوه مرورگری در اینترنت

اسپایدر (spider)، اینترنت را برای اسناد جدید وب مورد جستجو قرار می‌دهد و آدرسهای آنها و اطلاعات مربوط به محتوا را در بانک اطلاعاتی قرار می‌دهد که با موتور جستجو می‌توان آن را در دسترسی قرار داد. کار اسپایدر بازبینی کدهای HTML صفحات وب می‌باشد در حالی که کاربران وب نتیجه حاصل از کنار هم قرار گرفتن این کدها را می‌بینند.

کراولر(crawler)، نرم‌افزاری است که به عنوان یک فرمانده برای اسپایدر عمل می‌کند و مشخص می‌کند که اسپایدر کدام صفحات را مورد بازدید قرار دهد. در واقع کراولر تصمیم می‌گیرد که کدام یک از لینک های صفحه‌ای که اسپایدر در حال حاضر در آن قرار دارد، دنبال شود. کراولر، ممکن است قبلا” برنامه‌ریزی شده باشد که آدرس های خاصی را طبق برنامه، در اختیار اسپایدر قرار دهد تا از آنها دیدن کند. دنبال کردن لینک‌های یک صفحه به این بستگی دارد که موتور جستجوگر چه حجمی از اطلاعات یک سایت را می‌تواند در پایگاه داده‌هایش ذخیره کند و همچنین ممکن است اجازه دسترسی به بعضی از صفحات به موتورهای جستجوگر داده نشده باشد. تنظیم میزان دسترسی موتورهای جستجوگر به محتوای یک سایت توسط پروتکل Robots انجام می‌شود.

سپس اطلاعات جمع‌آوری شده توسط اسپایدر در اختیار ایندکسر قرار می‌گیرد.

در ایندکسر(Indexer) اطلاعات ارسالی مورد تجزیه و تحلیل قرار می‌گیرند و به بخش‌های متفاوتی تقسیم می‌شوند. تجزیه و تحلیل بدین معنی است که مشخص می‌شود اطلاعات از کدام صفحه ارسال شده است، چه حجمی دارد، کلمات موجود در آن کدام است، چندبار تکرار شده است، در کجای صفحه قرار دارند و … . در حقیقت ایندکسر، صفحه را به پارامترهای آن خرد می‌کند و تمام این پارامترها را به یک مقیاس عددی تبدیل می‌کند تا سیستم رتبه بندی بتواند پارامترهای صفحات مختلف را با هم مقایسه کند. در زمان تجزیه و تحلیل اطلاعات، ایندکسر برای کاهش حجم داده‌ها از بعضی کلمات که بسیار رایج هستند صرفنظر می‌کند. کلماتی نظیر a، an، the، www، is و … . از این گونه کلمات هستند.

آنگاه داده‌های تجزیه و تحلیل شده در ایندکسر، به پایگاه داده ارسال می‌گردد.

در پایگاه داده (Database)، داده‌ها گروه بندی، کدگذاری، در صورت لزوم فشرده و ذخیره می‌شوند. یک موتور جستجوگر باید پایگاده دادۀ عظیمی داشته باشد و به طور مداوم حجم محتوای آن را گسترش دهد و البته اطلاعات قدیمی را هم به‌روز‌رسانی نماید.

بزرگی و به‌روز بودن پایگاه داده یک موتور جستجوگر برای آن امتیاز محسوب می‌گردد.

سرانجام  در هنگام جستجو نرم‌افزار کاوش به کاربر این امکان را می‌دهد که از میان همۀ صفحات موجود در نمایه، آنچه را مورد جستجو است، یافته و بر اساس میزان تناسب و ارتباط آن با درخواست، واژه یا عبارت مورد نظر را رتبه‌بندی می‌کند. بخشی از این نرم‌افزار به نام Ranker کار رتبه بندی اطلاعات بازیافتی را انجام می‌دهد.

تفاوت‌های اصلی موتورهای جستجوگر

حجم پایگاه داده آنها و همچنین روش ذخیره‌سازی داده‌ها در پایگاه داده

نکته: در موتورهای کاوش رابط بین کاربر و اطلاعات نمایه شده در بخش نرم‌افزار کاوش است

دو ویژگی مهم برای رتبه بندی نتایج جستجو که معمولا در نظر گرفته می شود

۱-محل درج کلید واژه 

۲-تعداد تکرار (بسامد)

توضیح: زمانی که میخواهیم برای کتابی کلیدواژه تعیین کنیم به خلاصه ی کتاب نگاه میکنیم. از لغتهای موجود در عنوان بهتر است به صورت کلیدواژه استفاده نشود چون ممکن است عنوان، استعاره باشد برای جذب خواننده. در ضمن عنوان خودش به تنهایی بازیابی می شود و نیازی نیست از وازگان عنوان استفاده کرد ما وااز لغتهای موجود در خلاصه، عکس ها، جداول ، نمودارها، نتیجه، فهرست مطالب، فهرست منابع و… میتوانیم استفاده کنیم.

همچنین بهتر است از لغاتی در متن به صورت کلیدواژه استفاده می کنیم که به بین ۳ الی۷ بار تکرار شده باشد لغاتی که بین یک الی سه بار تکرار شده باشد به عنوان کلید واژه انتخاب نمیشود چون خیلی کلی است. لغاتی که یش از ۷ بار تکرار شده باشد نیز انتخاب نمی شود چون به دلیل تکرار بیش از حد نمی تواند متمایز کننده متن مورد نظر از متون مشابه خودش باشد پس بهتر است به صورت کامات کلیدی از آن استفاده نشود.

روش‌های مختلف نمایه‌سازی ماشینی در وب

۱-روش نمایه انتهای کتاب در وب 

۲-شاخه‌های موضوعی (Directory)

روش نمایه انتهای کتاب در وب

در چنین سایت‌هایی نمایه‌ای شبیه آنچه در انتهای کتاب‌ها دیده می‌شود به وجود آید، مراجعه‌کننده می‌تواند به سرعت و با استفاده از لیست به مدخل مورد نظر خود وارد شود و با سرعت بالا و از دست دادن زمان کمتری به مدارک مورد نیاز خود وحتی به مدارک مرتبط با آن نیز دسترسی یابد.

شاخه‌های موضوعی در وب (Directory)

بعضی از ابزارهای جستجوی وب سعی در مرور سایت‌ها توسط افراد متخصص کرده و پس از تحلیل محتوی سایت، کلیدواژه مناسب را انتخاب و آن را در محل موضوعی، براساس لیست موضوعی ویژه خود قرار می‌دهند و در واقع یک راهنمای موضوعی را برای استفاده‌کننده فراهم می‌آورند. این در واقع به آن معناست است که در زمانی که موتور کاوش به طور معمول برای هدایت فرد به سایت، تمام صفحات آن سایت را نمایه کرده است، ولی از سوی دیگر یک راهنمای موضوعی بسیار شبیه یک پیوند به صفحه خانگی آن سایت تلقی می‌گردد. سایت Open Directory و Looksmart  دو نمونه بارز از این نوع سایت‌ها می‌باشند.

مشاهده کتاب نمایه سازی ماشینی

گردآورنده : شهرزاد نیاکان

Loading


دیدگاه‌ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *