مفاهیم پایه درباره نمایه سازی
تعریف نمایه سازی(indexing)
فرایند ساخت نمایه را نمایه سازی گویند.
هدف اصلی نمایه سازی
بازیابی منابع منتشر شده در قالبی که وارد کردن در نوعی از پایگاه داده مناسب باشد.
تعریف نمایه (index)
مجموعه شناسه های الفبایی شده یا تظام یافته که کاربران را به جایگاه اطلاعات در مدرک هدایت می کند.
تعریف مدرک
هر اثری که از محتوای آن بتوان اطلاعات بدست آورد.
بنابراین نمایه سازی تحلیل محتوای مدرک و واژه گزینی (انتخاب کلید واژه ها) است.
تعریف کلید واژه ها (keyword)
شناســاگـرهـایی که کاربر را به جایگاه اطلاعات هدایت می کنند. مثل نمایه انتهای کتاب
نکته: کلید واژه ها کلمات کلیدی در مدرک هستند بنابراین کلید واژه ها نماینده ی محتوای مدرک هستند همچنین کلید واژه ها متمایز کننده مدارک از هم هستند.
بنابراین نمایه (index) لیست کلید واژه ها بهمراه آدرس آنها (جایگاه اصلی در مدرک) است.
منظور از آدرس یا جایگاه اطلاعات موارد زیر است:
شماره صفحه ←در نمایه انتهای کتاب
شماره رکورد← در بانک اطلاعاتی(فیلد موضوع)
آدرس الکترونیکی سایت ← در موتور جستجو (مثل Google) در صفحات وبی بازیابی شده موجود در لیست نتایج جستجوی کاربر
نکته: نظم و توالی اطلاعات در نمایه از نظم و توالی اطلاعات در مدرک پیروی نمی کنند.
ضرورت استفاده از کلیدواژگان
کلیدواژه در بازیابی اطلاعات کمک میکند تا بازیابی بهتر, مرتبط تر و سریع تری داشته باشیم؛ چرا که کاربر قبل از آنکه متن اصلی را مشاهده کند میتواند از طریق مشاهده کلیدواژگان مرتبط با هر مدرک (که نماینده محتوای هر مدرک هستند) تصمیم بگیرد که آیا مدرک اصلی را مطالعه کند یا نه.
کلید واژه ( keyword ) لغات داخل متن است.
توصیفگرها: اصطلاحات نمایه ای (Descriptor) اصطلاحات تحصصی موجود در اصطلاحنامه (تزاروس)
نحوه انتخاب توصیفگر
۱-توسط کامپیوتر: نمایه سازی ماشینی(خودکار) ۲-توسط انسان: نمایه سازی دستی ۳-به کمک کامپیوتر: نمایه سازی به کمک کامپیوتر
چگونه می توان از یک سیستم خبره برای نمایه سازی استفاده کرد؟
این سیستم رایانه ای می تواند به افراد غیرمتخصص کمک نماید تا همانند یک نمایه ساز حرفه ای نمایه سازی کنند. سیستمهایی که اصطلاحاتی را به نمایه سازان پیشنهاد کرده یا بعضی از خطاهای آنان را اصلاح میکنند را میتوان حداقل به عنوان سیستمهایی کمی خبره در نظر گرفت.
مزیت نمایه سازی دستی: استفاده از نیروی تعقل و تصمیم گیری انسان
مزیت نمایه سازی کامپیوتری: یکپارچگی(یکدستی)، کمتر سلیقه ای است
تاریخچه نمایه سازی
- نمایه های اولیه: اسامی اشخاص یا ترتیب آمدن کلمات در متن مثل کشف اللغات
- نمایه برای طومار پاپیروس (کاغذ کوچک همراه طومار) شامل لیست مطالب داخل طومار
- اختراع چاپ در نتیجه تولید کتاب که منجر به تولید نوعی نمایه با نام: آستر بدرقه (حاوی موضوعات مهم کتاب)
- مثل: برای فهرست الفبایی قوانین مورد نیاز برای وکیل ها و لیست ارجاعات برای کتب مقدس
- نشریات ادواری و مجلات تخصصی قرن ۱۹: نمایه مشترک برای شماره های متعدد و نشریات گوناگون (نمایه به شکل امروزی)
مراحل اصلی در هر نمایه سازی
۱-کنترل اصطلاحات تخصصی
۲-تعیین توصیفگرها
۳-هماهنگی و تناسب توصیفگرها
مراحل نمایه سازی موضوعی
- تحلیل مفهومی: تشخیص مفاهیم (تشخیص کلماتی که مفهوم نویسنده را در بردارند) (استنباط نمایه ساز از موضوعات قابل نمایه)
- ترجمه: تبدیل مفاهیم (کلمات مهم متن) به اصطلاحات نمایه ای (کلید واژه ها و اصطلاحات داخل اصطلاحنامه)
مراحل انجام پروژه نمایه سازی
- یافتن کلیدواژه ها (وازگان کلیدی در متن)
- اولویت بندی کلیدواژه ها بر اساس میزان اهمیت آنها در متن
- تطبیق کلید واژه ها با استانداردها شامل:
- اصطلاحنامه (تزاروس)
- مستند مشاهیر و مستند اسامی سازمان ها
- استاندارد ایزو نمایه سازی
- نهایی کردن کلیدواژه ها با توجه به نیاز کاربر هنگام بازیابی مدرک
اصولی که باید در هنگام انجام پروژه نمایه سازی در نظر گرفته شود
۱-تهیه لیست واژگان غیرمجاز برای نمایه سازی (stop list) مثل حروف ربط، حروف اضافه، حروف تعریف و کلمات عمومی و کلی
۲-باتوجه به سطح دانش کاربری که می خواهیم به متن مورد نظر دست پیدا کند کلیدواژه ها را انتخاب می کنیم.
۳- باید با توجه به انتظارات ما از نحوه سرچ کاربر (استراتژی جستجو) کلید واژه ها را انتخاب کنیم.
۴- درنظر گرفتن وابستگی بعضی از قسمت های متن به کلید واژه های خاص
۵- انتخاب کلید واژه هایی که باعث تمایز متن مورد نظر از بقیه متن ها در آن مجموعه شود.
۶- با توجه به میزان اهمیت در اولویت بازیابی متن مورد نظر در نتایج جستجو، کلید واژه ها انتخاب شود.
۷- درنظر گرفتن تعداد تکرار یک کلمه در متن و جایگاه کلمه در متن
۸-استفاد از واژگانی غیر از کلمات موجود در عنوان زیرا عنوان به تنهایی قابل بازیابی است
۹- کلید واژگان در حالت اسم و به صورت جمع انتخاب شوند.
۱۰- استفاده از کلمات نویسنده متن تا حد امکان، در غیر اینصورت از واژگانی غیر از کلمات موجود در متن می توان به عنوان کلید واژه استفاده کرد.
۱۱- اسامی اشخاص، اسامی سازمانها، اسامی شرکتها و سالهای مختلف می توانند به عنوان کلید واژه استفاده شوند.
۱۲- متن و کلید واژگان می توانند به زبان فارسی و انگلیسی یا زبانهای دیگر انتخاب شوند.
مشاهده فیلم آموزشی نحوه انجام مراحل پروژه نمایه سازی
نمونه پروژه نمایه سازی
سوالات مختلف که نمایه ساز باید درباره یک مدرک از خود بپرسد
- مدرک درباره چه موضوعی است؟
(تفاوت این مدرک با بقیه مدارک مجموعه چیست؟) یعنی در مدرک مورد نظر به چه مسائلی اشاره شده که در بقیه مدارک موجود نیست؟
- چرا این مدرک به مجموعه اضافه شده؟
- وجه اشتراک این مدرک با بقیه مدارک مجموعه چیست؟ (یعنی در مدرک مورد نظر به چه مسائلی اشاره شده که در بقیه مدارک هم موجود است؟)
- مخاطبین به چه جنبه هایی از مدرک علاقه مندند؟
دو نکته مهم درباره نمایه سازها باید در نظر داشته باشیم
- چه کسانی نمایه سازی می کنند (با چه ویژگیها و سطح دانش و تسلط درباره نمایه سازی و درباره متنی که نمایه سازی می شود)
- از چه اصول وسیاستهایی برای نمایه سازی استفاده می کنند(باید طبق استاندارد ایزو و آیین نامه نمایه سازی درهر سازمان نمایه سازی انجام شود
دو ویژگی نمایه که بر عملکرد آن تاثیر می گذارد
- جامع نگری: همه عناوین موجود در بانک اطلاعاتی درنظر گرفته شود (نظرات همه کاربران در نظر گرفته شود)
- جزء نگری: از اصطلاحات بصورت اخص استفاده شود و از لغاتی استفاده شوند که خاص آن مدرک هستند
مثال : اگر در متن لغت شکست وجود دارد از آنجا که انواع مختلف شکست وجود دارد مانند شکست نور، شکست عاطفی و شکست مالی و …. برای همین نباید کلیدواژه را به صورت خیلی کلی انتخاب کنیم باید نوع شکست تعیین شود تا بازیابی درست انجام شود.
انواع نمایه سازی بر اساس نحوه انتخاب کلیدواژگان
- استخراجی: کلید واژه ها از متن استخراج می شوند (استفاده از زبان آزاد (در نمایه سازی ماشینی از واژه شکن استفاده می شود)
- تخصیصی: کلید واژه ها از خــارج از متــن انتخاب می شوند و به متن تخصیص داده می شوند (استفاده از زبان مقید (ساختگی،قراردادی)
تعریف نظام های نمایه سازی یا زبان نمایه سازی
- زبان ساختگی و قراردادی است که برای مقاصد نمایه سازی به ویژه بازیابی اطلاعات و مدرک استفاده می شود
- بطور کلی زبان نمایه سازی استانداردی را مهیا می کند که هم نمایه ساز و هم جستجوگر می توانند از آن استفاده کنند
- زبان نمایه سازی مجموعه ای از روش های از پیش تعیین شده برای سازماندهی ، بازیابی و اشاعه اطلاعات است
انواع زبانها و نظامهای نمایه سازی ماشینی
- مقید(ساختگی و قراردادی): استفاده از اصطلاحنامه
- آزاد: زبان طبیعی : کلمات نویسنده (کلمات موجود در متن)
مفاهیم مربوط به اصطلاحنامه (Thesaurus)
تعریف اصطلاحنامه (Thesaurus)
- اصطلاحنامه (گنجواژه) شامل واژگان کنترلشده و پویای زمینهای خاص از دانش بشری است
- اصطلاحنامه مجموعه اصطلاحات یک رشته است که میان آنها روابط معنایی، ردهای، و سلسله مراتبی برقرار شده و توانایی آن را دارد که موضوع آن رشته را با همه جنبههای اصلی و فرعی و وابسته، بهگونهای نظامیافته و بهمنظور ذخیره و بازیابی اطلاعات ارائه دهد .
وظیفه و کارکرد اصطلاحنامه :
- ابزار کنترل واژهها بهمنظور برگرداندن زبان طبیعی مدارک به زبان مقید است
- برای ذخیره و بازیابی اطلاعات یک حوزه از علم بهکار میرود
- اصطلاحنامه هم در هنگام ذخیره سازی و هم بازیابی استفاده می شود
- در هنگام ذخیره سازی در نمایه سازی ماشینی پس از آنکه اصطلاحنامه به بانک اطلاعاتی لینک شد پس از مقایسه، کلمات مشترک بین آنها بعنوان کلید واژه انتخاب می شود
- برای بازیابی اطلاعات ، اصطلاحنامه به بانک اطلاعاتی لینک می شود و کاربر پس از انتخاب یک اصطلاح خاص از اصطلاحنامه ، درخواست جستجوی آن اصطلاح را در پایگاه اطلاعات را می دهد (جست وجوی هدایت شونده).
ضرورت استفاده از اصطلاحنامه
برای نمایه سازی دقیقا نمی دانیم که تعدادی از لغت های متن برای آنکه تبدیل به کلید واژه شوند مناسب هستند یا خیر چون نمی دانیم آیا واقعا با این کلمات کاربری که متخصص موضوعی است جستجو می کند تا متن مورد نظر بازیابی شود یا نه چون متخصص موضوعی نیستیم بنابراین به کتابی مراجعه میکنیم که حاوی لغات استاندارد و تخصصی مناسب و مربوط به ان موضوع باشد به این کتاب تزاروس میگویند. تزاروس جمع تزاری است. مانند فرهنگ لغت است اما فرق ان با فرهنگ لغت این است که در این کتاب ها لغت ها را به هم ارتباط داده شده است و دسته بندی شده و لغت ها به صورت سلسله مراتبی مرتب شده و مترادف و زیر مجموعه قرار داده شده است و به ما کمک میکند که هر لغتی را در مجموعه ای از لغت ها ببینیم.
اصطلاحنامه واسطه ای است بین متن و نمایه ساز و متخصص موضوعی (متخصص هر علم اعم از نویسنده متن و کاربر و طراح اصطلاحنامه)
محتوای هر اصطلاحنامه: حاوی لغات تخصصی مربوط به یک علم خاص است.
روشهای کنترل واژگان در اصطلاحنامه
- کنترل مترادفها
- (مثل تکنولوژی
- ب ک فناوری)
- (مثل تکنولوژی
- فرق گذاشتن بین کلمات هم نگاشت
- شیر (حیوان)
- شیر (لبنیات)
- ایجاد ارتباط بین کلماتی که معنای آنها نزدیک به هم هستند
اهداف اصطلاحنامه :
الف) نمایاندن ساختار زمینه معینی از دانش چنانکه هم نمایهساز و هم جستوجوگر بتوانند از گستره آن زمینه و ارتباط میان مفاهیم آن با اندیشههای مرتبط آگاهی یابند (ایجاد ارتباط بین نمایه ساز و کاربر متخصص موضوعی
ب) ارائه اصطلاحات استاندارد در زمینهای معیّن.
ج) برقراری نظام ارجاعات میان اصطلاحات و ردهبندی اصطلاحات بهصورت سلسله مراتبی
د) تأکید بر توجه به نیازهای اطلاعاتی استفادهکنندگان
ه) تعیین اصطلاحات مجاز و مشخص کردن حدود معانی اصطلاحات بهمنظور ایجاد هماهنگی در نمایهسازی
تفاوت اصطلاحنامه و واژه نامه
واژه نامه: نظم الفبایی دارد و اصطلاحات ، مجرد و خنثی هستند.
اصطلاحنامه: نظم الفبایی-رده ای دارد و ارتباط بین کلمات و روابط معنایی بین آنها برقرار می کند
انواع ارتباط بین اصطلاحات در اصطلاحنامه
- هم ارزی :Equivalence Relation
- سلسله مراتبی (اعم،اخص،ار): Hierarchical Relation
- رابطه همبسته یا همانید(وابسته) (ار): Associative Relation
انواع رابطه سلسله مراتبی
- رابطه جنس و نوع Generic
نشخوارکنندگان
اخ بز
اخ گوسفند
- رابطه کل و جزء Whole – part
بـدن
اخ دست
- رابطه مصداقی Instance Relation
کـوه
اخ دماوند
مجموعه علائم در اصطلاحنامه
-اع اصطلاح اعم Broader TERM: اصطلاح عام تر و کلی تر نسبت به واژه اصلی
-ار:اصطلاح راس Top Term : اصطلاح سر مقوله یه سری اصطلاحات
-اخ:اصطلاخ اخص Narrower Term به معنی خاص تر و زیر مجموعه.
-او:اصطلاح وابسته Related Term و یک ارتباط معنایی با واژه اصلی وجود دارد.
-ب ج: used for به کار برید به جای
-ب ک USE : به کار ببرید
-ی د یادداشت دامنه scope note : توضیح درباره یک اصطلاح و اصطلاحی است برای اشاره به یادداشت دامنه.
مشاهده ویدیوی آموزشی روش استفاده از اصطلاحنامه ایرانداک
تعریف عامل بندی(Factoring)
به معنی تفکیک اجزای یک توصیفگر به عناصر متشکله خودش است
مثال: تاریخ فلسفه : که در اینجا تاریخ یک مقوله و فلسفه مقوله دیگری است
مثال دیگر: موتور هواپیما : که هر کدام مقوله جداگانه و متفاوتی است
نکته: عده ای قائل به عامل بندی هستند یعنی عناصر لغات را جدا کنند و در مقوله خود بیاورند ولی عملا برای بعضی کلمات میسر نیست مثل آبله مرغان
کاربردهای نمایه سازی
انواع روشهای هوشمند پردازش متن (کامپیوتر را طوری برنامه ریزی کنیم که متن را بفهمد یعنی بتواند بدون ابهام تفسیر کند.)
- مقوله بندی متن: طبقه بندی مدارک متنی
- استخراج متن: شناسایی و بیرون کشیدن بخشهایی از متن با موضوع مشترک مثل تهیه خلاصه اخبار
- ارتباط متن: برای تعیین شباهتهای بین عبارات متن مثلا برای تهیه پیوندهای ابرمتن (hyperlink)
- اضافه متن: ادغام بخشهای مختلف از متنهای مختلف مثل ردگیری اخبار وقایع مثل بلایای طبیعی
- تلخیص متن:چکیده نویسی خودکار
- تولید متن: تهیه گزارشات مثل تهیه مستندات تولیدات صنعتی
نکته: معیار ارزیابی یک پایگاه اطلاعات کتابشناختی توانایی آن در پاسخگویی به نیازهای اطلاعاتی است
معیارهای ارزیابی یک پایگاه اطلاعاتی در رابطه با یک نیاز اطلاعاتی خاص
۱-دامنه پوشش (در یک دوره زمانی معین)
۲-قابلیت بازیابی
۳-پیش بینی پذیری (قضاوت بهره گیر چقدر می تواند درباره مناسب یا نامناسب بودن مدارک) ۴-به موقع بودن (حاوی منابع تازه انتشار یافته)
معیارهای ارزیابی نمایه ها
- بسندگی (که تعداد زیادی از ویژگی ها از جمله دامنه پوشش، خصوصیات واژگان مورد استفاده در نمایه سازی و عوامل نمایه ای مانند جامع نگری و انسجام را در بر می گیرد)
- شمول (که اصولا به تنوع کاوش هایی که می توان انجام داد اشاره دارد)
- کارپژوهی (سهولت استفاده)
- روزآمدی (میزان روزآمد بودن یک ابزار )
- هزینه
نحوه استفاده از زمان کاوش مورد انتظار به عنوان یکی از ابزارها برای سنجش هزینه
- در نظر گرفتن همه هزینه های یک جستجو از جمله زمان کاوشگر و هزینه های دسترسی به پایگاه
- نسبت جامعیت و مانعیت
نکته: می توان هزینه کاوش را بر تعداد مدارک بازیابی شده مرتبط (یا مفید یا جدید یا مناسب) تقسیم کرد.
پرداخت هزینه برای ارجاعات بازیابی شده مرتبط، ابزاری مناسب برای اندازه گیری صرفه اقتصادی یک کاوش است.
در تعیین میزان موفقیت یا عدم موفقیت جستجو در یک پایگاه اطلاعاتی از چه مقیاسهای ساده ای میتوان استفاده کرد؟
جامعیت و مانعیت یعنی بازیابی شده و بازیابی نشده
روشهای ایجاد نوعی همگونی و هماهنگی در یک پایگاه اطلاعاتی: جامعیت و مانعیت
تعریف جامعیت : بازیابی همه مدارک و عناوین مفید (مرتیط با کلمات جستجو شده)
تعریف مانعیت : توانایی پرهیز از بازیابی مدارک غیر مفید (نامرتیط با کلمات جستجو شده که ریزش کاذب نامیده می شود)
تعریف Relevance (مفهوم ربط) :یعنی اطلاعاتی که در نمایه است تا چه حد با نیازهای کاربر همخوانی دارد.
نکته: میزان ربط را کاربر تعیین می کند.
عوامل احتمالی که بر انسجام نمایه سازی تاثیر میگذارند
- تعداد اصطلاحات اختصاص یافته
- واژگان کنترل شده در برابر نمایه سازی آزاد
- اندازه و میزان جزء نگری واژگان
- ویژگیهای محتوای موضوعی و اصطلاح شناسی آن
- عوامل مربوط به نمایهساز
- ابزارهایی که نمایهساز در اختیار دارد
- حجم مدرکی که باید نمایه شود
کارایی یک نمایه به عنوان یک ابزار جستجو، به چه مواردی وابسته است؟
- تعداد نقاط دسترسی فرآهم آمده
- جزءنگری واژگان مورد استفاده در نمایه
- کیفیت و انسجام نمایه سازی و دامنه ای که در آن ابزار مورد استفاده برای کاوشگر (مثلاً از طریق برقراری ارتباط بین اصطلاحات مرتبط معنایی) کمک مثبتی فرآهم میآورد
انواع نمایه و نمایه سازی
تعریف همارایی
- ترکیب عناصر تشکیل دهنده موضوعِ مورد جستجو .
- ترکیب اجزای تشکیل دهنده یک مفهوم .
- در این نظام، واژه های نمایه غالبا از ترکیب دو موضوع یا بیشتر جهت توصیف موضوعهای خاص بدست می آید.
تعریف نمایه سازی پس همارا
یک نظام بازیابی اطلاعات که به کاوشگر امکان میدهد تا به هر طریق ممکن، اصطلاحات را با هم ترکیب کند را یک نظام پس همارا مینامند (پس ترکیب ، اصطلاح دیگری است که مورد استفاده قرار گرفته است)
مانند کتابشناسی تاریخ اصفهان
تعریف نمایه سازی پیش همارا
بین دو یا چند جزء به طور تصنعی و ساختگی، پیوند برقرار می کنیم ( ایجاد نحو ) مانند اصفهان- تاریخ- کتابشناسی
تفاوت نمایه سازی پیش همارا و پس همارا
در نمایه سازی پس همارا، ترکیب یا همارایی عناصر تشکیلدهنده موضوع مورد جستجو در هنگام بازیابی و توسط کاربر انجام می شود.
در نمایه سازی پیش همارا، ترکیب یا همارایی عناصر تشکیلدهنده موضوع مورد جستجو در هنگام نمایه سازی و هنگام ذخیره سازی صورت میگیرد.
ویژگیهای سیستمهای پس همارا
- در هنگام جستجو میتوان اصطلاحات را به هر روشی ترکیب کرد.
- چند بُعدی بودن ارتباط بین اصطلاحات حفظ میشود.
- همه اصطلاحات اختصاص یافته به مدرک وزن یکسانی دارند یعنی اهمیت هیچیک بیشتر از دیگری نیست.
انواع نمایه هایی که اساس کار آنها گردش کلید واژه های عنوان است
نمایه سازی کوئیک و کووک و جایگشتی
انواع نمایه هایی که در آنها کلید واژه های عنوان به صورت نقطه بازیابی در نظر گرفته می شود : نمایه های کوئیک و کووک و جایگشتی
نکته: در نمایه سازی جایگشتی کلید واژه های عنوان به صورت دو تایی انتخاب می شوند
انواع نمایه انتهای کتاب
۱-نمایه ساده
۲-نمایه درون بافتی
۳-نمایه برون بافتی
نکته: نمایه درون بافتی بیشتر به حوزه علوم انسانی تعلق دارد
نکته: نمایه برون بافتی بیشتر به حوزه های علوم وفنون مرتبط است و بیشتربرای اصطلاحنامه بکار می رود
شناسه(heading):به همه مجموعه نمابه سر جمع شناسه گفته می شود.
عناصر تشکیل دهنده هر شناسه در نمایه های درون بافتی و برون بافتی
- مدخل(entry):کلیت ورود یک کلمه یا نماد به شناسه را گویند.عنصر اصلی یک ترکیب است= کانون اصلی واژه ای که به عنوان نمایه بکار می رود.
- بیانگر(modifier):نقش محدود کننده دامنه معنای مدخل را دارد.تعیین کننده نوع یا چگونگی کانون است.
- جاینما (locator):محل منابع را نشان می دهد.
- ارجاع ( Reference): برای ارجاع اصطلاح غیر مرجح به مرجح . گاهی به جای نما ارجاع نیز گفته می شود
انواع نمایه ها بر حسب روش تنظیم
۱-الفبایی
۲-زمانی
۳-رده ای یا موضوعی
۴-تکاملی
انواع نمایه های رده ای
- مدخلها زیر شماره های رده ای بسیار خاصی ارائه میشوند که از یک طرح رده بندی عمومی یا خاص استخراج شده اند.
- مدخلها زیر طبقات موضوعی نسبتاً عام دسته بندی میشوند و با استفاده از نمایه ها امکان دسترسی به موضوعات خاصتر فراهم میآید.
نمایه استنادی
تعریف نمایه استنادی
- نمایه استنادی شامل فهرستی از مقالات و یک فهرست فرعی تحت هر یک از مقالات منتشر شده است که به آن مقالات استناد کرده اند.
- در مورد یک مقاله خاص، نمایه استنادی مشخص می کند که این مقاله توسط چه مقالات دیگری که بعد از آن نوشته شده اند ، مورد استناد قرار گرفته اند.
نکته: مؤسسه اطلاعات علمی (آی اس آی) نمایه استنادی تولید می کند
کاربرد نمایه استنادی
کاربرد آن یافتن مدارک جدیدی است که به آن مدرک استناد کرده اند یعنی ابزارهای جستجوی کاملاً قدرتمندی بدل شوند.
- از طریق ارجاع کتابشناختی یک مدرک مورد علاقه یعنی براساس عنوانهای مدارک مورد استناد می توان کلید واژه های بیشتری را به خاطر آورد که ممکن است برای انجام کاوش مناسب باشند
- از طریق کلید واژه انجام شود به این صورت که کلید واژه ها میتوانند ما را به سایر کلید واژه های مناسب راهنمایی کنند
مزیت های اصلی نمایه استنادی
- ارجاع استفاده کننده به جدیدترین مقالات
- اغلب موتورهای کاوش حاضر از روش نمایه سازی بر مبنای کلیدواژههای متن بر مبنای کلیدواژههای متن استفاده میکنند
نمایهسازی در اینترنت
مراحل فرایند نمایهسازی در موتورهای کاوش
- شکستن کلمات . در مرحلۀ شکستن کلمات، دادههایی که به صورت رشتهای از کاراکترها هستند مورد بررسی قرار گرفته و حدود کلمات و فاصله میان آنها مشخص میگردد.
- تعدیل و حذف کلمات غیرموضوعی. درمرحله تعدیل کلمات مزاحم، بزرگ نویسی، نقطهگذاری و مواردی از این دست مدیریت میشود. کلمات مزاحم در نمایهسازی کلماتی هستند که بار معنایی خاصی ندارند و تنها برای ایجاد پیوستگی و ارتباط در جملهها به کار میروند.
- استفاده از الگوریتم ریشهساز جهت تولید ریشههای مفاهیم. در این مرحله از الگوریتمی جهت تولید ریشهها و مفاهیم استفاده میشود.
تعریف محتوا محوری : نمایه سازی برمبنای کلیدواژههای متن که اغلب موتورهای کاوش حاضر از این روش استفاده میکنند
تعریف معنا محوری : اغلب موتورهای کاوش رویکردی مکانیکی دارند و دراین ابزارها، جستوجوی واقعی صرفا بر مبنای کلیدواژههاست و به مفاهیم، الگوها و کلیدهایی که به فهم مفاهیم میانجامد توجهی ندارند.
فرایندهایی که جهت رفع مشکلات جستجوی کلیدواژه ای استفاده می شوند
از فهرست مترادفها و بهره گیری از جست وجوی فازی از راهبردهای مطرح شده
وب پنهان : Invisible web
اطلاعاتی که در وب تولید می شود ولی بازیابی نمی شود وب پنهان نامیده می شود
نکته: بهرهگیری از روش نمایه سازی معنایی پنهان جهت بهبود مانعیت، جامعیت و رتبه بندی نتایج کاوش مناسب است
نمایهسازی معنایی پنهان چگونه به کاربران کمک می کند؟
نمایهسازی معنایی پنهان به کاربران این اجازه را میدهد که جستوجوی خود را به مفاهیم و نه فقط کلیدواژه ها محدود کنند.
بخشهای مختلف موتورهای کاوش و نحوه مرورگری در اینترنت
اسپایدر (spider)، اینترنت را برای اسناد جدید وب مورد جستجو قرار میدهد و آدرسهای آنها و اطلاعات مربوط به محتوا را در بانک اطلاعاتی قرار میدهد که با موتور جستجو میتوان آن را در دسترسی قرار داد. کار اسپایدر بازبینی کدهای HTML صفحات وب میباشد در حالی که کاربران وب نتیجه حاصل از کنار هم قرار گرفتن این کدها را میبینند.
کراولر(crawler)، نرمافزاری است که به عنوان یک فرمانده برای اسپایدر عمل میکند و مشخص میکند که اسپایدر کدام صفحات را مورد بازدید قرار دهد. در واقع کراولر تصمیم میگیرد که کدام یک از لینک های صفحهای که اسپایدر در حال حاضر در آن قرار دارد، دنبال شود. کراولر، ممکن است قبلا” برنامهریزی شده باشد که آدرس های خاصی را طبق برنامه، در اختیار اسپایدر قرار دهد تا از آنها دیدن کند. دنبال کردن لینکهای یک صفحه به این بستگی دارد که موتور جستجوگر چه حجمی از اطلاعات یک سایت را میتواند در پایگاه دادههایش ذخیره کند و همچنین ممکن است اجازه دسترسی به بعضی از صفحات به موتورهای جستجوگر داده نشده باشد. تنظیم میزان دسترسی موتورهای جستجوگر به محتوای یک سایت توسط پروتکل Robots انجام میشود.
سپس اطلاعات جمعآوری شده توسط اسپایدر در اختیار ایندکسر قرار میگیرد.
در ایندکسر(Indexer) اطلاعات ارسالی مورد تجزیه و تحلیل قرار میگیرند و به بخشهای متفاوتی تقسیم میشوند. تجزیه و تحلیل بدین معنی است که مشخص میشود اطلاعات از کدام صفحه ارسال شده است، چه حجمی دارد، کلمات موجود در آن کدام است، چندبار تکرار شده است، در کجای صفحه قرار دارند و … . در حقیقت ایندکسر، صفحه را به پارامترهای آن خرد میکند و تمام این پارامترها را به یک مقیاس عددی تبدیل میکند تا سیستم رتبه بندی بتواند پارامترهای صفحات مختلف را با هم مقایسه کند. در زمان تجزیه و تحلیل اطلاعات، ایندکسر برای کاهش حجم دادهها از بعضی کلمات که بسیار رایج هستند صرفنظر میکند. کلماتی نظیر a، an، the، www، is و … . از این گونه کلمات هستند.
آنگاه دادههای تجزیه و تحلیل شده در ایندکسر، به پایگاه داده ارسال میگردد.
در پایگاه داده (Database)، دادهها گروه بندی، کدگذاری، در صورت لزوم فشرده و ذخیره میشوند. یک موتور جستجوگر باید پایگاده دادۀ عظیمی داشته باشد و به طور مداوم حجم محتوای آن را گسترش دهد و البته اطلاعات قدیمی را هم بهروزرسانی نماید.
بزرگی و بهروز بودن پایگاه داده یک موتور جستجوگر برای آن امتیاز محسوب میگردد.
سرانجام در هنگام جستجو نرمافزار کاوش به کاربر این امکان را میدهد که از میان همۀ صفحات موجود در نمایه، آنچه را مورد جستجو است، یافته و بر اساس میزان تناسب و ارتباط آن با درخواست، واژه یا عبارت مورد نظر را رتبهبندی میکند. بخشی از این نرمافزار به نام Ranker کار رتبه بندی اطلاعات بازیافتی را انجام میدهد.
تفاوتهای اصلی موتورهای جستجوگر
حجم پایگاه داده آنها و همچنین روش ذخیرهسازی دادهها در پایگاه داده
نکته: در موتورهای کاوش رابط بین کاربر و اطلاعات نمایه شده در بخش نرمافزار کاوش است
دو ویژگی مهم برای رتبه بندی نتایج جستجو که معمولا در نظر گرفته می شود
۱-محل درج کلید واژه
۲-تعداد تکرار (بسامد)
توضیح: زمانی که میخواهیم برای کتابی کلیدواژه تعیین کنیم به خلاصه ی کتاب نگاه میکنیم. از لغتهای موجود در عنوان بهتر است به صورت کلیدواژه استفاده نشود چون ممکن است عنوان، استعاره باشد برای جذب خواننده. در ضمن عنوان خودش به تنهایی بازیابی می شود و نیازی نیست از وازگان عنوان استفاده کرد ما وااز لغتهای موجود در خلاصه، عکس ها، جداول ، نمودارها، نتیجه، فهرست مطالب، فهرست منابع و… میتوانیم استفاده کنیم.
همچنین بهتر است از لغاتی در متن به صورت کلیدواژه استفاده می کنیم که به بین ۳ الی۷ بار تکرار شده باشد لغاتی که بین یک الی سه بار تکرار شده باشد به عنوان کلید واژه انتخاب نمیشود چون خیلی کلی است. لغاتی که یش از ۷ بار تکرار شده باشد نیز انتخاب نمی شود چون به دلیل تکرار بیش از حد نمی تواند متمایز کننده متن مورد نظر از متون مشابه خودش باشد پس بهتر است به صورت کامات کلیدی از آن استفاده نشود.
روشهای مختلف نمایهسازی ماشینی در وب
۱-روش نمایه انتهای کتاب در وب
۲-شاخههای موضوعی (Directory)
روش نمایه انتهای کتاب در وب
در چنین سایتهایی نمایهای شبیه آنچه در انتهای کتابها دیده میشود به وجود آید، مراجعهکننده میتواند به سرعت و با استفاده از لیست به مدخل مورد نظر خود وارد شود و با سرعت بالا و از دست دادن زمان کمتری به مدارک مورد نیاز خود وحتی به مدارک مرتبط با آن نیز دسترسی یابد.
شاخههای موضوعی در وب (Directory)
بعضی از ابزارهای جستجوی وب سعی در مرور سایتها توسط افراد متخصص کرده و پس از تحلیل محتوی سایت، کلیدواژه مناسب را انتخاب و آن را در محل موضوعی، براساس لیست موضوعی ویژه خود قرار میدهند و در واقع یک راهنمای موضوعی را برای استفادهکننده فراهم میآورند. این در واقع به آن معناست است که در زمانی که موتور کاوش به طور معمول برای هدایت فرد به سایت، تمام صفحات آن سایت را نمایه کرده است، ولی از سوی دیگر یک راهنمای موضوعی بسیار شبیه یک پیوند به صفحه خانگی آن سایت تلقی میگردد. سایت Open Directory و Looksmart دو نمونه بارز از این نوع سایتها میباشند.
مشاهده کتاب نمایه سازی ماشینی
گردآورنده : شهرزاد نیاکان
دیدگاهتان را بنویسید