درحال بارگذاري...
پژوهشگاه ارتباطات و فناوری اطلاعات: گزارش نهايي ابزارهاي پايه پردازش متن فارسي (مرجع گزيني), حسين نژاد، شادي
برای استفاده از امکانات سیستم، گزینه جاوا اسکریپت در مرورگر شما باید فعال باشد
جستجو
جستجو در این کتاب
ترتيب بر اساس

ارسال به دوستان

گزارش نهايي ابزارهاي پايه پردازش متن فارسي (مرجع گزيني)

حسين نژاد، شادي

  1. شماره سند:8909
  2. پدیدآور: حسين نژاد، شادي
  3. عنوان و شرح مسئولیت:گزارش نهايي ابزارهاي پايه پردازش متن فارسي (مرجع گزيني) / شادي حسين نژاد، زينب رحيمي،
  4. نشر:تهران مركز تحقيقات مخابرات ايران 1396
  5. یادداشت:مرجع‌يابي يا مرجع‌گزيني يا پيدا كردن كلمات هم‌مرجع در متن يكي از وظايف مهم در پردازش زبان طبيعي است. دو كلمه زماني هم‌مرجع هستند كه به موجوديت واحدي در متن يا جهان حقيقي ارجاع بدهند. مرجع‌گزيني را مي‌توان با روش‌هاي متفاوتي انجام داد. اين روش‌ها شامل روش‌هاي قاعده‌مند مبتني بر قوانين مكاشفه‌اي و روش‌هاي يادگيري ماشين باسپرست يا بي‌سرپرست هستند. در سال‌هاي اخير استفاده از پيكره‌هاي برچسب‌گذاري شده در اين زمينه رواج زيادي داشته است و منجر به توليد نتايج مناسبي هم شده است. در پروژه مرجع‌گزيني حاضر، يك پيكره از كلمات هم‌مرجع توليد شده است. پيكره توليدشده در بخش كلمات هم‌مرجع، شامل بيش از 840 هزار كلمه از متون خبري جديد است. و در بخش موجوديت‌هاي نامدار 600 هزار توكن دارد. پيكره با توافق بين برچسب‌گذاري بيش از 90% در قسمت موجوديت‌هاي نامدار و بيش از 80% در كلمات هم مرجع توليد شده است. همچنين اين پيكره داراي برچسب موجوديت نامدار نيز مي‌باشد. برچسب‌هاي موجوديت نامدار پيكره شامل 7 برچسب است و در بخش مرجع‌گزيني تمام گروه‌هاي اسمي، ضماير و موجوديت‌هاي نامدار برچسب‌گذاري شده‌اند. با استفاده از اين پيكره ابزار مرجع‌گزيني توليد شده است كه دقت آن برروي داده‌هاي تست در حدود 60 درصد است.
  6. یادداشت:Abstract
    Coreference resolution or finding all expressions that refer to the same entity in a text, is one of the important tasks in the processing of natural language. Two words are coreference when both refer to a single entity in the text or the real world. The coreference resolution can be done through different ways. These methods include heuristic rules based methods and supervised/unsupervised machine learning methods. In recent years, labeled corpora have been widely used in this regard and have led to the production of good results. In the current coreference resolution project, a corpus of coreference phrases has been generated that has more than a million words. It also has named entity recognition (NER) tags. Named entity labels in this corpus include 7 labels and in coreference task, all noun phrases, pronouns and named entities have been tagged. Using this corpus, a coreference tool was created using a vector space machine, with precision of about 60% on golden test data.
    Keywords: Coreference resolution, natural language processing, Persian text.
  7. موضوع:مرجع گزيني.
  8. موضوع:جويشگر بومي.
  9. شناسه افزوده:رحيمي، زينب
  10. شناسه افزوده:پژوهشگاه توسعه فناوري هاي پيشرفته خواجه نصيرالدين طوسي
15مرتبه مشاهده شده
   فهرست محتوای دیجیتالی  
   
محتواي گزارش (قابل دانلود) مشاهده دانلود
   فهرست مطالب  
   
اين منبع فهرست مطالبي ندارد