شکل ۱-۱، ارتباط میان دو عبارت اسمی را با در نظر گرفتن چند حوزه مشخص نمایش میدهد. ما این حوزهها را با توجه به مفاهیم هممرجعی و پیشایندی تفسیر خواهیم نمود. دو عبارت اسمیدر صورتی که با یکدیگر مرتبط باشند، میتوانند هم دارای ارتباط هممرجعی و هم دارای ارتباط پیشایندی باشند. مانند آنچه در مثال۴ آمده است.
مثال ۴: (علی کریمی)Ant,1 در نیمه دوم، ۲ گل به ثمر رساند. به طوری که به عنوان (محبوبترین بازیکن پرسپولیس)Ana.1 در این بازی تشویق شد.
در میان عبارتهای اسمیای که دارای چنین ارتباط دوجانبهای هستند میتوان به برخی از ضمایر و مراجع آنها نیز اشاره کرد. البته مثالهای ۵ و ۶ نشان میدهند که همه ضمایر و مراجعشان در این رابطه صادق نیستند.
مثال ۵: )هر سگیAnt( زندگی )خودشAna( را دارد.
مثال ۶: اگر (یک خانه)Ant داشتم (آن)Ana را به تو اجاره میدادم.
در مثال ۵، ارتباط میان «هر سگی» و «خودش» یک ارتباط پیشایندی از نوع «ارتباط دهنده[۵۱]» یا «باهمآیی» میباشد؛ و یا در مثال ۶، «یک خانه» در دنیای واقعی وجود خارجی ندارد. بنابراین طبق تعریفِ ارتباطِ هممرجعی، «یک خانه» نمیتواند به عنوان هممرجع برای «آن» در نظر گرفتهشود.[۷۶] همان طور که در شکل ۱-۱ مشاهده میشود، عبارتهای اسمیکه از نوع پیشایندی هستند اما ارتباط هممرجعی ندارند در حوزه پیشایندهای «ارتباطدهنده» قرار میگیرند [۸۰،۸۷] اغلب پژوهشگران این نوع پیشایند را زمانی به کار میبرند که در جفت عبارت (مقدم و تالی)، عبارت مقدم به وضوح در متن ظاهر نشده باشد و با بهره گرفتن از برخی از موجودیتهایی که قبلاً در متن اشاره شده است میتوان وجود آنها را اثبات کرد. مثال ۳، یک نمونه مناسب برای این نوع از پیشایندها میباشد. در این مثال ارتباط میان دو عبارت «درب» و «اتاق» از نوع مرونیمیک[۵۲] است به این معنا که «درب» جزئی از «اتاق» محسوب میشود.[۵۳]
( اینجا فقط تکه ای از متن پایان نامه درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )
یکی دیگر از انواع ارتباط پیشایندی، پیشایند صفر[۵۴] است. مثال ۷ نمونهای از این ارتباط را نشان میدهد.
مثال ۷: (دو جاده به سمت اصفهان)Ant میرود، (یکی اتوبانی و سریع)Gap1 و (دیگری خاکی و خطرناک)Gap2 است.
در حقیقت پیشایندهای صفر، یکی از انواع پیشایندهای کاهش یافته میباشند به این ترتیب که لزوماً به صورت عبارتهای اسمی نیستند بلکه به صورت یک شکاف در یک عبارت ظاهر میشوند.[۳۵] در مثال۷ منظور از «اتوبانی و سریع» و «خاکی و خطرناک»، دو جادهای است که به سمت اصفهان میروند. هدف از تحلیل پیشایندهای صفر، شناسایی چنین روابطی است.
یکی از حالتهای ارتباط پیشایند صفر، ضمایر صفر[۵۵] میباشد که تحلیل آن در برخی زبانها مانند ژاپنی[۹۲]، اسپانیایی[۶۲] و حتی پارسی بسیار حیاتی است. در این نوع از پیشایندها، یکی از ارکان در جفت(مقدم،تالی) حذف میشود. نمونهای از این نوع پیشایند، مثال ۶ میباشد که منظور از گوینده چنین است: «اگر من یک خانه داشتم آنرا به تو اجاره میدادم».
در نهایت دو عبارت اسمیمیتوانند تنها از نوع هممرجع خالص[۵۶]باشند. ما این ارتباط را با مثال «پرفسور زاده»، «پدر منطق فازی» و «بنیانگذار منطق فازی» تفسیر مینماییم. همان طور که میدانید هر سه عبارت مذکور به شخص«پروفسور لطفعلی عسگرزاده» اشاره دارند اما اگر عبارت اسمیاول، یعنی «پرفسور زاده» در متن عنوان نشود، باز هم میدانیم که عبارتهای اسمی «پدر منطق فازی» و «بنیانگذار منطق فازی» با یکدیگر هممرجع هستند. نمونهی دیگری از یک ارتباط هممرجعِ خالص، ارجاع انواع عبارتهای اسمیبه «باراک اوباما»، در پاراگرافها، مکالمات با حتی متون متمایز است. اغلب نمونههایی از روابط هممرجع خالص در مستندات متقاطع مشاهده میشود. با تکیه بر این مفهوم برخی از پژوهشگران مانند [۸۸] به تحلیل مرجعمشترک در متون متقاطع پرداختهاند.
نکتهی دیگر اینکه، در همه پژوهشهایی که برای شناسایی مرجع ضمیر در زبانهایی مانند انگلیسی انجام شده است، همیشه مرجع ضمیر پیش از ضمیر قرار میگیرد. اما در زبان پارسی این امکان وجود دارد که مرجع یک ضمیر پس از آن قرار گیرد. مثال ۸ ، نمونهای از زبان پارسی میباشد که این مسئله را نشان میدهد.
مثال ۸: سی.ان.ان به آمریکا و جهان چنان شوکی وارد کرد که حتی (خود)Ana,1( ترنر)Ant,1 نیز آنرا باور نمیکرد.
بطورکلی، آنچه مبرهن است برای شناسایی و بررسی هر کدام از روابط پیشایندی و یا هممرجعی، نیاز به دانشهای واژگانی و زبانشناسی در زبان مورد نظر میباشد. به طوری که هر چقدر یک رابطه هممرجعی بیشتر پیشایندی باشد به دانش زبانشناسی بیشتری نیاز دارد. در همین راستا، شکل ۱-۲، میزان ارتباط میان حوزههای گفته شده را با هر کدام از انواع دانشهای زبانشناسی و واژگانی نمایش میدهد.
شکل ۱-۲: میزان ارتباط میان حوزهها با انواع دانشهای زبانشناسی و واژگانی
۱-۲-۲.تحلیل پیشایند:
یکی از وظایف مهم پردازش زبان طبیعی است که موجب کاهش ابهام عبارتهای اسمی به کار رفته در متن میشود. به طور کلی این فرایند وابستگی و پیوند میان دو عبارت تالی و مقدم را به گونهای تشخیص میدهد که عبارت مقدم، عبارت تالی را تفسیر نماید.
۱-۲-۳.تحلیل مرجعمشترک:
با توجه به آنچه گفته شد، تحلیل مرجعمشترک، به فرایند مرتبط کردن تمام عبارتهایی گفته میشود که به یک موجودیت واحد در دنیای واقعی اشاره دارند. این عبارتهای اسمیهممرجع، با هم تشکیل یک زنجیره واحد را میدهند که شامل ضمایر صفر تا اسامیخاص خواهد بود. تمام اعضای تشکیل دهندهی این زنجیره باید از نظر تعداد، جنس و… با یکدیگر هم تراز باشند.
۱-۲-۴.تقابل تحلیل مرجعمشترک و تحلیل پیشایندی:
با توجه به آنچه تا کنون درباره دو مفهوم تحلیل مرجعمشترک و تحلیل پیشایند گفته شد، این دو وظیفه با وجود شباهت زیادی که با یکدیگر دارند، دو وظیفه مجزا محسوب میشوند. بدینترتیب که با به کارگیری فرایند تحلیل مرجعمشترک، سیستم میتواند تمام اطلاعاتی که در مورد یک موجودیت در متن وجود دارد را شناسایی نماید. از طرفی دیگر تفسیر درست پیشایندها در متون به رفع ابهامات موجود در متن میانجامد؛ لذا استفاده از این دو وظیفه با در نظر گرفتن حوزههای تشابه و اختلاف آنها به درک و استخراج اطلاعات مفید در متن کمک فراوانی خواهد نمود. در این بخش با بهره گرفتن از مثالهایی لزوم اجرای این دو فرایند را در کنار یکدیگر بررسی میکنیم.
پس از شناخت فرآیندهای تحلیل مرجعمشترک و تحلیل پیشایند و اینکه یک سیستم چه انتظاراتی را باید برآورده نماید، لازم است تا روال کار را برای اجرای هر فرایند را مشخص نماییم. استفاده از الگوریتمهای یادگیری، از پرکاربردترین روشهای ارائه شده برای شناسایی روابط مثبت و منفی در مرجعمشترک و پیشایند میباشد. به این ترتیب که الگوریتم با بهره گرفتن از برخی ویژگیها (مانند [۱۰۵]( آموزش میبیند تا روابط مثبت و منفی را پیشبینی نماید[۵۷]. البته شایان ذکر است که برخی از ویژگیها برای این دو فرایند مشترک و برخی دیگر متفاوت میباشد. به عنوان مثال ویژگی تطابق رشتهای[۵۸] از جمله مواردی است که برای تحلیل مرجعمشترک بسیار مورد توجه قرار گرفته است اما در فرایند تحلیل پیشایند کاملاً بی معنا است( دو عبارت یکسان چگونه میتوانند یکدیگر را تفسیر نمایند). به عبارت دیگر فرض بر این است که دو عبارت اسمیکه در یک متن تکرار میشوند به احتمال خیلی زیاد هممرجع هستند.
مثال ۹: دیروز دو تیم محبوب «الف» و «ب» به مصاف یکدیگر رفتند. تیم «الف»، در نیمه اول بسیار درخشید به طوری که طرفداران این تیم به پیروزی تیمشان امیدوار بودند. اما دیری نپایید که تیم «ب» روال بازی را به نفع خود تغییر داد که منجر به شادمانی طرفداران این تیم شد.
همان طور که در مثال ۹ مشاهده میشود، عبارت اسمی«طرفداران این تیم» در خطوط ۲ و ۳ عیناً تکرار شده است. بنابراین طبق ویژگی تطابق رشتهای در فرایند تحلیل مرجعمشترک این دو عبارت با یکدیگر هممرجع در نظر گرفته خواهند شد، اما واقعیت این است که این دو عبارت با یکدیگر هممرجع نیستند. به عبارتی قرار گرفتن این دو عبارت در یک زنجیره واحد یکی از خطاهای تحلیل مرجعمشترک محسوب میشود. در حالی که استفاده از فرایند تحلیل پیشایندی موجب رفع این خطا خواهد شد. این کار به این ترتیب انجام خواهد گرفت که عبارت «طرفداران این تیم» در خط ۳ با اولین و نزدیکترین مفسر خود یعنی «تیم ب»، تشکیل یک جفت تالی و مقدم را میدهند و به همین ترتیب «طرفداران این تیم» در خط ۲ با «تیم الف» جفت خواهد شد. این مثال نمونهایست که در آن دقتِ[۵۹] تحلیل پیشایندی از تحلیل مرجعمشترک پیشی میگیرد.
طبق آنچه در فرایند تحلیل پیشایندی رایج است. هنگام شناسایی مقدم برای هر عبارت تالی، حرکت از تالی به سمت عبارتهای اسمیماقبل آن انجام خواهد شد تا به این ترتیب، جفت عبارتهای (مقدم و تالی) شناسایی شوند. همان طور که پیش از این اشاره شد، فرایند تشخیص مرجع ضمیر نیز از همین رویکرد پیروی مینماید، با این تفاوت که در برخی موارد مقدم (در اینجا منظور مرجع ضمیر است) بعد از تالی قرار میگیرد (مانند مثال ۸). بنابراین حرکت الگوریتم (راست به چپ) نمیتواند به شناسائی مرجع صحیح برای ضمیر مورد نظر منجر شود. در حالی که اجرای وظیفهی تحلیل مرجعمشترک، با شناسایی عبارتهای هممرجع، تا حد زیادی این مشکل را برطرف خواهد نمود. حرکت الگوریتم در تحلیل مرجعمشترک نیز از راست به چپ خواهد بود با این تفاوت که نقطه شروع آن میتواند انتهای متن باشد، هر عبارت اسمیجدید که با عبارتهای پیش از خود هممرجع باشد به زنجیره های موجود اضافه میشود، در غیر این صورت خودش تشکیل زنجیرهای جدید را خواهد داد. در چنین حالتی فراخوانی[۶۰] و دقت در تحلیل مرجعمشترک نسبت به تحلیل پیشایندی پیشی میگیرد.
به همین ترتیب نیز راهکارهای ارائه شده برای هر کدام از این فرآیندها تا حدودی با یکدیگر متفاوت میباشد. به عنوان نمونه یک رویکرد در فرایند تحلیل پیشایندی افراز پس از آموزش الگوریتم یادگیری است که تنها به منظور افرازِ جفتهای (مقدم و تالی) صورت میگیرد. به این ترتیب که پس از ایجاد نمونههای مثبت و منفی که عموماً توسط یک ردهبند ایجاد میشوند، نزدیکترین و مناسبترین مقدم برای تالی مورد نظر مشخص میشود. در مقابل برخی پژوهشگران برای تحلیل مرجعمشترک را یک فرایند دومرحلهای در نظر میگیرند؛ در مرحلهی اول به جای استفاده از دو اصطلاح تالی و مقدم، اصطلاحاتی مانند «قابل برچسب[۶۱]» و یا «اشاره» جایگزین میشود. هر اشاره میتواند خروجی فرایند کشف و شناسایی اشاره باشد. توجیه این جایگزینی این است که ما در تحلیل مرجعمشترک به مفاهیم مفسر یا ارجاع دهنده نیاز نداریم و به جای آن اصلاحِ مستقلِ اشاره را جایگزین مینماییم. هر اشاره به عنوان یک ارجاع به هر گروه از موجودیتها در نظر گرفته میشود و میتواند یکی از انواع اسم عام، اسم خاص و حتی ضمیر (یا شبه ضمیر) باشد. همچنین سایر عبارتهای موجود در متن که برای تحلیل مرجعمشترک کاربرد ندارند، به عنوان خارج از اشاره[۶۲] در نظر گرفته میشوند. در مرحلهی دوم نیز فرایند تحلیل عبارتهای اسمیهممرجع انجام خواهد شد.
۱-۳.جمعبندی:
در این فصل، تحلیل مرجع مشترک را به طور دقیق تر مورد بررسی قرار دادیم، آنچه مشخص است این فرایند به دنبال پیدا کردن ارتباطات هممرجع در متن میباشد. در پژوهشهای انجام شده گاهی یک ارتباط هممرجع با ارتباط مشابه دیگری به نام ارتباط پیشایندی مترادف محسوب میشود. حتی گاهی ما یک ارتباط را هممرجع میپنداریم که هممرجع نیست.
از آنجائیکه ما برای انجام تحلیل مرجع مشترک در زبان پارسی نیاز به پیکرهای با برچسب گفتمان خواهیم داشت، لازم بود تا این ارتباطات را به طور دقیق بشناسیم. تا بر اساس آن بتوانیم پیکرهای با روابط صحیح ایجاد نمائیم. به علاوه این شناخت میتواند به انتخاب راهکارهای مناسب برای فرایند تحلیل مرجع مشترک نیز کمک شایانی داشته باشد و در نهایت نیز شناخت روابط و راهکارهای مناسب برای تشخیص هر کدام از انواع روابط میان عبارتهای اسمی مرتبط با هم، می تواند به ایجاد یک سیستم چند گذری، مانند آنچه لی ۲۰۱۱، بنسکو۲۰۱۲ ارائه داده اند کمک کند. [۴۱،۸۰]به این ترتیب که در هر گذر، یکی از انواع و حالتهای موجود مورد بررسی و تحلیل قرار گیرد و در نهایت با اجماع نتایج حاصل شده، فرایند تحلیل اتمام یابد.
فصل دوم
بخش اول
۲-۱-۱. پیشینه تشخیص مرجع مشترک
تشخیص مرجع مشترک، یکی از مهمترین وظایف استخراج اطلاعات است که با شناسایی عبارات اسمی (اشارههایی) که به یک موجودیت واحد اشاره دارند، همراه میباشد.[۵۸]به این ترتیب که این اشارهها تشکیل یک زنجیرهی هممرجع را میدهند. در این فصل برخی از روشهایی که در زمینه تشخیص مرجع مشترک بکارگرفته شدهاند را بررسی مینماییم. از آنجائیکه تا کنون پژوهش منتشر شدهای در این زمینه در زبان پارسی پیدا نکردیم، در این بخش به بررسی روشهای ارائه شده در سایر زبان ها(انگلیسی، عربی، چینی و…) میپردازیم.
به طور کلی روشهای تشخیص مرجع مشترک به دو دسته کلی زبانشناسی و روشهای یادگیری ماشین تقسیم میشوند. به این ترتیب که در روشهای زبانشناسی، بسیار نیازمند دانش زبانشناسی هستیم. استخراج این دانش از متن، فرآیندی زمانبر و پرخطاست. نخستین الگوریتمهای زبانشناسی مرتبط با تشخیص مرجع مشترک در اواخر دهه هفتاد ارائه شدند که در آنها از دانش زبانشناسی و معنایی بسیاری استفاده شدهاست.[۱۹،۶۰] پس از آن، با گذر زمان و فراهم شدن پیکرههای زبانشناسی، این روشها، جای خود را به روشهای آماری دادند. در روشهای آماری، دانش مورد نیاز بیشتر با بهره گرفتن از پیکرههای بزرگ و روشهای آماری کسب میشود و نسبت به روش قبل، به دانش زبانشناسی کمتری نیاز است و همچنین به نتایج بهتری نیز بدست میآید.[۱۰۵] در ادامهی این بخش نخست به مرور مختصری از شیوههای کلی روشهای زبانشناسی میپردازیم. سپس روشهای یادگیری ماشین را با تفصیل بیشتری بیان خواهیم نمود.
۲-۱-۲. روشهای زبانشناسی
عموماً روشهای زبانشناسی به منظور تشخیص مرجع مشترک، از مجموعهای از فاکتورها بهره میگیرند. تطابق[۶۳] جنس و عدد (چندم شخص ، مفرد/ جمع)، محدودیتهای تطبیق معنایی، مشابهت معنایی[۶۴]، مشابهت نحوی[۶۵]، بارز بودن[۶۶]، مجاورت[۶۷] و غیره از جمله فاکتورهای متداول برای تشخیص مرجع مشترک میباشند. این فاکتورها میتوانند «حذفکننده[۶۸]» یا «امتیازدهنده[۶۹]» باشند. جدول ۲-۱ این فاکتورها را به تفکیک «حذفکننده» و «امتیازدهنده» نمایش میدهد.
جدول۲-۱: فاکتورهای متداول برای تشخیص مرجع مشترک
«حذفکننده»
«امتیازدهنده»