خوشهبندی و همچنین استفاده از تکنیکهای مختلف پیشبینی در جهت دسترسی به نتایج بهتر و دقیقتر و درنهایت استفاده از این نتایج در تدوین شاخصها و در جهت طراحی داشبوردی که به ارزیابی و پیشبینی پیشرفت تحصیلی دانشجویان کمک کند، تلقی شود.
۴-۲-۲-شناخت دادهها
این تحقیق از بعد هدف انجام آن از نوع تحقیقات کاربردی میباشد، لذا با توجه به این امر که کشف دانش در پایگاهداده فرایند اکتشاف مدلهای گوناگون، خلاصهها و ارزشهای نشات گرفته از مجموعه خاصی از دادههاست(Hand & smith,2005). در ادامه دادههای مورد استفاده در تحقیق حاضر شرح داده میشود.
۴-۲-۲-۱- دادهها
اطلاعات ثبت شده دانشجویان دانشگاههای آزاد و سراسری استان قم در بازه زمانی سال ۱۳۷۱ تا ۱۳۹۱، از پایگاهدادههای موجود در دانشگاههای مذکور در این تحقیق مورد استفاده قرار گرفته است. با توجه به حجم زیاد دادههای ثبت شده درخصوص دانشجویان، برای تحقیق مورد نظر دادههای ثبت شده دانشجویان مقطع کارشناسی که سه سال تحصیلی خود را گذراندهاند، درنظر گرفته شده است که شامل ۱۰۶۶۸ رکورد و هر رکورد نماینده یک دانشجو میباشد.
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت nefo.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
۴-۲-۲-۲- انتخاب دادهها
با توجه به انواع مختلف ویژگیها در بانک اطلاعاتی دانشگاه و ماهیت یکسان برخی از آنها و همچنین با توجه به عوامل تاثیرگذار در پیشبینی پیشرفت تحصیلی دانشجویان اقلام اطلاعاتی در سه گروه مورد بررسی قرار گرفت:
-
- اقلام اطلاعاتی دانشگاهی دانشجویان : شامل سال و ترم ورود به دانشگاه، نحوه پذیرش، نوع سهمیه، نوع تحصیل، نحوه تحصیل، مقطع تحصیلی و نوع دانشگاه میباشد.
-
- اقلام اطلاعاتی فردی دانشجویان : شامل وضعیت تاهل، وضعیت بومی، وضعیت اشتغال، وضعیت جسمی و ملیت میباشد.
-
- اقلام اطلاعاتی معدل دانشجویان : شامل مشخصات ترم و معدل دریافتی در ترم میباشد.
بررسی ها نشان دادهاند که:
-
- مشکل پیچیدگی مساله در ادغامها وجود نداشت.
-
- مقادیری در دادهها وجود داشت که لازم بود قبل از اجرای مدل به مقادیر قابل استفاده در تحقیق تبدیل شوند که در ادامه به این موضوع خواهیم پرداخت.
۴-۲-۳- آماده سازی و پیش پردازش دادهها
این مرحله حساسترین مرحله از دادهکاوی به ویژه در مطالعه موردی تحقیق حاضر میباشد. چرا که یکی از تکنیکهای استفاده شده در این تحقیق برای خوشهبندی دانشجویان الگوریتم k-means میباشد و این الگوریتم نسبت به دادههای پرت بسیار حساس است. پس سعی برآن شده تا حدامکان از میزان دادههای پرت کاسته شود.
۴-۲-۳-۱- آماده سازی دادهها
از آنجایی که دادههای دانشگاه سراسری استان قم در قالب فایل my Sql server بوده است و به دلیل ناهمخوانی این ساختار با ساختار مطلوب پردازش تحقیق لازم بود تا ساختار سلولهای موردنظر به ساختار مطلوب تبدیل شود.
عملیات تمیزکاری دادهها به شرح زیر است:
-
- حذف کاراکتر (،) Quotation از عناوین فیلدها
-
- حذف unsigned از تعاریف فیلدها
سپس فیلدهای جدید معدل دریافتی هر ترم دانشجویان ازطریق ارتباط جداول و با بهره گرفتن از کدهای برنامه نویسی SQL SERVER 2014 بهدست آمد. که در شکل ۴-۱ میتوان ارتباط دادهای این جداول را با یکدیگر مشاهده کرد.کدهای Sql استفاده شده به منظور تعریف این فیلدها به صورت زیر است.
select grade,s.PersonID,sum(grade*LesTotalUnit)/sum([LesTotalUnit]) as moadel,
persons as p join StudentSpecs as s on s.PersonID=p.PersonID
join grades as g on g.StNo=s.StNo
join lessons as l on l.LesCode=g.LesCode
از آنجایی که دادههای دانشگاه آزاد اسلامی استان قم در قالب EXCEL2013 دریافت شد، دادههای دانشگاه سراسری نیز به نرمافزار EXCEL 2013 وارد گردید.
شکل ۴-۱ بخشی از ارتباط دادهای جداول
۴-۲-۳-۲-پیش پردازش دادهها
در این مرحله سلسله عملیاتی صورت میپذیرد که باعث برطرف شدن مشکلات مختلف دادههای مساله مورد بررسی میگردد، تا برای انجام فرایند یادگیری و مدل پالایش شده و آماده گردد.دادههای خام موجود در پایگاههای داده اغلب به شکل پردازش نشده و غیرکامل هستند. برخی از محدودیتهای موجود در پایگاههای داده مواردی نظیر وجود دادههای قدیمی[۳۳] یا زاید[۳۴]مقادیر مفقوده[۳۵]، دادههای دور افتاده[۳۶]، شکل مناسب دادهها برای کشف دانش در پایگاهداده و مواردی از این دست هستند. از این رو برای آمادهسازی این دادهها، نیاز به اجرای گامهایی نظیر پاکسازی داده [۳۷] و تبدیل داده[۳۸] میباشد (Berry & Linoff,2004). در ادامه وضعیت هریک از اقلام اطلاعاتی مورد استفاده و تکنیکهای آمادهسازی بهکاررفته شرح داده شده است.
جدول ۴-۱ اقلام اطلاعات فردی دانشجویان
عنوان : اقلام اطلاعات فردی دانشجویان | تکنیکهای استفاده شده برای آمادهسازی داده | |
وضعیت تاهل | مجرد | تبدیل داده |