چکیده
در این مطالعه ، 5 روش کلاسه بندی متداول ، درخت تصمیم ، بیزین ، k نزدیکترین همسایه ، شبکه های عصبی و ماشین بردار پشتیبان بر روی شش مجموعه ی داده ی پزشکی سرطان سینه ، هپاتیت ، تیروئید ، دیابت ، تومور اولیه و بیماری قلبی مورد تست و ارزیابی قرار گرفتند.معیار ارزیابی میزان دقت هر روش بوده و برای تست هر روش از نرم افزار weka با مقادیر پیش فرض استفاده گردید.نتایج حاصله نشان می دهد .که اگر چه بعضی از کلاسه بندی ها نسبت به بقیه بهتر عمل می کنند ولی بطور کلی هیچ روش کلاسه بندی وجود ندارد که روی تمام مجموعه داده های مذکور از دقت بهتری برخوردار باشد و برای هر مجموعه داده یک روش کلاسه بندی خاص نسبت به سایر روش ها از دقت مطلوبی برخوردار می باشد.
مقدمه
استفاده از داده کاوی در پزشکی یکی از زمینه های پرکاربرد داده کاوی محسوب می شود که در سال های اخیر تحقیقات و مطالعات زیادی پیرامون ان انجام شده است. دسته مهمی از مسائل در علم پزشکی مربوط به تشخیص بیماری ها می باشد که بر اساس ازمایشات مختلف بر روی بیمار انجام می گیرد. هنگامی که تعداد پارامترها در تشخیص بیماری زیاد شود ممکن است تشخیص بیماری حتی برای یک متخصص خبره پزشکی نیز به سختی امکانپذیر باشد. همین دلیل موجب شده است که در چند دهه اخیر ابزار تشخیص کامپیوتری با هدف کمک به پزشک مورد استفاده قرار گیرد تا به نحوی بی نظمی را از داده ها خارج کند.
در این پژوهش 5 روش متداول کلاسه بندی بر روی شش مجموعه داده ی پزشکی مورد تست و ارزیابی قرار می گیرد.معیار ارزیابی روش های کلاسه بندی میزان دقت هر روش می باشد.در تست روش ها از نرم افزار داده کاوی weka با مقادیر پیش فرض برای هر الگوریتم استفاده می گردد