مقدمه ای بر داده کاوی (Data Mining)

 

فناوری های مدرن کامپیوتر، شبکه ها و سنسور ها جمع آوری داده ها را انجام میدهند و کار سازمان  ها را  تقریبا راحت میکند. با این حال، داده های ثبت شده ،باید تبدیل به اطلاعات و دانش شده تا راه راه را برای برای بهبود در فرآیند های سازمان هموار نمایند.
به طور سنتی، وظیفه استخراج اطلاعات مفید از داده های ضبط شده ، توسط تحلیلگران انجام میشود؛ با این حال، افزایش حجم اطلاعات و پیچیدگی در به کارگیری کسب و کارهای مدرن ،به علوم  مبتنی بر رایانه برای این کار نیازمند است.
کل فرآیند استفاده از رایانه مبتنی بر روش شناسی است ، از جمله تکنیک های جدید برای کشف دانش از داده، اغلب داده کاوی(Data Mining) نامیده می شود. اهمیت داده کاوی(Data Mining)ناشی از این واقعیت است که جهان مدرن یک دنیای داده شده است. ما توسط داده های عددی و غیره احاطه شده ایم، که باید تجزیه و تحلیل و پردازش  شوند تا آن را به اطلاعاتی تبدیل کند که این اطلاعات باید ، دستورالعمل ها، پاسخ ها، و یا در غیر این صورت کمک در درک و تصمیم گیری را ایجاد نمایند. مقدار این داده ها بزرگ و درحال رشد است ، اما در حال حاضر داده ها در انبار داده های متمرکز ذخیره می شود.این داده هااز  طیف وسیعی ازمناطق،صنایع، فعالیت های تجاری، مالی و علمی تولید می شوند.که این اطلاعات توسط میلیون ها  نفر از تحلیل گران داده که با روش های قدرتمند داده کاوی برای دریافت اطلاعات جامع تر به کار گرفته شده اند .
در سال های اخیر یک انفجار به وجود امده است و آن
رشد روش های کشف دانش جدید از داده های خام است .
با توجه به گسترش کامپیوترهای کم هزینه، نرم افزار ها که برای اجرای چنین روش هایی تولید شده اند ، سنسورهای کم هزینه، ارتباطات و تکنولوژی پایگاه داده که برای جمع آوری و
ذخیره سازی داده ها ،افزایش کارشناسان خبره در این زمینه کاری مسبب این انفجا بوده اند .
تکنولوژی Data Mining  که در حال حاضر یکی از محبوب ترین ها در دست تصمیم گیرندگان است
می تواند کسب و کار با ارزش از دانش های بزرگ را ارائه دهد
باید به یاد داشته باشیم که استخراج اطلاعات از معدن داده کاری جدید نیست بلکه تاریخی به قدمت پیدایش انسان را دارد. مفهوم استخراج اطلاعات و دانش
از داده های ثبت شده ،یک مفهوم کاملا  شناخته شده در علوم و پزشکی است .اما فرصت این رشته جدید همگرایی رشته های مختلف و فن آوری های مربوطه است
که یک فرصت منحصر به فرد برای داده کاوی در دانش و شرکت های بزرگ ایجاد کرده است.

داده کاوی یک فرایند تکراری است که در آن پیشرفت توسط کشف الگوریتم ها از طریق روش های خودکار یا دستی صورت میگیرد . داده کاوی یک کاوشگر مفید درباره سناریوی تجزیه و تحلیل است که در آن هیچ تصوری از پیش تعیین شده در مورد وابستگی ، الگوریتم و روش های محاسباتی بین داده ها  موجود نیست و نتایج جالب را نمایش میدهد ندارد . داده کاوی جستجوی جدید، ارزشمند و اطلاعاتی غیر ترافیکی در حجم زیادی از داده هابا اشتراک  تلاش مشترکب بین  انسان  و کامپیوترها هاست .

در عمل، دو هدف اصلی داده کاوی، پیش بینی و توصیف هستند

  1. پیش بینی شامل استفاده از برخی متغیرها یا فیلدها ناشناخته یا آینده در مجموعه داده ها برای پیش بینی است . داده کاوی پیش بینی شده، که مدل سیستم را توصیف می کند. در انتهای طیف پیش بینی ، هدف داده کاوی، تولید یک مدل است که به عنوان یک کد اجرایی بیان می شود که می تواند برای انجام طبقه بندی، پیش بینی، برآورد یا سایر کارهای مشابه مورد استفاده قرار گیرد.
  2. سوی دیگر توصیف ،تمرکز بر یافته های الگوهای توصیفی بین داده ها است که می تواند توسط انسان تفسیر شود. داده کاوی توصیفی، که اطلاعات جدید و غیرانتقادی را بر اساس مجموعه داده های موجود به نمایش میدهد. در پایان توصیفی طیف، هدف این است که درک سیستم تجزیه و تحلیل از طریق کشف الگوهای و روابط پنهان در مجموعه داده های بزرگ شناسایی و مورد استفاده قرار گیرد.

 

ابزار های داده کاوی:

  1. طبقه بندی(Classification):یک تابع یادگیری پیشگویی است که اطلاعات را طبقه بندی می کند و آیتم را به یکی از چندین کلاس پیش تعریف شده ارتباط میدهد.
  2. رگرسیون (Regression) : یک تابع یادگیری پیش بینی است که ارزش واقعی پیش بینی یک آیتم داده را نمایش می دهد
  3. خوشه بندی(Clustering): یک وظیفه توصیفی مشترک است که در آن فرد به دنبال شناسایی مجموعه ای از دسته ها یا خوشه ها برای توصیف داده ها است
  4. جمع بندی(Summarization) یک کار توصیفی اضافی که شامل روش برای پیدا کردن یک توصیف جمع و جور برای یک مجموعه (یا زیر مجموعه) از داده ها است
  5. مدلسازی وابستگی (Dependency Modeling):ایجاد یک مدل محلی که وابستگی های قابل توجهی بین متغیرها یا بین مقادیر یک ویژگی در یک مجموعه داده یا در بخشی از یک مجموعه داده را توصیف می کند
  6. تشخیص تغییر و انحراف(Change and Deviation Detection):کشف تغییرات قابل توجه در مجموعه داده ها.

موفقیت یک کارشناس داده کاوی به میزان زیادی بر میزان دانش ، خلاقیت و انرژی که طراح آن را در بر می گیرد بستگی دارد . در اصل، داده کاوی مانند  حل یک پازل با قطعات منحصر به فرد است .این پازل ساختار پیچیده دارد  با این حال، به عنوان یک کل جمعی، می توانند یک سیستم بسیار پیچیده باشند شما شروع به سوار کردن قطعات با هم میکنید اما با یکبار انجام آن  متوجه می شوید که این واقعا سخت نیست. شما این قیاس را می توانید  به داده کاوی اعمال کنید در ابتدا، طراحان فرایند استخراج داده ها احتمالا اطلاعات زیادی در مورد داده ها نمی دانند به طور جداگانه، داده ها به نظر ساده، کامل و قابل توضیح هستند. اما به طور خلاصه، هنگامی که نگاهی کاملا جدیدی به آنها می اندازید از الگوریتم های پیچیده آن مطلع میشوید .داده کاوی یکی از سریعترین زمینه های رشد در صنعت کامپیوتر است.

یکی از بزرگترین نقاط قوت داده کاوی در گستره وسیعی از روش ها و تکنیک های آن است که می تواند به مجموعه ای از مجموعه های مشکل اعمال شود.

از آنجایی که داده کاوی یک فعالیت طبیعی است که باید بر روی مجموعه داده های بزرگ انجام شود، یکی از آنها بزرگترین بازارهای هدف جامعه، شامل متخصصان از صنایع مانند خرده فروشی، تولید، مخابرات، مراقبت های بهداشتی، بیمه و حمل و نقل.  داده کاوی همچنین می تواند مورد استفاده برای کشف روند جدید خرید، برنامه ریزی سرمایه گذاری استراتژی ها و تشخیص هزینه های غیر مجاز در سیستم حسابداری و بهبود مبارزات بازاریابی باشد. مهندسی مجدد فرآیند کسب و کار، که هدف آن درک تعاملات و روابط بین شیوه های کسب و کار و سازمان ها. بسیاری از اجرای قانون و واحدهای تحقیقاتی خاص که مأموریت آنها شناسایی است فعالیت های جعلی و کشف گرایش های جرم و جنایت، همچنین با استفاده از داده کاوی موفقیت آمیز بوده است.

به عنوان مثال، این روش ها می توانند به شناسایی تحلیل گران   حیاتی کمک کنند  همانند الگوهای رفتاری، در تعاملات ارتباطات سازمان های مواد مخدر، معاملات پولی پولشویی و عملیات تجاری خودی، جنبش ها قاتلان سریال و هدف گیری قاچاقچیان در مرزهای مرزی.

 

بازدید: 3

توسط | ۱۳۹۷-۱۱-۲۳ ۱۳:۵۱:۰۱ +۰۰:۰۰ ۱۹ام دی, ۱۳۹۷|data mining|بدون دیدگاه

دیدگاه خود را بنویسید