डेटा खाण आणि डेटा वेदरिंग दरम्यान फरक
ज्या आकडेवारीकडे आकर्षित आहेत ते डेटा माइनिंग वापरतात. डेटामध्ये छद्ल नमुने शोधण्याकरिता ते सांख्यिकीय मॉडेलचा वापर करतात. डेटा खाण कामगार विविध डेटा घटकांमधील उपयुक्त नाते शोधण्यास इच्छुक आहेत, जे व्यवसायांसाठी शेवटी फायदेशीर आहे. पण दुसरीकडे, माहितीचा तज्ञ जो व्यवसाय विस्तारावर विसंबून करू शकतात ते थेट डेटा वेअरहाऊसचा वापर करतात.
डेटा खाण याला माहितीतील ज्ञान डिस्कवरी (केडीडी) म्हणून देखील ओळखले जाते. वर नमूद केल्याप्रमाणे, हे संगणक विज्ञानाचे क्षेत्र आहे, जे कच्च्या डेटावरून पूर्वी अज्ञात आणि मनोरंजक माहिती काढून टाकते. डेटाच्या घातांकीय वाढीमुळे, विशेषत: व्यवसाय, डेटा खाण हे मोठ्या बुडीत संपत्तीचे व्यावसायिक बुद्धिमत्तेमध्ये रूपांतर करण्यास फार महत्वाचे साधन बनले आहे, कारण गेल्या काही दशकांत नमुन्यांची हस्तपुस्तिका उशिर होत आहे. उदाहरणार्थ, सध्या तो सोशल नेटवर्किंग विश्लेषण, फोरम डिटेक्शन आणि मार्केटिंग यासारख्या विविध अनुप्रयोगांसाठी वापरला जात आहे. डेटा खाण सामान्यतः खालील चार कार्यांशी संबंधित आहे: क्लस्टरिंग, वर्गीकरण, प्रतिगमन, आणि संघटना. क्लस्टरिंग हे असंघटित डेटावरून समान गट ओळखते आहे. वर्गीकरण हे नियम शिकत आहे जे नवीन डेटावर लागू केले जाऊ शकतात आणि त्यामध्ये विशेषतः पुढील चरणांचा समावेश असेल: डेटाची पूर्वप्रक्रिया, मॉडेलिंगची रचना करणे, शिकणे / वैशिष्ट्य निवड आणि मूल्यमापन / प्रमाणीकरण. प्रतिगमन मॉडेल डेटावर किमान त्रुटी कार्ये शोधत आहे. आणि असोसिएशन वेरिएबल्स मध्ये संबंध शोधत आहे डेटा खाण सामान्यतः मुख्य उत्पादने आहेत जे वाल-मार्ट मध्ये पुढच्या वर्षी उच्च नफा मिळविण्यात मदत करू शकतात अशा प्रश्नांची उत्तरे देण्यासाठी वापरली जातात.