جدول المحتويات:
التعريف - ماذا يعني تعدين البيانات؟
استخراج البيانات هو عملية تحليل الأنماط المخفية للبيانات وفقًا لوجهات نظر مختلفة لتصنيفها إلى معلومات مفيدة ، يتم جمعها وتجميعها في المناطق العامة ، مثل مستودعات البيانات ، للتحليل الفعال وخوارزميات استخراج البيانات وتسهيل اتخاذ القرارات التجارية وغيرها من المعلومات متطلبات لخفض التكاليف في نهاية المطاف وزيادة الإيرادات.
يُعرف استخراج البيانات أيضًا باسم اكتشاف البيانات واكتشاف المعرفة.
تيكوبيديا تشرح تعدين البيانات
الخطوات الرئيسية المشاركة في عملية استخراج البيانات هي:
- استخراج وتحويل وتحميل البيانات إلى مستودع بيانات
- تخزين وإدارة البيانات في قواعد بيانات متعددة الأبعاد
- توفير الوصول إلى البيانات لمحللي الأعمال باستخدام برنامج التطبيق
- تقديم البيانات التي تم تحليلها بأشكال يمكن فهمها بسهولة ، مثل الرسوم البيانية
تتمثل الخطوة الأولى في استخراج البيانات في جمع البيانات ذات الصلة المهمة للأعمال. بيانات الشركة إما معاملات أو غير تشغيلية أو بيانات التعريف. تتعامل بيانات المعاملات مع العمليات اليومية مثل المبيعات والمخزون والتكلفة وما إلى ذلك. عادة ما يتم التنبؤ بالبيانات غير التشغيلية ، في حين تهتم البيانات الوصفية بتصميم قاعدة البيانات المنطقية. تقدم الأنماط والعلاقات بين عناصر البيانات المعلومات ذات الصلة ، مما قد يزيد من إيرادات المؤسسة. تتعامل المؤسسات ذات التركيز القوي للمستهلك مع تقنيات استخراج البيانات التي تقدم صورًا واضحة عن المنتجات المباعة والسعر والمنافسة والتركيبة السكانية للعملاء.
على سبيل المثال ، تنقل شركة البيع بالتجزئة العملاقة Wal-Mart جميع معلوماتها ذات الصلة إلى مستودع بيانات به تيرابايت من البيانات. يمكن الوصول إلى هذه البيانات بسهولة من قبل الموردين مما يتيح لهم تحديد أنماط شراء العملاء. يمكنهم إنشاء أنماط على عادات التسوق ، ومعظم أيام التسوق ، والأكثر طلبًا للمنتجات والبيانات الأخرى باستخدام تقنيات استخراج البيانات.
الخطوة الثانية في استخراج البيانات هي اختيار خوارزمية مناسبة - آلية تنتج نموذج استخراج بيانات. يتضمن العمل العام للخوارزمية تحديد الاتجاهات في مجموعة من البيانات واستخدام الإخراج لتعريف المعلمة. الخوارزميات الأكثر شيوعًا المستخدمة في استخراج البيانات هي خوارزميات التصنيف وخوارزميات الانحدار ، والتي تستخدم لتحديد العلاقات بين عناصر البيانات. يدمج بائعي قواعد البيانات الرئيسية مثل Oracle و SQL خوارزميات استخراج البيانات ، مثل التجميع وضغط الانحدار ، لتلبية الطلب على استخراج البيانات.