بيت سمعي تحليلات Hadoop: ليست بهذه السهولة عبر مصادر بيانات متعددة

تحليلات Hadoop: ليست بهذه السهولة عبر مصادر بيانات متعددة

جدول المحتويات:

Anonim

يعد Hadoop مكانًا رائعًا لتفريغ البيانات للمعالجة التحليلية أو لتصميم وحدات تخزين أكبر لمصدر بيانات واحد غير ممكن مع الأنظمة الحالية. ومع ذلك ، حيث تقوم الشركات بإحضار بيانات من مصادر عديدة إلى Hadoop ، هناك طلب متزايد على تحليل البيانات عبر مصادر مختلفة ، مما يصعب تحقيقه. هذا المنشور هو الأول في سلسلة من ثلاثة أجزاء تشرح المشكلات التي تواجهها المؤسسات ، حيث تحاول تحليل مصادر وأنواع البيانات المختلفة داخل Hadoop ، وكيفية حل هذه التحديات. يركز منشور اليوم على المشكلات التي تحدث عند الجمع بين مصادر داخلية متعددة. يوضح المنشوران التاليان سبب زيادة هذه المشكلات في التعقيد ، مع إضافة مصادر البيانات الخارجية ، وكيف تساعد الأساليب الجديدة في حلها.

بيانات من مصادر مختلفة يصعب الاتصال والخريطة

تحتوي البيانات من مصادر متنوعة على هياكل مختلفة تجعل من الصعب ربط أنواع البيانات وتعيينها معًا ، حتى البيانات من المصادر الداخلية. قد يكون دمج البيانات أمرًا صعبًا بشكل خاص إذا كان لدى العملاء أرقام حسابات متعددة أو إذا حصلت مؤسسة أو دمجت مع شركات أخرى. خلال السنوات القليلة الماضية ، حاولت بعض المؤسسات استخدام اكتشاف البيانات أو تطبيقات علم البيانات لتحليل البيانات من مصادر متعددة مخزنة في Hadoop. هذا النهج يمثل مشكلة لأنه ينطوي على الكثير من التخمين: يجب على المستخدمين تحديد أي المفاتيح الخارجية لاستخدامها لتوصيل مصادر البيانات المختلفة وجعل الافتراضات عند إنشاء تراكب طراز البيانات. يصعب اختبار هذه التخمينات وغالبًا ما تكون غير صحيحة عند تطبيقها على نطاق واسع ، مما يؤدي إلى تحليل خاطئ للبيانات وعدم الثقة في المصادر.

خبراء Hadoop يحاولون دمج البيانات معًا

لذلك ، لجأت المؤسسات التي ترغب في تحليل البيانات عبر مصادر البيانات إلى تعيين خبراء Hadoop لإنشاء برامج نصية مخصصة خاصة بالمصدر لدمج مجموعات البيانات معًا. خبراء Hadoop هؤلاء عادةً ليسوا خبراء في تكامل البيانات أو خبراء حل الكيانات ، لكنهم يبذلون قصارى جهدهم لتلبية الاحتياجات الفورية للمنظمة. يستخدم هؤلاء الخبراء عادةً Pig أو Java لكتابة قواعد صارمة وسريعة تحدد كيفية الجمع بين البيانات المنظمة من مصادر محددة ، مثل مطابقة السجلات بناءً على رقم الحساب. بمجرد كتابة برنامج نصي لمصدرين ، إذا كانت هناك حاجة إلى إضافة مصدر ثالث ، يجب التخلص من البرنامج النصي الأول وتصميم برنامج نصي جديد للجمع بين ثلاثة مصادر محددة. يحدث الشيء نفسه إذا تم إضافة مصدر آخر وهلم جرا. ليس هذا النهج غير فعال فحسب ، بل إنه يفشل أيضًا عند تطبيقه على نطاق واسع ، ويعالج حالات الحافة بشكل سيئ ، ويمكن أن يؤدي إلى عدد كبير من السجلات المكررة ، وغالبًا ما يدمج العديد من السجلات التي لا ينبغي دمجها.

تحليلات Hadoop: ليست بهذه السهولة عبر مصادر بيانات متعددة