Q:
هل يمكن أن يكون هناك الكثير من البيانات في البيانات الكبيرة؟
أ:الجواب على السؤال هو نعم مدوية. يمكن أن يكون هناك الكثير من البيانات في مشروع البيانات الضخمة.
هناك العديد من الطرق التي يمكن أن يحدث بها ذلك ، والعديد من الأسباب التي تجعل المحترفين بحاجة إلى الحد من البيانات ورعايتها بأي عدد من الطرق للحصول على النتائج الصحيحة. (اقرأ 10 الخرافات الكبيرة حول البيانات الكبيرة.)
بشكل عام ، يتحدث الخبراء عن التمييز بين "الإشارة" و "الضوضاء" في النموذج. بمعنى آخر ، في بحر البيانات الضخمة ، يصبح من الصعب استهداف بيانات الإحصاءات ذات الصلة. في بعض الحالات ، كنت تبحث عن إبرة في كومة قش.
على سبيل المثال ، لنفترض أن الشركة تحاول استخدام بيانات كبيرة لإنشاء رؤى محددة حول شريحة من قاعدة العملاء ، ومشترياتها عبر إطار زمني محدد. (اقرأ ماذا تفعل البيانات الضخمة؟)
قد يؤدي الحصول على كمية هائلة من أصول البيانات إلى إدخال بيانات عشوائية غير ذات صلة ، أو قد ينتج عنها تحيز يشوه البيانات في اتجاه واحد أو آخر.
كما أنه يبطئ العملية بشكل كبير ، حيث يتعين على أنظمة الحوسبة أن تتصارع مع مجموعات البيانات الأكبر والأكبر.
في العديد من أنواع المشاريع المختلفة ، من المهم للغاية لمهندسي البيانات تنسيق البيانات إلى مجموعات بيانات محددة ومحددة - في الحالة أعلاه ، ستكون هذه فقط بيانات هذا الجزء من العملاء الذين تتم دراستهم ، البيانات فقط في ذلك الوقت إطار يجري دراسته ، ونهج يلغي معرفات إضافية أو معلومات أساسية يمكن أن تربك الأشياء أو تبطئ الأنظمة. (ReadJob الدور: مهندس بيانات.)
للمزيد ، دعونا نلقي نظرة على كيفية عمل هذا في حدود التعلم الآلي. (اقرأ آلة التعلم 101.)
يتحدث خبراء التعلم الآلي عن شيء يسمى "التجهيز المفرط" حيث يؤدي نموذج معقد للغاية إلى نتائج أقل فعالية عندما يتم إيقاف تشغيل برنامج التعلم الآلي في بيانات الإنتاج الجديدة.
يحدث التجاوز عندما تتطابق مجموعة معقدة من نقاط البيانات مع مجموعة تدريب أولية بشكل جيد للغاية ، ولا تسمح للبرنامج بالتكيف بسهولة مع البيانات الجديدة.
الآن من الناحية الفنية ، لا يحدث التجهيز الزائد بسبب وجود الكثير من عينات البيانات ، ولكن بسبب تتويج العديد من نقاط البيانات. ولكن يمكنك القول أن وجود الكثير من البيانات يمكن أن يكون عاملاً مساهماً في هذا النوع من المشكلات أيضًا. يتضمن التعامل مع لعنة الأبعاد بعضًا من نفس التقنيات التي تم تنفيذها في مشاريع البيانات الضخمة السابقة حيث حاول المحترفون تحديد ما كانوا يغذون أنظمة تكنولوجيا المعلومات.
خلاصة القول هي أن البيانات الضخمة يمكن أن تكون مفيدة للغاية للشركات ، أو يمكن أن تصبح تحديًا كبيرًا. جانب واحد من هذا هو ما إذا كانت الشركة لديها البيانات الصحيحة في اللعب. يعلم الخبراء أنه ليس من المستحسن ببساطة تفريغ جميع أصول البيانات في قادوس والتوصل إلى رؤى بهذه الطريقة - في أنظمة البيانات السحابية الجديدة والمتطورة ، هناك جهد للتحكم في البيانات وإدارتها ومن أجل الحصول على أكثر دقة و الاستخدام الفعال من أصول البيانات.