بيت ومن الأعمال البيانات الكبيرة والصغيرة: أين القيمة الحقيقية؟

البيانات الكبيرة والصغيرة: أين القيمة الحقيقية؟

جدول المحتويات:

Anonim

البيانات الضخمة هي كلمة شاملة تستخدم للإشارة إلى التعامل مع كميات كبيرة من البيانات. ندرك جميعًا أنه كلما زاد حجم البيانات ، زاد تعقيدها. غالبًا ما تفشل حلول قواعد البيانات التقليدية في إدارة كميات كبيرة من البيانات بشكل صحيح بسبب تعقيدها وحجمها. لذلك ، تعد إدارة كميات كبيرة من البيانات واستخراج بصيرة حقيقية مهمة صعبة. ينطبق مفهوم "القيمة" نفسه أيضًا على البيانات الصغيرة.

كيف يتم استخدام البيانات الكبيرة

يمكن لحلول قواعد البيانات التقليدية القائمة على مفهوم RDBMS إدارة بيانات المعاملات بشكل جيد للغاية وتستخدم على نطاق واسع في تطبيقات مختلفة. ولكن عندما يتعلق الأمر بمعالجة مجموعة كبيرة من البيانات (البيانات التي يتم أرشفتها وتكون في تيرابايت أو بيتابايت) ، غالبًا ما تفشل حلول قواعد البيانات هذه. مجموعات البيانات هذه كبيرة جدًا وفي معظم الأحيان ، لا تنسجم مع بنية قواعد البيانات التقليدية. في هذه الأيام ، أصبحت البيانات الضخمة مقاربة فعالة من حيث التكلفة لمعالجة مجموعات أكبر من البيانات. من وجهة نظر تنظيمية ، يمكن تقسيم استخدام البيانات الكبيرة إلى الفئات التالية ، حيث توجد القيمة الحقيقية للبيانات الضخمة:

  • الاستخدام التحليلي

    كشف محللون عن البيانات الضخمة عن العديد من الجوانب المهمة المخفية للبيانات والتي تعد مكلفة للغاية. على سبيل المثال ، إذا كان يتعين علينا التحقق من اتجاه الطلاب نحو موضوع جديد معين ، فيمكننا القيام بذلك من خلال تحليل سجلات الحضور اليومية وغيرها من الحقائق الاجتماعية والجغرافية. يتم التقاط هذه الحقائق في قاعدة البيانات. إذا لم نتمكن من الوصول إلى هذه البيانات بطريقة فعالة ، فلن نتمكن من رؤية النتائج.

  • تمكين منتجات جديدة

    في الماضي القريب ، بدأ الكثير من شركات الويب الجديدة ، مثل Facebook ، في استخدام البيانات الضخمة كحل لإطلاق منتجات جديدة. نعلم جميعًا مدى شعبية Facebook - لقد نجح في إعداد تجربة مستخدم عالية الأداء باستخدام بيانات كبيرة.

أين هي القيمة الحقيقية؟

تختلف حلول البيانات الكبيرة المختلفة في الطريقة التي تخزن بها البيانات ، ولكن في النهاية ، فإنها جميعًا تخزن البيانات في بنية ملف مسطحة. بشكل عام ، يتكون Hadoop من نظام الملفات وبعض تجريدات البيانات على مستوى نظام التشغيل. يتضمن ذلك محرك MapReduce ونظام الملفات الموزعة Hadoop (HDFS). تحتوي مجموعة Hadoop البسيطة على عقدة رئيسية واحدة وعقد متعددة للعاملين. تتكون العقدة الرئيسية مما يلي:

  • تعقب المهمة
  • تعقب الوظيفة
  • اسم العقدة
  • عقدة البيانات
تتكون عقدة العامل مما يلي:
  • تعقب المهمة
  • عقدة البيانات

تحتوي بعض التطبيقات على عقدة البيانات فقط. عقدة البيانات هي المنطقة الفعلية التي تقع فيها البيانات. HDFS بتخزين الملفات الكبيرة (في نطاق تيرابايت إلى بيتابايت) الموزعة عبر أجهزة متعددة. يتم تحقيق موثوقية البيانات على كل عقدة من خلال نسخ البيانات عبر جميع الأجهزة المضيفة. وبالتالي ، فإن البيانات متاحة حتى عندما تكون إحدى العقد معطلة. هذا يساعد في تحقيق استجابة أسرع ضد الاستفسارات. هذا المفهوم مفيد للغاية في حالة التطبيقات الضخمة مثل Facebook. كمستخدم ، نحصل على استجابة لطلب الدردشة لدينا ، على سبيل المثال ، على الفور تقريبًا. فكر في سيناريو حيث يتعين على المستخدم الانتظار لفترة طويلة أثناء الدردشة. إذا لم يتم تسليم الرسالة والاستجابة اللاحقة على الفور ، فكم عدد الأشخاص الذين سيستخدمون أدوات الدردشة هذه بالفعل؟

بالعودة إلى تطبيق Facebook ، إذا لم يتم نسخ البيانات عبر المجموعات ، فلن يكون من الممكن وجود تطبيق جذاب. تقوم Hadoop بتوزيع البيانات عبر الأجهزة في كتلة أكبر ، وتخزين الملفات كسلسلة من الكتل. هذه الكتل من نفس الحجم باستثناء الكتلة الأخيرة. يمكن تخصيص حجم الكتلة وعامل النسخ المتماثل حسب الحاجة. تتبع ملفات HDFS بدقة نهج الكتابة مرة واحدة ، وبالتالي لا يمكن كتابتها أو تحريرها إلا من قبل مستخدم واحد في المرة الواحدة. يتم اتخاذ القرارات المتعلقة بتكرار القطع بواسطة عقدة الاسم. تستقبل عقدة الاسم التقارير واستجابات النبض من كل عقدة بيانات. تضمن استجابات النبض توفر عقدة البيانات المقابلة. يحتوي التقرير على تفاصيل الكتل الموجودة على عقدة البيانات.


تطبيق آخر للبيانات الضخمة ، كاساندرا ، يستخدم أيضًا مفهوم توزيع مماثل. تقوم كاساندرا بتوزيع البيانات بناءً على الموقع الجغرافي. وبالتالي ، في كاساندرا ، يتم فصل البيانات بناءً على الموقع الجغرافي لاستخدام البيانات.

في بعض الأحيان يكون للبيانات الصغيرة تأثير أكبر (وأقل تكلفة)

وفقًا لـ Rufus Pollock من مؤسسة Open Knowledge Foundation ، لا فائدة من إنشاء الضجيج حول البيانات الضخمة في حين لا تزال البيانات الصغيرة هي المكان الذي تكمن فيه القيمة الحقيقية.


كما يوحي الاسم ، البيانات الصغيرة هي مجموعة من البيانات المستهدفة من مجموعة أكبر من البيانات. تهدف البيانات الصغيرة إلى تحويل التركيز من استخدام البيانات ، كما تهدف إلى مواجهة اتجاه التحرك نحو البيانات الضخمة. يساعد نهج البيانات الصغيرة في جمع البيانات بناءً على متطلبات محددة باستخدام جهد أقل. نتيجة لذلك ، إنها ممارسة الأعمال الأكثر كفاءة أثناء تطبيق ذكاء الأعمال.


في جوهره ، يدور مفهوم البيانات الصغيرة حول الشركات التي تتطلب نتائج تتطلب المزيد من الإجراءات. يجب إحضار هذه النتائج بسرعة كما يجب تنفيذ الإجراء التالي على الفور. وبالتالي ، يمكننا القضاء على أنواع الأنظمة الشائعة الاستخدام في تحليلات البيانات الكبيرة.


بشكل عام ، إذا نظرنا في بعض الأنظمة المحددة المطلوبة للحصول على البيانات الكبيرة ، فقد تستثمر الشركة في إعداد الكثير من سعة التخزين على الخوادم ، واستخدام الخوادم المتطورة المتطورة وأحدث تطبيقات استخراج البيانات للتعامل مع أجزاء مختلفة من البيانات ، بما في ذلك تواريخ وأوقات إجراءات المستخدم والمعلومات الديموغرافية وغيرها من المعلومات. تنتقل مجموعة البيانات هذه بأكملها إلى مستودع بيانات مركزي ، حيث يتم استخدام خوارزميات معقدة لفرز ومعالجة البيانات لعرضها في شكل تقارير مفصلة.


نعلم جميعًا أن هذه الحلول قد أفادت العديد من الشركات من حيث قابلية التوسع والإتاحة ؛ هناك منظمات تجد أن تبني هذه الأساليب يتطلب جهداً كبيراً. صحيح أيضًا أنه في بعض الحالات ، يتم تحقيق نتائج مماثلة باستخدام استراتيجية أقل قوة لاستخراج البيانات.


توفر البيانات الصغيرة وسيلة للمؤسسات للتراجع عن هاجس بأحدث وأحدث التقنيات التي تدعم عمليات الأعمال الأكثر تطوراً. تجادل الشركات التي تروج للبيانات الصغيرة أنه من المهم من وجهة نظر العمل استخدام مواردها بطريقة فعالة ، بحيث يمكن تجنب الإفراط في الإنفاق على التكنولوجيا إلى حد ما.


لقد ناقشنا الكثير حول البيانات الكبيرة وحقائق البيانات الصغيرة ، ولكن يجب أن نفهم أن اختيار النظام الأساسي الصحيح (البيانات الكبيرة أو البيانات الصغيرة) للاستخدام الصحيح هو الجزء الأكثر أهمية في التمرين بأكمله. والحقيقة هي أنه في حين أن البيانات الضخمة يمكن أن توفر الكثير من الفوائد ، إلا أنها ليست الأفضل دائمًا.

البيانات الكبيرة والصغيرة: أين القيمة الحقيقية؟