بيت اتجاهات كيف يساعد hadoop في حل مشكلة البيانات الكبيرة

كيف يساعد hadoop في حل مشكلة البيانات الكبيرة

جدول المحتويات:

Anonim

البيانات الكبيرة … حسنا … كبيرة الحجم! بالضبط مقدار البيانات التي يمكن تصنيفها على أنها بيانات كبيرة ليست واضحة جدًا ، لذلك دعونا لا ننخرط في هذا النقاش. بالنسبة لشركة صغيرة تستخدم للتعامل مع البيانات بالجيجابايت ، فإن 10 تيرابايت من البيانات ستكون كبيرة. ولكن بالنسبة لشركات مثل Facebook و Yahoo ، فإن حجم البيجابايت كبير.


فقط حجم البيانات الكبيرة ، يجعل من المستحيل (أو على الأقل باهظ التكلفة) تخزينها في التخزين التقليدي مثل قواعد البيانات أو الملفات التقليدية. نحن نتحدث عن تكلفة تخزين غيغابايت من البيانات. إن استخدام ملفات تخزين تقليدية قد يكلف الكثير من المال لتخزين البيانات الضخمة.


هنا سنلقي نظرة على البيانات الضخمة ، تحدياتها ، وكيف يمكن لـ Hadoop المساعدة في حلها. أولا ، أكبر التحديات البيانات الكبيرة.


البيانات الكبيرة غير منظمة أو شبه منظمة

الكثير من البيانات الكبيرة غير منظمة. على سبيل المثال ، قد تبدو بيانات سجل الدفق مثل:


الطابع الزمني ، user_id ، الصفحة ، referrer_page


عدم وجود بنية يجعل قواعد البيانات العلائقية غير مناسبة لتخزين البيانات الكبيرة. بالإضافة إلى ذلك ، لا تستطيع الكثير من قواعد البيانات التعامل مع تخزين مليارات من صفوف البيانات.

ليس هناك فائدة في تخزين البيانات الكبيرة إذا لم نتمكن من معالجتها

تخزين البيانات الكبيرة جزء من اللعبة. يتعين علينا معالجتها لاستخراج المعلومات الاستخباراتية منها. أنظمة التخزين التقليدية "غبية" إلى حد ما بمعنى أنها تقوم بتخزين وحدات البت فقط. أنها لا تقدم أي قوة المعالجة.


يحتوي نموذج معالجة البيانات التقليدي على بيانات مخزنة في كتلة تخزين ، يتم نسخها إلى كتلة حساب للمعالجة. تتم كتابة النتائج مرة أخرى إلى كتلة التخزين.


ومع ذلك ، لا يعمل هذا النموذج مع البيانات الضخمة لأن نسخ الكثير من البيانات إلى كتلة حسابية قد يستغرق وقتًا طويلاً أو مستحيلًا. إذن ما هو الجواب؟


أحد الحلول هو معالجة البيانات الضخمة في مكانها ، كما هو الحال في كتلة التخزين التي تتضاعف ككتلة حسابية.


كما رأينا أعلاه ، البيانات الكبيرة تتحدى التخزين التقليدي. إذن كيف نتعامل مع البيانات الضخمة؟

كيف Hadoop يحل مشكلة البيانات الكبيرة

بنيت Hadoop لتعمل على مجموعة من الآلات

لنبدأ بمثال. دعنا نقول أننا بحاجة إلى تخزين الكثير من الصور. سنبدأ مع قرص واحد. عندما نتجاوز قرص واحد ، قد نستخدم بضعة أقراص مكدسة على جهاز. عندما نفوق كل الأقراص على جهاز واحد ، نحتاج إلى الحصول على مجموعة من الأجهزة ، كل منها يحتوي على مجموعة من الأقراص.


هذا هو بالضبط كيف بنيت Hadoop. تم تصميم Hadoop ليتم تشغيله على مجموعة من الأجهزة بدءًا من التطبيق.



مجموعات Hadoop مقياس أفقيا

يمكن تحقيق المزيد من سعة التخزين والحساب عن طريق إضافة المزيد من العقد إلى مجموعة Hadoop. هذا يلغي الحاجة لشراء المزيد والمزيد من الأجهزة القوية والمكلفة.


يمكن Hadoop التعامل مع البيانات غير منظم / شبه منظم

Hadoop لا تفرض مخططًا على البيانات التي تخزنها. يمكن التعامل مع النص التعسفي والبيانات الثنائية. لذلك يمكن Hadoop هضم أي بيانات غير منظم بسهولة.


توفر مجموعات Hadoop التخزين والحوسبة

لقد رأينا كيف أن وجود مجموعات تخزين ومعالجة منفصلة ليس هو الأنسب للبيانات الضخمة. مجموعات Hadoop ، ومع ذلك ، توفر التخزين والحوسبة الموزعة في كل واحدة.

حالة العمل ل Hadoop

يوفر Hadoop تخزين البيانات الكبيرة بتكلفة معقولة

تخزين البيانات الكبيرة باستخدام التخزين التقليدي قد يكون مكلفًا. بنيت Hadoop حول الأجهزة السلعية ، لذلك يمكن أن توفر تخزين كبير إلى حد ما بتكلفة معقولة. وقد استخدم Hadoop في هذا المجال في نطاق بيتابايت.


اقترحت دراسة أجراها كلودرا أن الشركات عادة ما تنفق ما بين 25000 دولار إلى 50،000 دولار لكل تيرابايت سنويا. مع Hadoop ، تنخفض هذه التكلفة إلى بضعة آلاف من الدولارات لكل تيرابايت في السنة. عندما تصبح الأجهزة أرخص وأرخص ، تستمر هذه التكلفة في الانخفاض.


Hadoop يسمح لالتقاط بيانات جديدة أو أكثر

في بعض الأحيان ، لا تلتقط المؤسسات نوعًا من البيانات نظرًا لأن تخزينها أمر باهظ التكلفة. منذ توفر Hadoop التخزين بتكلفة معقولة ، يمكن التقاط هذا النوع من البيانات وتخزينها.


مثال واحد سيكون سجلات النقر موقع. نظرًا لأن حجم هذه السجلات يمكن أن يكون مرتفعًا للغاية ، فليس هناك العديد من المنظمات التي احتلتها. الآن مع Hadoop ، من الممكن التقاط وتخزين السجلات.


مع Hadoop ، يمكنك تخزين البيانات لفترة أطول

لإدارة حجم البيانات المخزنة ، تقوم الشركات بشكل دوري بتطهير البيانات القديمة. على سبيل المثال ، يمكن تخزين سجلات الأشهر الثلاثة الأخيرة فقط ، بينما تم حذف السجلات القديمة. مع Hadoop ، من الممكن تخزين البيانات التاريخية لفترة أطول. هذا يسمح بإجراء تحليلات جديدة على البيانات التاريخية القديمة.


على سبيل المثال ، خذ سجلات النقر من موقع على شبكة الإنترنت. قبل بضع سنوات ، تم تخزين هذه السجلات لفترة وجيزة من الوقت لحساب إحصاءات مثل الصفحات الشائعة. الآن مع Hadoop ، يمكن تخزين سجلات النقرات هذه لفترة أطول من الوقت.


Hadoop يوفر تحليلات قابلة للتطوير

لا فائدة في تخزين كل هذه البيانات إذا لم نتمكن من تحليلها. لا توفر Hadoop تخزينًا موزعًا فحسب ، بل توفر أيضًا معالجة موزعة أيضًا ، مما يعني أنه يمكننا توفير كمية كبيرة من البيانات بشكل متواز. إطار عمل حساب Hadoop يسمى MapReduce. وقد ثبت MapReduce إلى حجم بيتابايت.


Hadoop يوفر تحليلات غنية

يدعم Native MapReduce Java كلغة برمجة أساسية. يمكن استخدام لغات أخرى مثل Ruby و Python و R أيضًا.


بطبيعة الحال ، فإن كتابة كود MapReduce المخصص ليس هو الطريقة الوحيدة لتحليل البيانات في Hadoop. خريطة المستوى الأعلى تقليل متاح. على سبيل المثال ، تأخذ الأداة المسماة Pig اللغة الإنجليزية مثل لغة تدفق البيانات وترجمتها إلى MapReduce. أداة أخرى ، Hive ، تأخذ استعلامات SQL وتقوم بتشغيلها باستخدام MapReduce.


يمكن أن توفر أدوات ذكاء الأعمال (BI) مستوى أعلى من التحليل. هناك أدوات لهذا النوع من التحليل كذلك.


هذا المحتوى مقتبس من "Hadoop Illuminated" لمارك كيرزنر و Sujee Maniyam. لقد تم توفيره عبر ترخيص Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Unported.

كيف يساعد hadoop في حل مشكلة البيانات الكبيرة