جدول المحتويات:
- كيف بدأت Hadoop في بدايتها؟
- ما هو المهم في Hadoop؟
- ما هو مخطط القراءة؟
- ما هي خلية النحل؟
- ما نوع البيانات التي يقوم Hadoop بتحليلها؟
- هل يمكنك إعطاء مثال في العالم الحقيقي على Hadoop؟
- هل Hadoop بالفعل عفا عليها الزمن أو مجرد تتحول؟
ما هو Hadoop؟ انها لعبة صفراء الفيل. ليس ما كنت تتوقع؟ ماذا عن هذا: استعار Doug Cutting - أحد المشاركين في إنشاء هذا البرنامج المفتوح المصدر - اسم ابنه الذي حدث لاستدعاء لعبته الفيل Hadoop. باختصار ، Hadoop هو إطار برنامج تم تطويره من قِبل مؤسسة Apache Software Foundation التي تستخدم لتطوير الحوسبة الموزعة التي تستهلك الكثير من البيانات. وهو عنصر أساسي في برامج قراءة الكلمات الطنانة الأخرى لا يمكن أن يبدو أنها تحصل على ما يكفي من: البيانات الضخمة. إليك سبعة أشياء يجب أن تعرفها عن هذا البرنامج الفريد المرخص به بحرية.
كيف بدأت Hadoop في بدايتها؟
قبل اثني عشر عامًا ، أنشأت Google منصة لمعالجة كميات البيانات الضخمة التي كانت تجمعها. مثلما تفعل الشركة غالبًا ، أتاحت Google تصميمها للجمهور في شكل ورقتين: نظام ملفات Google و MapReduce.
في الوقت نفسه ، كان دوغ كتينغ ومايك كافاريلا يعملان على محرك بحث جديد Nutch. وكانا يناضلان أيضًا في كيفية التعامل مع كميات كبيرة من البيانات. ثم حصل الباحثان على ريح من أوراق جوجل. غير ذلك التقاطع المحظوظ كل شيء عن طريق إدخال نظام Cut and Cafarella لنظام ملفات أفضل وطريقة لتتبع البيانات ، مما أدى في النهاية إلى إنشاء Hadoop.
ما هو المهم في Hadoop؟
اليوم ، أصبح جمع البيانات أسهل من أي وقت مضى. توفر كل هذه البيانات العديد من الفرص ، ولكن هناك تحديات أيضًا:- تتطلب كميات هائلة من البيانات طرقًا جديدة للمعالجة.
- البيانات التي يتم التقاطها بتنسيق غير منظم.
بعد ذلك ، كان يتعين عليهم معالجة البيانات أو البيانات غير المهيكلة بتنسيقات لم تتمكن أنظمة قواعد البيانات العلائقية القياسية من معالجتها. صمم Cut and Cafarella Hadoop للعمل مع أي نوع من البيانات: منظم ، غير منظم ، صور ، ملفات صوتية ، حتى نص. تشرح هذه الورقة البيضاء من Cloudera (دمج Hadoop) سبب أهمية ذلك:
-
"من خلال جعل جميع بياناتك قابلة للاستخدام ، وليس فقط ما هو موجود في قواعد البيانات الخاصة بك ، يتيح لك Hadoop كشف العلاقات المخفية ويكشف الإجابات التي كانت دائمًا بعيدة المنال. يمكنك البدء في اتخاذ المزيد من القرارات بناءً على البيانات الثابتة ، بدلاً من الحدس ، والبحث في مجموعات بيانات كاملة ، وليس فقط عينات وملخصات. "
ما هو مخطط القراءة؟
كما ذكرنا سابقًا ، تتمثل إحدى ميزات Hadoop في قدرتها على التعامل مع البيانات غير المنظمة. بمعنى ما ، هذا "يركل العلبة على الطريق". في النهاية ، تحتاج البيانات إلى نوع من البنية لتحليلها.
هذا هو المكان الذي يأتي المخطط في القراءة. المخطط في القراءة هو خلط التنسيق الذي توجد به البيانات ، ومكان العثور على البيانات (تذكر أن البيانات مبعثرة بين عدة خوادم) ، وما يجب القيام به للبيانات - وليس مهمة بسيطة. لقد قيل إن معالجة البيانات في نظام Hadoop يتطلب مهارات محلل أعمال وإحصائي ومبرمج جافا. لسوء الحظ ، لا يوجد الكثير من الأشخاص الذين يتمتعون بهذه المؤهلات.
ما هي خلية النحل؟
إذا كانت Hadoop ستنجح ، فيجب تبسيط العمل مع البيانات. لذا ، بدأ الحشد المفتوح المصدر في إنشاء Hive:-
"توفر Hive آلية لإسقاط البنية على هذه البيانات والاستعلام عن البيانات باستخدام لغة تشبه SQL تسمى HiveQL. وفي الوقت نفسه ، تتيح هذه اللغة أيضًا للمبرمجين التقليديين الذين يستخدمون خرائط / تقليدية أن يوصّلوا المخططين ومخفِّفاتهم المخصصين عندما يكون غير مريح أو غير فعالة للتعبير عن هذا المنطق في HiveQL. "
يتيح Hive أفضل ما في العالمين: يمكن لموظفي قاعدة البيانات المطلعين على أوامر SQL معالجة البيانات ، والمطورين المطلعين على مخطط عملية القراءة ما زالوا قادرين على إنشاء استعلامات مخصصة.
ما نوع البيانات التي يقوم Hadoop بتحليلها؟
تحليلات الويب هي أول ما يتبادر إلى الذهن ، وهو تحليل سجلات الويب وحركة المرور على الويب من أجل تحسين مواقع الويب. Facebook ، على سبيل المثال ، هو بالتأكيد في تحليلات الويب ، وذلك باستخدام Hadoop للفرز عبر تيرابايت من البيانات التي تجمعها الشركة.
تستخدم الشركات مجموعات Hadoop لإجراء تحليل المخاطر والكشف عن الاحتيال وتجزئة قاعدة العملاء. تستخدم شركات المرافق Hadoop لتحليل بيانات أجهزة الاستشعار من شبكتها الكهربائية ، مما يسمح لها بتحسين إنتاج الكهرباء. تستخدم كبرى الشركات مثل Target و 3M و Medtronics Hadoop لتحسين توزيع المنتجات وتقييم مخاطر الأعمال وتجزئة قاعدة العملاء.
تستثمر الجامعات في Hadoop أيضا. ذكر براد روبين ، الأستاذ المشارك في برامج الدراسات العليا في جامعة سانت توماس في مجال البرمجيات ، أن خبرته في Hadoop تساعد في فرز كميات وفيرة من البيانات التي جمعتها مجموعات الأبحاث في الجامعة.
هل يمكنك إعطاء مثال في العالم الحقيقي على Hadoop؟
أحد الأمثلة المعروفة هو TimesMachine. تحتوي New York Times على مجموعة من صور TIFF لصحيفة كاملة الصفحات ، وبيانات وصفية مرتبطة بها ، ونص المقالة من 1851 إلى 1922 يصل إلى تيرابايت من البيانات. NYT's Derek Gottfrid ، باستخدام نظام EC2 / S3 / Hadoop ورمز متخصص ،:-
"تم تكوين 405،000 صورة TIFF كبيرة جدًا و 3.3 مليون مقالة في ملفات SGML و 405000 xml لتعيين المقالات إلى مناطق مستطيلة في TIFF. تم تحويل هذه البيانات إلى 810،000 صورة PNG أكثر ملاءمة للويب (صور مصغرة وصور كاملة) و 405،000 ملف JavaScript. "
باستخدام الخوادم في سحابة Amazon Web Services ، ذكر Gottfrid أنهم كانوا قادرين على معالجة جميع البيانات المطلوبة لآلة TimesMachine في أقل من 36 ساعة.
هل Hadoop بالفعل عفا عليها الزمن أو مجرد تتحول؟
Hadoop كانت موجودة منذ أكثر من عقد الآن. أن يقول الكثيرون أنها عفا عليها الزمن. قال أحد الخبراء ، وهو الدكتور ديفيد ريكو ، إن "منتجات تكنولوجيا المعلومات قصيرة الأجل. في سنوات الكلاب ، يبلغ عدد منتجات Google حوالي 70 ، بينما يبلغ Hadoop 56".
قد يكون هناك بعض الحقيقة لما يقوله ريكو. يبدو أن Hadoop يمر إصلاح كبير. لمعرفة المزيد حول هذا الموضوع ، دعاني روبن إلى اجتماع مجموعة مستخدمي المدن المزدوجة Hadoop ، وكان موضوع المناقشة هو مقدمة لـ YARN:
-
"يتضمن Apache Hadoop 2 محركًا جديدًا من MapReduce ، والذي يتميز بعدد من المزايا مقارنة بالتطبيق السابق ، بما في ذلك قابلية التوسع واستخدام الموارد بشكل أفضل. تم تصميم التطبيق الجديد على نظام عام لإدارة الموارد لتشغيل التطبيقات الموزعة التي يطلق عليها YARN."