جدول المحتويات:
يتحدث الجميع عن Hadoop ، التكنولوجيا الجديدة الساخنة التي تحظى بتقدير كبير بين المطورين وقد تغير العالم (مرة أخرى). ولكن فقط ما هو ، على أي حال؟ هل هي لغة برمجة؟ قاعدة البيانات؟ نظام المعالجة؟ شاي هندي مريح؟
الجواب العريض: Hadoop هو كل هذه الأشياء (باستثناء الشاي دافئ) ، وأكثر من ذلك. إنها مكتبة برامج توفر إطار عمل برمجيًا للمعالجة الرخيصة والمفيدة للكلمة الطنانة الحديثة: البيانات الضخمة.
من أين جاء Hadoop؟
يعد Apache Hadoop جزءًا من مشروع Foundation من Apache Software Foundation ، وهي منظمة غير ربحية تتمثل مهمتها في "توفير برامج للصالح العام". على هذا النحو ، فإن مكتبة Hadoop هي برامج مجانية مفتوحة المصدر متاحة لجميع المطورين.
التقنية الأساسية التي تعمل على تشغيل Hadoop اخترعتها Google فعليًا. بالعودة إلى الأيام الأولى ، احتاج محرك البحث غير العملاق إلى طريقة لفهرسة الكميات الهائلة من البيانات التي يجمعونها من الإنترنت ، وتحويلها إلى نتائج مفيدة وذات صلة لمستخدميها. نظرًا لعدم توفر أي شيء في السوق يمكنه تلبية متطلباتهم ، فقد بنت Google نظامها الأساسي.
تم إصدار هذه الابتكارات في مشروع مفتوح المصدر أطلق عليه Nutch ، والذي استخدمه Hadoop فيما بعد كأساس. بشكل أساسي ، يطبق Hadoop قدرة Google على البيانات الكبيرة بطريقة ميسورة التكلفة للشركات من جميع الأحجام.
كيف يعمل Hadoop؟
كما ذكرنا سابقًا ، Hadoop ليس شيئًا واحدًا - إنه أشياء كثيرة. تتكون مكتبة البرامج التي تحتوي على Hadoop من أربعة أجزاء أساسية (وحدات) ، وعدد من الحلول الإضافية (مثل قواعد البيانات ولغات البرمجة) التي تعزز استخدامها في العالم الحقيقي. الوحدات الأربعة هي:- Hadoop Common: هذه هي مجموعة الأدوات الشائعة (المكتبة العامة) التي تدعم وحدات Hadoop.
- نظام الملفات الموزعة Hadoop (HDFS): نظام ملفات موزع قوي بدون قيود على البيانات المخزنة (مما يعني أنه يمكن هيكلة البيانات أو عدم تنظيمها وتخطيطها ، حيث ستقوم العديد من DFSs فقط بتخزين البيانات المنظمة) التي توفر وصولاً عالي الإنتاجية مع التكرار ( يسمح HDFS بتخزين البيانات على أجهزة متعددة - لذلك إذا فشل أحد الأجهزة ، فسيتم الحفاظ على التوفر من خلال الأجهزة الأخرى).
- Hadoop YARN: هذا الإطار مسؤول عن جدولة الوظائف وإدارة موارد الكتلة ؛ فإنه يتأكد من أن البيانات موزعة بما فيه الكفاية على أجهزة متعددة للحفاظ على التكرار. YARN هي الوحدة التي تجعل Hadoop وسيلة ميسورة التكلفة وفعالة من حيث التكلفة لمعالجة البيانات الضخمة.
- Hadoop MapReduce: هذا النظام القائم على YARN ، المبني على تقنية Google ، ينفذ معالجة متوازية لمجموعات البيانات الكبيرة (منظم وغير منظم). يمكن العثور على MapReduce أيضًا في معظم أطر معالجة البيانات الكبيرة اليوم ، بما في ذلك قواعد بيانات MPP و NoSQL.
الأجهزة التي يمكنها التعامل مع مقدار طاقة المعالجة المطلوبة للعمل مع البيانات الضخمة باهظة الثمن ، بعبارة ملطفة. هذا هو الابتكار الحقيقي في Hadoop: القدرة على تحطيم كميات هائلة من طاقة المعالجة عبر أجهزة أصغر متعددة ، ولكل منها حسابها وتخزينها المحليين ، بالإضافة إلى التكرار المدمج على مستوى التطبيق لمنع حالات الفشل.
ماذا Hadoop تفعل؟
ببساطة ، Hadoop يجعل البيانات الكبيرة في متناول الجميع وقابلة للاستخدام.
قبل Hadoop ، فعلت الشركات التي كانت تستخدم البيانات الكبيرة ذلك في الغالب باستخدام قواعد البيانات الترابطية ومستودعات بيانات المؤسسات (التي تستخدم كميات هائلة من الأجهزة باهظة الثمن). على الرغم من أن هذه الأدوات رائعة لمعالجة البيانات المهيكلة - وهي بيانات تم فرزها وتنظيمها بالفعل بطريقة يمكن التحكم فيها - إلا أن سعة معالجة البيانات غير المهيكلة كانت محدودة للغاية ، لدرجة أنها كانت غير موجودة من الناحية العملية. لكي تكون صالحة للاستعمال ، يجب أولاً تنظيم البيانات بحيث تتلاءم مع الجداول.
يغير إطار Hadoop هذا المطلب ، ويفعل ذلك بثمن بخس. مع Hadoop ، يمكن معالجة كميات هائلة من البيانات من 10 إلى 100 غيغابايت وما فوق ، منظم وغير منظم ، باستخدام خوادم عادية (سلعة).
Hadoop يجلب تطبيقات البيانات الكبيرة المحتملة للشركات من جميع الأحجام ، في كل صناعة. يتيح إطار العمل مفتوح المصدر لشركات التمويل إنشاء نماذج متطورة لتقييم المحافظ وتحليل المخاطر ، أو تجار التجزئة على الإنترنت لضبط إجابات البحث الخاصة بهم وتوجيه العملاء نحو المنتجات التي يرجح أن يشتروها.
مع Hadoop ، الاحتمالات لا حدود لها حقا.