جدول المحتويات:
يعد Apache Hadoop أساسًا لتطبيقات البيانات الضخمة لفترة طويلة الآن ، ويعتبر منصة البيانات الأساسية لجميع العروض المتعلقة بالبيانات الكبيرة. ومع ذلك ، تكتسب قاعدة البيانات والحساب في الذاكرة شعبية بسبب الأداء السريع والنتائج السريعة. يعد Apache Spark إطارًا جديدًا يستخدم إمكانات في الذاكرة لتقديم معالجة سريعة (أسرع 100 مرة تقريبًا من Hadoop). لذلك ، يتم استخدام منتج Spark بشكل متزايد في عالم من البيانات الضخمة ، وبشكل أساسي للمعالجة السريعة.
الويبينار: قوة الاقتراح: كيف يمكن لفهرس البيانات تمكين المحللين سجل هنا |
ما هو اباتشي سبارك؟
يعد Apache Spark إطار عمل مفتوح المصدر لمعالجة كميات هائلة من البيانات (البيانات الضخمة) بسرعة وبساطة. انها مناسبة لتطبيقات التحليلات استنادا إلى البيانات الكبيرة. يمكن استخدام Spark مع بيئة Hadoop ، مستقلة أو في السحابة. تم تطويره في جامعة كاليفورنيا ومن ثم تم تقديمه لاحقًا إلى Apache Software Foundation. وبالتالي ، فهو ينتمي إلى مجتمع مفتوح المصدر ويمكن أن يكون فعالًا من حيث التكلفة ، مما يسمح أيضًا لمطوري الهواة بالعمل بسهولة. (لمعرفة المزيد حول المصدر المفتوح Hadoop ، راجع ما هو تأثير المصدر المفتوح على Apache Hadoop Ecosystem؟)
الغرض الرئيسي من Spark هو أنها توفر للمطورين إطار عمل للتطبيق يعمل حول بنية بيانات مركزية. تعتبر Spark قوية للغاية ولديها القدرة الفطرية على معالجة كميات هائلة من البيانات بسرعة في فترة زمنية قصيرة ، مما يوفر أداءً جيدًا للغاية. وهذا يجعلها أسرع بكثير مما يقال إنه أقرب منافس لها ، Hadoop.