مقدمة موجزة لخلية اباتشي وخنزير

2025

Apache Hive هو إطار يتواجد فوق Hadoop للقيام باستعلامات مخصصة على البيانات في Hadoop. يدعم Hive HiveQL ، والذي يشبه SQL ، لكنه لا يدعم الإنشاءات الكاملة لـ SQL.

يقوم Hive بتغطية استعلام HiveQL في برنامج Java MapReduce ثم إرساله إلى نظام Hadoop. يمكن تحقيق نفس النتيجة باستخدام HiveQL و Java MapReduce ، ولكن باستخدام Java MapReduce سيتطلب الكثير من التعليمات البرمجية المراد كتابتها / تصحيحها مقارنة بـ HiveQL. لذلك ، HiveQL يزيد إنتاجية المطور.

لتلخيص ، يوفر Hive ، من خلال لغة HiveQL ، تجريدًا عالي المستوى عبر برمجة Java MapReduce. كما هو الحال مع أي تجريد آخر عالي المستوى ، هناك القليل من الأداء العام باستخدام HiveQL بالمقارنة مع Java MapReduce ، ولكن مجتمع Hive يعمل على تضييق هذه الفجوة لمعظم السيناريوهات الشائعة الاستخدام.

على نفس المنوال ، يوفر Pig تجريدًا بمستوى أعلى عبر MapReduce. يدعم Pig إنشاءات PigLatin ، والتي يتم تحويلها إلى برنامج Java MapReduce ثم يتم إرسالها إلى نظام Hadoop.

بينما HiveQL هي لغة تعريفية مثل SQL ، PigLatin هي لغة تدفق البيانات. يمكن إرسال إخراج بناء PigLatin واحد كمدخلات إلى بناء PigLatin آخر وهكذا.

في وقت ما ، نشرت Cloudera إحصائيات حول شخصية عبء العمل في مجموعة Hadoop نموذجية ويمكن ملاحظة أن وظائف Pig and Hive تشكل جزءًا جيدًا من الوظائف في مجموعة Hadoop. بسبب ارتفاع إنتاجية المطورين ، تختار العديد من الشركات ملخصات ذات مستوى أعلى مثل Pig and Hive. لذلك ، يمكننا أن نراهن أنه سيكون هناك الكثير من فرص العمل حول Hive and Pig بالمقارنة مع تطوير MapReduce.

على الرغم من نشر كتاب Programming Pig في أكتوبر 2011 ، تم نشر كتاب Programming Hive مؤخرًا ، في أكتوبر 2012. بالنسبة لأولئك الذين لديهم خبرة في العمل مع RDBMS ، سيكون البدء باستخدام Hive خيارًا أفضل من البدء في Pig. لاحظ أيضًا أن لغة PigLatin ليس من الصعب جدًا البدء بها.

بالنسبة إلى نظام Hadoop الأساسي ، يكون شفافًا سواء تم تقديم مهمة Java MapReduce أو تم تقديم مهمة MapReduce من خلال Hive و Pig. بسبب الطبيعة الموجهة للدفعة لوظائف MapReduce ، فإن الوظائف المقدمة من خلال Hive و Pig هي أيضًا موجهة للدفعة في الطبيعة.

لمتطلبات الاستجابة في الوقت الحقيقي ، لا تلبي Hive and Pig المتطلبات بسبب الطبيعة الموجهة للدفعة المذكورة سابقًا لوظائف MapReduce. قامت Cloudera بتطوير Impala ، والتي تستند إلى Dremel (منشور من Google) للاستعلامات المخصصة التفاعلية أعلى Hadoop. يدعم Impala استعلامات تشبه SQL ومتوافق مع HiveQL. لذلك ، يجب أن تعمل أي تطبيقات مبنية على أعلى خلية مع الحد الأدنى من التغييرات مع Impala. الفرق الرئيسي بين Hive و Impala هو أنه بينما يتم تحويل HiveQL إلى وظائف Java MapReduce ، فإن Impala لا تغطي استعلام SQL في مهام Java MapReduce.

يجب أن تذهب مع خنزير أو خلية لمتطلبات معينة؟ هذا موضوع لمدونة أخرى.

أعيد نشرها بإذن من برافين سريباتي. يمكن الاطلاع على المقالة الأصلية هنا: http://www.thecloudavenue.com/2012/12/introduction-to-apache-hive-and-pig.html

مقدمة موجزة لخلية اباتشي وخنزير

مقدمة لنموذج osi

مقدمة لرموز ريال قطري

مقدمة إلى البيتكوين: هل يمكن أن تعمل العملة الافتراضية؟

اختيار المحرر

ما هي التحليلات المتقدمة؟ - تعريف من techopedia

ما هو مسبك سحابة؟ - تعريف من techopedia

ما هو betamax (تجريبي)؟ - تعريف من techopedia

ما هو بواب البيانات؟ - تعريف من techopedia

اختيار المحرر

ما هي اللغة المتكاملة الاستعلام (linq)؟ - تعريف من techopedia

ما هي مكتبة البرامج؟ - تعريف من techopedia

ما هي الحلقة؟ - تعريف من techopedia

ما هي الترجمة؟ - تعريف من techopedia

اختيار المحرر

ما هي خوارزمية الفرز؟ - تعريف من techopedia

ما هو موظف حماية البيانات (dpo)؟ - تعريف من techopedia

ما هو المبشر المطور؟ - تعريف من techopedia

ما هو جدار الحماية القائم على المضيف؟ - تعريف من techopedia

اختيار المحرر

ما هي قائمة التحكم في الوصول إلى java (java acl)؟ - تعريف من techopedia

ما هو جناح إنترانت؟ - تعريف من techopedia

ما هي بوابة المؤسسة العمودية (vep)؟ - تعريف من techopedia

ما هي غرفة البيانات الافتراضية (vdr)؟ - تعريف من techopedia

اختيار المحرر

ما هو نموذج بيانات المؤسسة؟ - تعريف من techopedia

ما هو التنقيب عن البيانات التنبؤية؟ - تعريف من techopedia

ما هو نموذج البيانات الكنسي (آلية التنمية النظيفة)؟ - تعريف من techopedia

ما هي حافلة التوسع؟ - تعريف من techopedia

الفئات الشعبية