جدول المحتويات:
يعد SQL on Hadoop عبارة عن مجموعة من أدوات التطبيق التحليلية التي تجمع بين الاستعلام على غرار SQL ومعالجة البيانات مع أحدث عناصر إطار عمل Hadoop. يعد ظهور SQL على Hadoop تطورًا مهمًا لمعالجة البيانات الكبيرة لأنه يتيح لمجموعات أكبر من الأشخاص العمل بنجاح مع إطار معالجة بيانات Hadoop من خلال تشغيل استعلامات SQL على وحدات التخزين الضخمة من البيانات الكبيرة التي يعالجها Hadoop. من الواضح أن إطار Hadoop لم يكن متاحًا للناس في السابق ، خاصة فيما يتعلق بقدرات الاستعلام الخاصة به. استنادًا إلى التطوير ، كانت هناك العديد من الأدوات في الأعمال التي تعد بتحسين إنتاجية المؤسسات عندما يتعلق الأمر بمعالجة البيانات الكبيرة وتحليلها بالجودة والسرعة. ليست هناك حاجة أيضًا إلى استثمار الكثير في تعلم الأداة ، كما ينبغي أن تفعل المعرفة التقليدية لـ SQL.
تعريف SQL على Hadoop
SQL على Hadoop هي مجموعة من التطبيقات التي تتيح لك تشغيل استعلامات SQL بأسلوب البيانات الكبيرة التي يستضيفها إطار معالجة البيانات Hadoop. من الواضح أن الاستعلام عن البيانات واسترجاعها وتحليلها أصبح أسهل مع إضافة SQL على Hadoop. نظرًا لأن SQL تم تصميمه في الأصل لقواعد البيانات العلائقية ، فقد تم تعديله وفقًا لنموذج Hadoop 1 الذي يتضمن MapReduce ونظام الملفات الموزعة Hadoop (HDFS) ، ونموذج Hadoop 2 الذي لا يحتوي على MapReduce و HDFS.
أحد الجهود الأولى لدمج SQL مع Hadoop أسفرت عن إنشاء مستودع بيانات Hive مع برنامج HiveQL والذي يمكن أن يترجم استعلامات نمط SQL إلى مهام MapReduce. بعد ذلك ، تم تطوير العديد من التطبيقات التي يمكن أن تؤدي وظائف مماثلة. من بين الأدوات الأحدث هي Drill و BigSQL و HAWQ و Impala و Hadapt و Stinger و H-SQL و Splice Machine و Presto و PolyBase و Spark و JethroData و Shark (Hive on Spark) و Tez (Hive on Tez).