Q:
كيف يمكنني تعلم استخدام Hadoop لتحليل البيانات الكبيرة؟
أ:أصبحت مجموعة برامج Apache المعروفة باسم Hadoop مورداً شائعًا للتعامل مع مجموعات البيانات الكبيرة. تم بناء هذا النوع من إطار عمل برنامج معالجة البيانات للمساعدة في تجميع البيانات بطرق محددة ، استنادًا إلى التصميمات التي قد تجعل بعض أنواع مشاريع البيانات أكثر كفاءة. ومع ذلك ، فإن Hadoop ليست سوى واحدة من العديد من الأدوات للتعامل مع مجموعات البيانات الكبيرة.
تتمثل إحدى الطرق الأولى والأكثر أساسية للتعرف على تحليل البيانات الضخمة باستخدام Hadoop في فهم بعض مكونات المستوى الأعلى في Hadoop وما تفعله. وتشمل هذه "Hadoop YARN" منصة إدارة الموارد "التي يمكن تطبيقها على أنواع معينة من إعدادات الشبكة ، وكذلك مجموعة Hadoop MapReduce من الوظائف التي تنطبق على مجموعات البيانات الكبيرة. يوجد أيضًا نظام ملفات Hadoop الموزع (HDFS) ، والذي يساعد على تخزين البيانات عبر الأنظمة الموزعة بحيث يمكن فهرستها أو استردادها بسرعة وكفاءة.
علاوة على ذلك ، يمكن لأولئك الذين يريدون أن يصبحوا أكثر دراية بـ Hadoop أن يبحثوا في الموارد المنشورة الفردية للمحترفين الذين يشرحون البرنامج على مستوى قابل للربط. يقدم هذا المثال من Chris Stucchio في مدونة شخصية مجموعة ممتازة من النقاط حول Hadoop ومقياس البيانات. واحدة من الوجبات الأساسية هي أن Hadoop قد يكون أكثر استخدامًا مما هو ضروري ، وقد لا يكون الحل الأفضل لمشروع فردي. ستساعد مراجعة هذه الأنواع من الموارد المهنيين في التعرف على تفاصيل استخدام Hadoop في أي سيناريو معين. يوفر Stucchio أيضًا استعارات لربط وظائف Hadoop بمهام جسدية محددة. هنا ، يحسب المثال عدد الكتب في المكتبة ، في حين أن دالة Hadoop قد تقسم هذه المكتبة إلى أقسام ، مما يوفر تعدادات فردية ممزوجة في نتيجة بيانات مجمعة واحدة.
تتمثل الطريقة الأكثر عمقًا التي يمكن للمهنيين من خلالها معرفة المزيد عن Hadoop وتطبيقه على البيانات الضخمة من خلال موارد وبرامج تدريب محددة. على سبيل المثال ، لدى شركة التعلم عبر الإنترنت Cloudera ، وهي مزود بارز لجلسات التدريب عن بعد ، عدد من الخيارات المثيرة للاهتمام حول استخدام Hadoop وأنواع مماثلة من معالجة البيانات.