جدول المحتويات:
التعريف - ماذا يعني Apache Nutch؟
Apache Nutch هو منتج برنامج زاحف ويب يمكن استخدامه لتجميع البيانات من الويب. يتم استخدامه بالتزامن مع أدوات Apache الأخرى ، مثل Hadoop ، لتحليل البيانات.
تيكوبيديا تشرح أباتشي ناتش
Apache Nutch هو منتج مفتوح المصدر مرخص من قبل Apache Software Foundation. يمتلك مجتمع المطورين هذا تراخيص لمجموعة من أدوات برامج Apache التي يمكنها فرز البيانات وتحليلها. واحدة من التقنيات المركزية هي Apache Hadoop ، أداة تحليل البيانات الكبيرة التي تحظى بشعبية كبيرة في مجتمع الأعمال.
إلى جانب أدوات مثل Apache Hadoop وميزات لتخزين الملفات وتحليلها والمزيد ، فإن دور Nutch هو جمع وتخزين البيانات من الويب من خلال استخدام خوارزميات تتبع ارتباطات الويب.
يمكن للمستخدمين الاستفادة من الأوامر البسيطة في Apache Nutch لجمع المعلومات تحت عناوين URL. يستخدم المستخدمون عادة Apache Nutch مع أداة أخرى مفتوحة المصدر ، وهي إطار يسمى Apache Solr ، والذي يمكن أن يكون بمثابة مستودع للبيانات التي تم جمعها مع Apache Nutch.