بيت سمعي كيف يساعد أقصى تجمع على جعل alexnet تقنية رائعة لمعالجة الصور؟

كيف يساعد أقصى تجمع على جعل alexnet تقنية رائعة لمعالجة الصور؟

Anonim

Q:

كيف يساعد أقصى تجمع على جعل AlexNet تقنية رائعة لمعالجة الصور؟

أ:

في AlexNet ، وهي شبكة عصبية تلافيفية مبتكرة ، يتم إدخال مفهوم تجمع الحد الأقصى في نموذج معقد مع طبقات تلافيفية متعددة ، جزئياً للمساعدة في تركيب وتبسيط العمل الذي تقوم به الشبكة العصبية في العمل مع الصور مع ما يسميه الخبراء "استراتيجية الاختزال غير الخطية".

تعتبر AlexNet على نطاق واسع CNN رائعة ، بعد أن فازت بـ ILSVRC 2012 (تحدي ImageNet على نطاق واسع للاعتراف البصري) ، والذي يعتبر حدثًا فاصلاً للتعلم الآلي والتقدم في الشبكة العصبية (يطلق عليه البعض "أولمبياد" رؤية الكمبيوتر ).

في إطار الشبكة ، حيث يتم تقسيم التدريب إلى وحدتي معالجة GPU ، توجد خمس طبقات تلافيفية وثلاث طبقات متصلة بالكامل وبعض عمليات التنفيذ القصوى للتجميع.

بشكل أساسي ، يأخذ التجميع الأقصى "تجمع" المخرجات من مجموعة من الخلايا العصبية ويطبقها على قيم الطبقة اللاحقة. هناك طريقة أخرى لفهم ذلك وهي أن نهج التجميع الأقصى يمكنه دمج القيم وتبسيطها من أجل ملائمة النموذج بشكل أكثر ملاءمة.

تجمع ماكس يمكن أن تساعد في حساب التدرجات. يمكن للمرء أن يقول أنه "يقلل من عبء حساب" أو "يتقلص التجاوز" - من خلال الاختزال ، تجمع أقصى تجمع ما يسمى "الحد من الأبعاد".

يتناول تقليل الأبعاد مشكلة وجود نموذج معقد يصعب تشغيله عبر شبكة عصبية. تخيل شكلًا معقدًا ، مع العديد من الأكواخ الصغيرة المتعرجة ، وكل جزء صغير من هذا الخط يمثله نقطة بيانات. مع تقليل الأبعاد ، يساعد المهندسون برنامج التعلم الآلي على "التصغير" أو أخذ عينات من نقاط بيانات أقل ، لجعل النموذج ككل أكثر بساطة. لهذا السبب إذا نظرت إلى طبقة التجميع القصوى وإخراجها ، يمكنك في بعض الأحيان رؤية بكسل أبسط يتوافق مع استراتيجية تقليل الأبعاد.

تستخدم AlexNet أيضًا وظيفة تسمى الوحدات الخطية المعدلة (ReLU) ، ويمكن أن يكون التجميع الأقصى مكملاً لهذه التقنية في معالجة الصور عبر CNN.

قدم الخبراء والمشاركون في المشروع نماذج بصرية وفيرة ومعادلات وتفاصيل أخرى لإظهار البنية المحددة لـ AlexNet ، ولكن بمعنى عام ، يمكنك التفكير في التجميع الأقصى كالتحالف أو دمج مخرجات الخلايا العصبية الاصطناعية المتعددة. هذه الإستراتيجية جزء من البنية الشاملة لشبكة CNN ، التي أصبحت مرادفًا لرؤية الأجهزة المتطورة وتصنيف الصور.

كيف يساعد أقصى تجمع على جعل alexnet تقنية رائعة لمعالجة الصور؟