بيت سمعي كيف أصبح تجريف البيانات للتعلم الآلي عنق الزجاجة الأكثر كثافة لليد العاملة منذ الإدخال اليدوي للبيانات في الترحيل القديم؟

كيف أصبح تجريف البيانات للتعلم الآلي عنق الزجاجة الأكثر كثافة لليد العاملة منذ الإدخال اليدوي للبيانات في الترحيل القديم؟

Anonim

Q:

كيف أصبح تجريف البيانات للتعلم الآلي عنق الزجاجة الأكثر كثافة لليد العاملة منذ الإدخال اليدوي للبيانات في الترحيل القديم؟

أ:

إحدى المشكلات العملية التي قد تواجهها الشركات عند محاولة بدء مشروع التعلم الآلي (ML) هي التحدي المتمثل في الحصول على مجموعات بيانات التدريب الأولية. قد يشمل ذلك عمليات كثيفة العمالة مثل تجريف الويب أو تجريف البيانات الأخرى.

تشير مصطلحات "تجريد الويب" و "تجريد البيانات" إلى حد كبير إلى النشاط الآلي بواسطة برنامج الكمبيوتر ، ولكن بالنسبة للعديد من مشاريع ML ، ستكون هناك حالات لا يكون لدى أجهزة الكمبيوتر فيها التطور لجمع البيانات المستهدفة الصحيحة ، لذلك يجب القيام بذلك "باليد." هذا قد تسميه "ويب البشرية / كشط البيانات" ، وهي وظيفة ناكر للجميل. يتضمن ذلك عمومًا البحث عن البيانات أو الصور "لتغذية" برنامج ML من خلال مجموعات التدريب. غالبًا ما يكون تكراريًا إلى حد ما ، مما يجعله عمل شاقًا وبطيئًا وصعبًا.

تحميل مجاني: تعلم الآلة ولماذا يهم

يمثل تجريف البيانات لمجموعات التدريب العملي مشكلة اختناق فريد في التعلم الآلي ، ويعزى ذلك جزئيًا إلى أن الكثير من الأعمال الأخرى مفاهيمية للغاية وليست متكررة. يمكن للعديد من الأشخاص التوصل إلى فكرة رائعة لتطبيق جديد يقوم بمهام تعلم الآلة ، ولكن الصواميل والمسامير والعمل العملي قد تكون أكثر صعوبة. على وجه الخصوص ، يمكن أن يكون تفويض عمل تجميع مجموعات التدريب في الواقع أحد أصعب أجزاء مشروع ML ، كما تم استكشافه بالكامل في برنامج Mike Judge التلفزيوني "Silicon Valley". في الحلقة الرابعة من الموسم ، قام رجل أعمال ناشط أولاً بتخويف شريك في القيام بالعمل كثيف العمالة ، ثم يحاول تمريره إلى طلاب الجامعات عن طريق إخفاءه كواجب منزلي.

هذا المثال مفيد لأنه يُظهر مدى كراهية البيانات غير اليدوية التي تبدو غير مهمة. ومع ذلك ، فإنه يدل أيضًا على أن هذه العملية ضرورية لمجموعة واسعة من منتجات التعلم الآلي. على الرغم من أن معظم الناس يكرهون إدخال البيانات ، إلا أنه يجب تجميع مجموعات التدريب بطريقة ما. غالبًا ما ينصح الخبراء في هذه العملية باستخدام خدمة تجريف الويب - وهي مجرد الاستعانة بمصادر خارجية في هذا العمل الذي يتطلب عمالة مكثفة للغاية لأطراف خارجية ، ولكن قد يكون لذلك تداعيات أمنية ويتسبب في مشاكل أخرى. عند الاحتفاظ بالعمل اليدوي لجمع البيانات في المنزل ، مرة أخرى ، يجب أن يكون هناك نص مخصص لما هو في كثير من الأحيان عملية يدوية للغاية وتستغرق وقتًا طويلاً.

في بعض النواحي ، يبدو "تجريف البيانات البشرية" للتعلم الآلي بمثابة الإدخال اليدوي للبيانات الذي كان يجب القيام به في بعض الأحيان في الترحيل القديم. نظرًا لأن السحابة أصبحت أكثر شيوعًا ، ووضعت الشركات عملياتها وسير عملها في السحابة ، فقد وجد البعض أنها لم تعمل من خلال الجوانب العملية لكيفية الحصول على بيانات الشركة من نظام قديم معزول إلى تطبيقات سحابة أصلية. نتيجة لذلك ، وجد بعض الأشخاص الذين كانوا بخلاف ذلك علماء بيانات أو أشخاص مبدعين لديهم مهارات تقنية معلومات أساسية أنفسهم يقومون بمهام غير سارة لإدخال البيانات.

من المرجح أن يحدث الشيء نفسه مع التعلم الآلي. قد تسمع عالم بيانات يشتكي من "أنا شخص مبدع" أو "أنا في جانب التنمية" - لكن على شخص ما القيام بالعمل القذر.

مرة أخرى ، إذا لم يقابل التدفق الإبداعي تقييم عملي لتفويض سير العمل ، فسيكون هناك عدم تطابق في كيفية توجيه معالجة المهام. عندما لا يكون لدى شركة ما أشخاص للقيام بعمل تجميع البيانات في جمع مجموعات البيانات ، فإنها تفتقر إلى جزء أساسي من سلسلة الإجراءات لمشروع ناجح. يجدر بنا أن نضع ذلك في الاعتبار في أي وقت تحاول فيه إحدى الشركات الاستفادة من فكرة تستند إلى تطوير تطبيقات تعلم الآلة الجديدة.

كيف أصبح تجريف البيانات للتعلم الآلي عنق الزجاجة الأكثر كثافة لليد العاملة منذ الإدخال اليدوي للبيانات في الترحيل القديم؟