بيت سمعي ما هو التنقيب عن البيانات النصية؟ - تعريف من techopedia

ما هو التنقيب عن البيانات النصية؟ - تعريف من techopedia

جدول المحتويات:

Anonim

التعريف - ماذا يعني تعدين بيانات النص؟

يتضمن استخراج البيانات النصية التمشيط عبر مستند نصي أو مورد للحصول على معلومات منظمة ذات قيمة. يتطلب ذلك أدوات تحليلية متطورة تقوم بمعالجة النص من أجل جمع كلمات رئيسية معينة أو نقاط بيانات رئيسية من التنسيقات الأولية أو غير المهيكلة نسبيًا.

يُعرف استخراج بيانات النص أيضًا باسم تحليل النص أو تحليل النص.

يشرح Techopedia تعدين البيانات النصية

في التنقيب عن البيانات النصية ، تستخدم الأنظمة الهندسية أشياء مثل التصنيفات والتحليل المعجمي لتحديد أجزاء وثيقة نصية ذات قيمة مثل البيانات المستخرجة. تعد النماذج الإحصائية مفيدة بشكل شائع ، وقد تستخدم الأنظمة أيضًا الاستدلال ، أو التخمين الحسابي ، لمحاولة تحديد أجزاء النص المهمة. تتضمن أنظمة التحكم الأخرى وضع العلامات وتحليل الكلمات الرئيسية ، حيث تبحث الأدوات عن أسماء محددة محددة أو علامات وكلمات رئيسية أخرى لمعرفة ما يتم كتابته.

غالبًا ما يسمى مكون فريد آخر من التنقيب عن النص بتحليل المعنويات. في تحليل المعنويات ، وهو عادة أكثر صعوبة بكثير من التحليل الإحصائي ، تحاول الأدوات التحليلية اكتشاف الحالة المزاجية أو المعنويات وراء النص المكتوب والجوانب الأخرى لما يتناوله على مستوى ذاتي وبديهي للغاية. مع ظهور أدوات الذكاء الاصطناعي ، تم إحراز الكثير من التقدم في تحليل المعنويات ، مثل أن استخراج البيانات النصية الحديثة هو أكثر من مجرد جمع المراجع الكمية وينطوي على جلب نماذج مفاهيمية عالية المستوى لاستخراج النص لاكتشاف طرق جديدة وفريدة من نوعها لتجميع البيانات القيمة.

ما هو التنقيب عن البيانات النصية؟ - تعريف من techopedia