جدول المحتويات:
تعريف - ماذا يعني Tokenization؟
التوكين هو عملية تقسيم سلسلة من السلاسل إلى أجزاء مثل الكلمات والكلمات الرئيسية والعبارات والرموز والعناصر الأخرى المسماة الرموز. الرموز يمكن أن تكون كلمات فردية أو جمل أو حتى جمل كاملة. في عملية الرمز المميز ، يتم تجاهل بعض الأحرف مثل علامات الترقيم. الرموز تصبح مدخلات لعملية أخرى مثل تحليل النص والتعدين.
يستخدم الرمز في علوم الكمبيوتر ، حيث يلعب جزءًا كبيرًا في عملية التحليل المعجمي.
تيكوبيديا تفسر التوكين
يعتمد رمز Tokenization في الغالب على الاستدلال البسيط من أجل فصل الرموز المميزة باتباع بضع خطوات:
- الرموز أو الكلمات مفصولة بمسافة بيضاء أو علامات ترقيم أو فواصل أسطر
- قد يتم أو لا يتم تضمين علامات المسافة البيضاء أو علامات الترقيم حسب الحاجة
- جميع الأحرف ضمن سلاسل متجاورة جزء من الرمز المميز. يمكن أن تتكون الرموز من جميع أحرف ألفا أو أحرف أبجدية رقمية أو أحرف رقمية فقط.
الرموز نفسها يمكن أيضا أن تكون فواصل. على سبيل المثال ، في معظم لغات البرمجة ، يمكن وضع المعرفات مع العوامل الحسابية دون مسافات بيضاء. على الرغم من أن هذا يبدو ككلمة واحدة أو رمز مميز ، فإن القواعد اللغوية للغة تعتبر في الواقع المشغل الرياضي (رمز مميز) بمثابة فاصل ، لذلك حتى عندما يتم تجميع الرموز المميزة متعددة معًا ، لا يزال من الممكن فصلها عبر الرياضيات المشغل أو العامل.
