بيت سمعي ما هو الفرق بين الكلام إلى النص و chatbots؟

ما هو الفرق بين الكلام إلى النص و chatbots؟

Anonim

Q:

ما هو الفرق بين الكلام إلى النص و chatbots؟

أ:

تعد الاختلافات المهمة العديدة بين تقنيات التحدث إلى نص و chatbots جزءًا مما يتم فحصه في التطور السريع لمشاريع chatbot و voicebot.

إن تقنية تحويل النص إلى نص هي ببساطة عبارة عن تقنية تقوم بتحويل الكلام اللفظي إلى نص على صفحة رقمية. هذه وظيفتها كاملة ، ولكنها ليست واحدة من السهل تصميمها. من أجل تحويل الكلام اللفظي إلى نص ، يتعين على التكنولوجيا تقسيم الكلمات والجمل إلى صوتيات فردية والعمل معها وفقًا لخوارزميات معقدة لإنشاء نص دقيق ويمثل ما قاله المتحدث.

Chatbots ، من ناحية أخرى ، هي التقنيات التي تحقق هدف التواصل مع الإنسان. هناك نوعان من chatbots: نص chatbots و soundbots. كانت مواقع الدردشة النصية موجودة لفترة أطول ، لأنها لا تحتاج إلى عنصر تحويل النص إلى نص الذي تستخدمه برامج الصوت.

الاختلاف الرئيسي بين تقنيات التحدث إلى النص و chatbots هو النطاق. كما ذكرنا ، كل ما تحتاجه تقنية تحويل النص إلى نص هو نسخ الخطاب الكلامي. يحتاج chatbot ، من ناحية أخرى ، إلى أخذ الكلام بأي شكل كان من أجله ، وفهمه ، وتقديم استجابات تسعى لاجتياز اختبار Turing - اختبار ما إذا كانت التكنولوجيا يمكن أن تخدع الإنسان إلى التفكير في أنه هو أو هي التحدث مع شخص آخر.

مع وضع ذلك في الاعتبار ، أصبح إنشاء الدردشة أسهل بكثير من إنشاء برامج الدردشة الصوتية. يأخذ chatbot نص الإنسان ويوفر استجابة نصية. حتى مواقع الدردشة البسيطة نسبيًا كانت قادرة على تقديم نتائج ممتعة وممتعة للبشر منذ أواخر الثمانينات وأوائل التسعينيات.

من ناحية أخرى ، يجب على برنامج Voicebot أن يأخذ الكلام اللفظي ، وأن يحوله إلى نص ، ويفحصه للتأكد من دقته ، وينتج استجابة ، ويبني تلك الاستجابة من لغة الآلة إلى خطاب مسموع. هذا العدد الكبير من المهام المهمة إلى حد ما يعني أن برنامج Voicebot يستهلك الكثير من القدرة الحاسوبية والكثير من التصميم الذي سيتم إنشاؤه.

تُظهر مشاريع مثل Siri و Cortana و Alexa جزءًا من طليعة تقنيات Voicebot. كما أنها توضح أن هذه التكنولوجيا لا تزال في مهدها. على الرغم من أن Alexa والتقنيات الأخرى يمكن أن تستجيب لفظًا للكلام البشري ، إلا أنها ليست قادرة تمامًا بمعنى أننا نربط الكلام البشري الشفهي عمومًا. بمعنى آخر ، هناك قدر كبير من التقييد بالاستجابات التي يمكن أن تقدمها هذه التقنيات. هناك حتى قدرة محدودة من الجيل الحالي من المساعدين الشخصيين على إنشاء خطاب إلى نص فعليًا ، على سبيل المثال ، لأغراض كتابة بريد إلكتروني أو مساعدة شخص ما على كتابة مقال دون استخدام أيديهم. بعض برامج الكلام إلى النص المحددة في السوق تفعل ذلك بشكل أفضل من Siri أو Cortana ، ربما بسبب تخصيص الموارد. ومع ذلك ، هناك دلائل على أن تقدم Voicebot سوف يبدأ قريبًا - مثل منصة Amazon في Lex التي تتيح بيئة استوديو لإنشاء هذه الأنواع من التقنيات.

في مقال ذكي ومفيد حول هذا الموضوع ، يتحدث توبياس جوبيل عن الفرق بين هذه التقنيات ، ويتباين بين عملية "النسخ ،" التي يتحدث بها النص ، ووظيفة التفاهم ، التي يفترض أن تقوم بها برامج الدردشة.

"في حين أن التخلص من الحاجة إلى التعرف على الكلام يجعل الأمور أسهل بالنسبة ل chatbot ، فإن التحدي الرئيسي لبناء السير يكمن في فهم اللغة الطبيعية" ، كتب غوبل.

تحدد Goebel أيضًا العديد من اللاعبين الحاليين في الصناعة:

رائد السوق في التعرف على الكلام هو Nuance ، الذي يقف خلف أنظمة معروفة مثل Dragon NaturallySpeaking بسبب الإملاء على جهاز كمبيوتر ، وهو موجود منذ تسعينيات القرن الماضي ، ولكن أيضًا Siri: مهمة التعرف على الكلام / النسخ التي أجريت في استخدامات Apple السحابية فارق بسيط التكنولوجيا وراء الكواليس. البعض الآخر هو LumenVox أو Verbio أو Interactions ، ولكن يتم الآن التعرف على الكلام أيضًا كخدمة سحابية عبر APIs من قبل أمثال Amazon و Google و Microsoft و IBM.

مع تطور chatbots ، يُفترض أن فهمهم سيستمر في الزيادة في بعض المسارات - ويفترض أيضًا إلى حد كبير أن المزيد من تقنية الروبوت سوف تنتقل من واجهات النص إلى الواجهات اللفظية ، مما يتطلب كميات إضافية من القدرة الحاسوبية.

ما هو الفرق بين الكلام إلى النص و chatbots؟