بيت البرمجيات تقنية التعرف على الصوت: مفيدة أو مؤلمة؟

تقنية التعرف على الصوت: مفيدة أو مؤلمة؟

جدول المحتويات:

Anonim

هل سبق لك أن اتصلت بشركة للحصول على بعض المساعدة أو دفع فاتورتك ، فقط لتلقي التحية بصوت مسجل لطيف يريد إجراء محادثة معك - لكنك لا تستطيع أن تفهم نصف ما تقوله؟ أو ربما كنت تملك iPhone ، وبينما بدا سيري أولاً كحليف جيد ، فقد أدركت أنه في بعض الأحيان (حسنًا ، لنكن صادقين ، في كثير من الأحيان) لم تحصل عليه؟ تقع تقنية التعرف على الصوت (VRT) ، والمعروفة أيضًا باسم "تحويل النص إلى نص" ، في فخ شائع: لها القدرة على أن تكون باردة بشكل لا يصدق (وصبي ، هل نحن نتجذر لذلك) ، ولكن في كثير من الأحيان ، إنها عملية طحن الأسنان ممارسة في الإحباط.


ذات مرة كانت فكرة تنتمي إلى عالم الخيال العلمي ، نما التعرف على الصوت منذ بداياته في الخمسينيات ، عندما تم تصميم نظام Bell Laboratories Audrey ليتعرف على الأرقام المنطوقة بصوت واحد ، على الشبكة الحديثة للإلكترونيات التحادثية التي نتفاعل معها الآن على أساس يومي - مع نتائج مختلطة.

للتحدث إلى الإنسان ، يرجى الضغط على 0

تستخدم العديد من الشركات اليوم أنظمة تسمى الاستجابة الصوتية التفاعلية (IVR) للتعامل مع مكالمات خدمة العملاء. الاستخدام الأكثر شيوعًا هو القوائم التي تنقلها الصوت ، لكن بعض الشركات تستخدم أنظمة IVR التي يمكنها الوصول إلى معلومات حساب العميل والإجابة على الأسئلة البسيطة. يحتوي برنامج قائمة IVR عادة على مفردات محدودة ، والتي قد تكون مقيدة بـ "نعم" و "لا" والأرقام. يمكن للأنظمة الأكثر تعقيدًا التعرف على الكلمات والعبارات الخاصة بالشركة.


أصبحت هذه الأنظمة أكثر شعبية - على الأقل بالنسبة للشركات - لسبب بسيط: إنها فعالة من حيث التكلفة. وفقًا لتقرير صادر عن صحيفة وول ستريت جورنال في عام 2010 ، فإن تكلفة مكالمة العملاء المعتادة التي تصل إلى وكيل تتكلف ما بين 3 دولارات و 9 دولارات ، في حين أن تكلفة المكالمات التي تتم من خلال نظام آلي لا تكلف سوى خمسة إلى سبعة سنتات. وبالطبع ، فإن برامج الكمبيوتر لا تتعب أو تستدعي المرض أو تصاب بالإحباط من العملاء (رغم أن العملاء بالتأكيد يشعرون بالإحباط معهم!).


لحسن الحظ ، هذا لا يعني دائمًا أن IVR تأخذ وظائف بعيداً عن الأشخاص - أو على الأقل أن جميع الأشخاص يختفون من مراكز الاتصال. تتيح هذه الأدوات المساعدة على تنشيط الصوت لمندوبي خدمة العملاء من البشر أن يكونوا أكثر إنتاجية من خلال توجيه المكالمات والإجابة على الأسئلة البسيطة.


بالطبع بالنسبة للمستخدمين البشر الذين يتفاعلون مع هذه التقنيات ، فهي ليست دائمًا سلسة. تساعد التكنولوجيا على تحسين المشكلات الشائعة في تقنية الرد الصوتي التفاعلي (IVR) ، مثل مشكلة الهجات ، لكن التخلص من الأنظمة الآلية لا يزال موضوعًا شائعًا عبر الإنترنت. تحقق من هذا الكوميديا ​​المسرحية حول المصعد المجهز بالتعرف على الصوت ، والذي يسلط الضوء على الإحباط الذي يمكن أن تحدثه الأعطال في أنظمة IVR.

تطبيقات الهاتف الشخصي: سيري ، جوجل الآن

معظم الناس على دراية التعرف على الصوت للهواتف الذكية. على الرغم من أن معظم طرازات الهواتف تأتي مع VR ، إلا أن شعبيتها - واشتهرت بها - تضخمت عندما قدمت Apple Siri ، "المساعد الشخصي" الساخط ، الذي يتم تنشيطه صوتًا لجهاز iPhone 4S في عام 2011. وسرعان ما أنشأت Google منافسًا مباشرًا: الآن لنظام التشغيل Android Jelly Bean OS. يتميز كلا النظامين بالأصوات النسائية وميزات التعرف المتطورة التي تتيح للمستخدمين "التحدث" إلى هواتفهم باستخدام لغة غير رسمية.


ولكن على الرغم من أن هذه الأنظمة أكثر تطوراً ووظيفية من سابقاتها ، فإنها تُظهر أيضًا أن التكنولوجيا لا يزال أمامها طريق طويل. أصبحت النكات حول فشل سيري ميم شعبية على الإنترنت. رجل واحد حتى دعوى قضائية ضد شركة أبل بسبب الدعاية الكاذبة فيما يتعلق بقدرات سيري.


ربما لهذا السبب في حين أن Apple ابتكرت Siri لتكون متطورة وغنية بالمعلومات ، فإن برنامج VR هو أيضًا جزء صغير من الجانب الوقح. على سبيل المثال ، إذا كنت تتحدث عن أحد أكثر خطوط تكنولوجيا الاستخبارات شهرة في تاريخ السينما من فيلم عام 1968 "2001: A Space Odyssey" - "افتح أبواب جراب الخليج" - سيرد Siri إما بخط الرد من الفيلم ، " أنا آسف (اسمك) ، أخشى أنني لا أستطيع أن أفعل ذلك ، "أو الأكثر سخرية ،" نحن عملاء المخابرات لن نعيش هكذا ، على ما يبدو. "


إن الاتصال بك بالاسم هو مجرد واحدة من الوظائف التي تحاول أن تجعل سيري أكثر سهولة في الحب ، وأكثر إنسانية بقليل. يمكن لمساعد VR اتباع الأوامر الصوتية لإجراء المكالمات ، وإملاء الإملاء وإرسال النصوص ، وإجراء عمليات البحث على الإنترنت للحصول على المعلومات ، والعثور على المتاجر القريبة ، وإعطاء اتجاهات القيادة والمزيد ، كل ذلك دون الحاجة إلى لمس أي شيء. يتم نطق الإجابات في وقت واحد عن طريق الهاتف وعرضها على الشاشة.


يشبه Google Now ، جزء VR من نظام Android Jelly Bean ، Siri. يوفر النظام نفس إمكانات التعرف الواسعة من خلال ترجمة الكلام العادي إلى أوامر تتيح للمستخدمين إجراء المكالمات وإرسال النصوص وإجراء عمليات البحث وإجراء العمليات الحسابية والتحويلات والاستيلاء على تعريفات الكلمات وتعيين الإنذارات وتشغيل الأغاني والحصول على الخرائط والاتجاهات.


مع المساعدين الصوتيين الشخصيين مثل Siri و Google Now ، تكون الفوائد واضحة. كل شيء من الاتصال والرسائل النصية إلى البحث والترفيه أسرع وأسهل. فقط قل ما تريد ، و (في معظم الأحيان) يمسك التطبيق VR لك. تقنية التدريب العملي على VR مفيدة بشكل خاص أثناء القيادة. وبينما انتقد العديد من الناس عيوب سيري ، وقد جادل الكتاب بأن قدرة Google Now على إدارة حياة المستخدمين بشكل أساسي مخيفة بعض الشيء ، لا يزال معظم الناس يشعرون أن هذه التقنيات المستقبلية رائعة جدًا.


بالطبع ، تطبيقات الهاتف الشخصي مثل Siri و Google Now بعيدة عن الكمال - على الرغم من أنها تظهر إلى أين يمكن أن تتجه هذه التكنولوجيا في المستقبل. هذا يعني أنه حتى عندما تظهر Siri إجابة خاطئة ، فمن المحتمل أن نضحكها ونغفر لها ، مع العلم أن الإصدار التالي سيكون أفضل بكثير.

حيث VR شلالات مسطحة

إذا واجهت أي وقت مضى IVR عندما كنت قد اتصلت بالعمل ، فقد تكون لاحظت بعض العوائق التي تحول دون الاتصال. تستخدم بعض البرامج صوتًا آليًا لتحويل النص إلى كلام يسيء فهم الكلمات ويجعل فهم الأشياء أمرًا صعبًا. يعاني الآخرون من مشاكل الحساسية التي تؤدي إلى عدم قدرة البرنامج على معالجة ما تقوله إذا كنت بصوت عالٍ للغاية ، أو ضعيف جدًا ، أو لا تتفهم بعناية.


بالإضافة إلى ذلك ، لا يزال الكثير من الناس لا يشعرون بالراحة عند التحدث مع الجهاز. إذا أجريت بعض عمليات البحث على IVR ، فسوف تصادف قوائم وضعها الأشخاص معًا لتجاوز أنظمة IVR والوصول إلى "شخص حقيقي". تتراوح هذه الحلول من "الاستمرار في الضغط على 0 للمشغل" إلى "أقسم على الجهاز حتى يجلب إنسانًا". ونتيجة لذلك ، فإن الكثير من التطورات الحديثة في أنظمة IVR تدور حول جعلها أكثر قبولا لدى البشر ؛ جعل الأصوات أكثر تعاطفا وأقل روبوتية ، مما يجعل النظام أسهل في التنقل ، وإعلام المتصلين بالوقت الذي سيستغرقه الأمر برمته من البداية إلى النهاية. يشير ذلك إلى أن التكنولوجيا الأفضل ليست سوى نصف المعركة هنا ؛ النصف الآخر هو الحصول على المستخدمين على متن الطائرة مع التحدث إلى الجهاز.

ما يحمله المستقبل

على الرغم من هذه التحديات ، تتحسن تقنية التعرف على الصوت طوال الوقت. لا تزال تطبيقات مثل Siri و Google Now - العيوب وجميعها - مثيرة للإعجاب بشكل غير عادي في أدائها ، وتقوم العديد من الشركات بتوسيع قدرات الواقع الافتراضي لتشمل تطبيقات أخرى.


على سبيل المثال ، قامت Nuance ، التي ابتكرت برنامج Dragon NaturallySpeaking الحديث إلى النص ، بتطوير عناصر تحكم صوتية للتلفزيونات والسيارات ، وتم دمج إصدارات هذه التكنولوجيا في بعض أجهزة تلفزيون Samsung وأنظمة SYNC الترفيهية المستخدمة في بعض سيارات Ford.


ومع استمرار Google و Apple في العثور على استخدامات جديدة لتقنيات التعرف على الصوت الخاصة بهما ، فمن المحتمل أن نتحدث بشكل متزايد مع جميع أنواع الأجهزة اليومية ، بدءًا من أجهزة التلفزيون لدينا وحتى المحامص الخاصة بنا. ومرة أخرى ، يبدو أن الخيال العلمي كان على حق. علينا فقط أن نأمل أن يكون هؤلاء الكتاب الأذكياء مخطئين بشأن شيء واحد. إذا استولت هذه الآلات ، فقد تواجه الكثير من المتاعب في المرة القادمة التي تطلب فيها من Siri "فتح أبواب جراب الباب".

تقنية التعرف على الصوت: مفيدة أو مؤلمة؟