بيت سمعي أسمع الموتى؟ تقنية اللغة الطبيعية تجعل أصوات الماضي والحاضر حية

أسمع الموتى؟ تقنية اللغة الطبيعية تجعل أصوات الماضي والحاضر حية

جدول المحتويات:

Anonim

في هذه الأيام ، أصبحت معظم أصوات الكمبيوتر قديمة. من المحتمل أنك لا تتعاطف مع سايبورغ والروبوتات عندما تسمع "الروبوت" على هاتفك لمساعدتك في دفع الفواتير أو يسألك عن القسم الذي تريده. لكن ماذا لو سمعت فجأة أن كورت كوبين يحثك على الحصول على معلومات البطاقة؟ أو جون إف كينيدي يخبرك عن عجائب التصويت المبكر؟ أو إلفيس الحصول على اسمك وعنوانك قبل اقتحام "قطعة كبيرة ، قطعة كبيرة من الحب المحترق؟"


كل هذه الأشياء ستكون … غريبة نوعا ما ، لكن الأمر الأكثر إثارة هو أن التكنولوجيا موجودة بالفعل بالفعل. قبل عقد من الزمان أو نحو ذلك ، أدهشتنا قدرة الكمبيوتر على التحدث حتى على الإطلاق. الآن ، نحن على وشك أن نتأثر بالأصوات المجانية التي يولدها الكمبيوتر والتي تبدو تمامًا مثل الأشخاص الذين نعرفهم.

تغييرات كبيرة في البرمجة اللغوية العصبية

إذا كنت تهتم بمجال معالجة اللغة الطبيعية (NLP) ، فربما تكون قد سمعت عن بعض التطورات الحديثة التي تتجاوز أنواع أصوات المساعد الظاهري المعلبة التي نسمعها الآن في أنظمة تحديد المواقع العالمية (GPS) والأعمال الآلية خطوط الهاتف.


تتطلب بداية البرمجة اللغوية العصبية مجموعة كبيرة من الأبحاث في الميكانيكا العامة للكلام البشري. كان على الباحثين والمهندسين تحديد الصوتيات الفردية ، ثم طيها في خوارزميات أكبر لتوليد العبارات والجمل ، ثم حاولوا إدارة كل ذلك على مستوى ميتا لتوليد شيء يبدو حقيقيًا. مع مرور الوقت ، أتقن قادة البرمجة اللغوية العصبية هذا وبدأوا في بناء خوارزميات متقدمة لفهم ما يقوله البشر. من خلال الجمع بين هذين الأمرين ، توصلت الشركات إلى برامج التشغيل الخاصة بالمساعدين الظاهريين وكتبة دفع الفواتير الرقمية بالكامل ، والتي لا تزال سلوكياتهم - رغم كونها مزعجة - مذهلة عندما تتوقف عن التفكير في العمل الذي قاموا بها.


الآن ، تتخطى بعض الشركات الصوت الافتراضي العام لتكوين نتيجة شخصية أكثر تحديداً. وهذا يتطلب المرور عبر معجم شخص معين وجمع كميات كبيرة من الفيديو الصوتي الفريد ، ثم تطبيق هذا الأرشيف على إيقاعات معقدة للعلم الصوتي ، والتركيز ، والإيقاع وجميع الإشارات الصغيرة الأخرى التي يجمعها اللغويون غالبًا تحت اللافتة الواسعة "prosody".


ما يخرج هو صوت يعتقد المستمعون أنه "مملوك" لشخص معين - إما شخص يعرفه ويتحدث معه ، أو شخص يتعرف عليه صوته نتيجة لشهرة الشخص.


من Elvis إلى Martin Luther King ، يمكن الآن استنساخ صوت أي شخص بهذه الطريقة - شريطة أن يكون هناك سجل مُسجَّل مسبقًا لخطابهم. من خلال تطبيق تحليل ومعالجة أكثر تفصيلاً على الأصوات الصغيرة الفردية ، تكون الشركات قادرة على عمل نسخة كربونية افتراضية من صوت شخص ما يشبه إلى حد كبير الشيء الحقيقي.

إبداعات "نص إلى صوت" مثيرة في VivoText

VivoText ، على سبيل المثال ، هي إحدى الشركات التي تعمل على إحداث ثورة في استخدام الأصوات البشرية الاصطناعية لجميع أنواع الحملات ، من الكتب الصوتية إلى الاستجابة الصوتية التفاعلية (IVR). في VivoText ، تعمل فرق البحث والإنتاج على عمليات يمكن ، من الناحية النظرية ، تكرار أصوات المشاهير المتوفين ، مثل Ol 'Blue Eyes بنفسه.


يقول جيرشون سيلبرت ، الرئيس التنفيذي لشركة VivoText: "لاستنساخ صوت فرانك سيناترا ، سنفعل في الواقع إرثه المسجل" ، متحدثًا عن كيفية عمل هذا النوع من التكنولوجيا.


تعمل VivoText حاليًا على أرشفة أصوات من لا يزالون معنا ، مثل مراسل NPR Neal Conan ، الذي سجل نموذجًا لهذا النوع من المشاريع الرائدة في تكنولوجيا المعلومات. يُظهر مقطع فيديو ترويجي للعاملين في VivoText إنشاء وحدات برمجية صوتية مضنية باستخدام إدخال صوتي مقدم من كونان. ثم يقومون بإنشاء نماذج لأدوات تحويل النص إلى كلام (TTS) التي تثير نتيجة إنسانية وشخصية بشكل كبير.


وفقًا لما قاله بن فيليمان ، نائب رئيس قسم الإستراتيجية وتطوير الأعمال في VivoText ، فإن الكمبيوتر يعمل على مستوى الصوت (باستخدام أصغر أجزاء الكلام الفريدة) ليتوافق مع نموذج صوتي لصوت بشري فردي.


يقول فايبلمان: "إنه يعرف كيف يتحدث الصوت" ، مضيفًا أنه باستخدام "اختيار وحدة" ، يختار الكمبيوتر عددًا من القطع لوضع كلمة قصيرة واحدة ، مثل المكان الذي يتم فيه إعطاء كلمة "الجمعة" خمسة مكونات تساعد على التطوير التركيز بشكل خاص ونتيجة لونية.

صوت اصطناعي في التسويق

لذلك ، كيف يعمل هذا في التسويق؟ يمكن أن تكون منتجات VivoText مفيدة للغاية في إنشاء منتجات ، مثل الكتب الصوتية ، التي يمكن أن تصل إلى الجماهير المستهدفة. على سبيل المثال ، ما مدى فعالية مقارنة صوت ألفيس بأحد الأصوات العامة المؤلمة اليوم ، إذا تم استخدامها لبيع المنتجات المتعلقة بالترفيه؟


أو ماذا عن السياسة؟ يعمل Feibleman على الأفكار المختلفة لاستخدام مشاريع مثل هذه لتعزيز التسويق للشركات أو الأطراف الأخرى التي تحتاج إلى رسائل أكثر فعالية.


"إذا كنت تعرف أي سياسيين يخوضون الانتخابات الرئاسية ، فقد يحصل ذلك على 10 ملايين ناخب من الولايات المتأرجحة يحصلون على مكالمة شخصية من أحد المرشحين ، ويشكرهم على دعمهم ، ويخبرهم بالمكان الذي يحتاجون إليه للتصويت والطقس وجميع الزوايا الليلة قبل الانتخابات ".

صوتك يعيش على

هناك تطبيق آخر واضح لكل هذه التكنولوجيا. يمكن لشركات اللغات الطبيعية مثل VivoText إنشاء خدمة شخصية من شأنها تحميل جميع بيانات العميل الصوتية إلى منتج يسمح لهذا الشخص "بالتحدث إلى الأبد".


من المرجح أن يثير التطبيق العملي عددًا من الأسئلة حول كيفية سماع الأصوات المنطوقة واستيعابها. على سبيل المثال ، ما الذي يتطلبه الأمر لإنشاء صوت دفق صوت تمامًا مثل شخص ما؟ إلى أي مدى يجب أن نعرف أي شخص يتعرف على صوت معين؟ ومن المثير للاهتمام ، ماذا يحدث إذا كانت إحدى خدمات اللغات الطبيعية تنتج صورة كاريكاتورية خام ، بدلاً من محاكاة تقليدية مقنعة؟


يقول فيليمان ، إن تقييم النتائج يعتمد غالبًا على دراسة السياق. على سبيل المثال ، يقول إن الأطفال عادة لا يطرحون أسئلة حول من يتحدث عندما يستمع إلى قصة. انهم يريدون فقط أكثر. ولكن أيضًا ، قد لا يفكر العديد من البالغين في من يتحدث إليهم ، بالنظر إلى سيناريو معين ، مثل البث السلبي أو الرسائل الهاتفية. أيضًا ، من الأسهل خداعك بواسطة الكمبيوتر عبر الهاتف لأن الصوت المكتوم يمكن أن يخفي مواطن الخلل أو التباينات الأخرى بين نتائج الكمبيوتر وصوت الإنسان.


يقول فايبلمان: "لا يصادفك تحدي أصالة الصوت".

في عام 2525

مع تقدم الشركات للأمام في تطوير المنتجات والخدمات والإجابة على هذه الأسئلة ، يمكن لتقنيات "الكلام الحي" أن تدفعنا صوب التقارب التكنولوجي والعقل الإنساني ، الذي يُطلق عليه تقليديًا الذكاء الاصطناعي (AI).


إذا تمكنت أجهزة الكمبيوتر من التحدث مثلنا ، فقد تكون قادرة على خداع مستخدمين آخرين للاعتقاد بأنهم يعتقدون مثلنا ، والتغذى على مبدأ التفرد الأوسع ، كما أدخل في قاموسنا بقلم جون فون نيومان ، رائد التكنولوجيا في حقبة الخمسينيات من القرن العشرين. والمفكرين مثل راي كورزويل. كتاب كورزويل لعام 2005 ، "التفرد قريب" ، يثير البعض ويخيف الآخرين. تنبأ كورزويل بأنه بحلول عام 2045 ، ستصبح "الذكاء" كظاهرة غير ملتصقة إلى حد كبير من الدماغ البشري وتنتقل إلى التكنولوجيا ، مما يؤدي إلى عدم وضوح الخطوط الفاصلة بين الآلات وسادة الإنسان.


تم تخليدها في كلمات Zager & Evans "في العام 2525" (لا أحد يقوم بأفلام علمية زاحفة مثل هؤلاء الرجال) …


في العام 4545

أنت لست بحاجة إلى أسنانك ، لن تحتاج

عيونك

لن تجد شيئًا مضغه

لن ينظر إليك أحد


في عام 5555

تعرج الأسلحة الخاصة بك على جانبيك

ساقيك حصلت على شيء للقيام به

بعض الآلة تفعل ذلك لك


هل أصوات الكمبيوتر خطوة في هذا الاتجاه؟ كطريقة جديدة للاستعانة بمصادر خارجية لبعض وظائف الجسم البشري (أو الأكثر شيوعًا ، لمحاكاة هذه) ، يعد هذا النوع من التقدم التكنولوجي أحد أكبر أوجه التقدم - وربما لا يتم الإبلاغ عنه - في الأفق بينما ننظر إلى مستقبل فردي . (حول "التفرد" في هل ستكون أجهزة الكمبيوتر قادرة على تقليد العقل البشري؟)

أسمع الموتى؟ تقنية اللغة الطبيعية تجعل أصوات الماضي والحاضر حية