معرفی مدل EVI 2 صدای احساسی و API: جانشین ChatGPT

3 مهر 1403

0 26 زمان تقریبی مطالعه 8 دقیقه

معرفی Hume’s EVI 2 با هوش مصنوعی صدای احساسی و API جانشین ChatGPT

Hume که به نام فیلسوف اسکاتلندی قرن هجدهم، دیوید هیوم، نامگذاری شده است، از ضبط‌های صوتی بین‌فرهنگی از سخنرانان مختلف، همراه با نتایج نظرسنجی‌های احساسی خودگزارش‌دهی شده، برای ایجاد مدل هوش مصنوعی اختصاصی خود استفاده می‌کند که بیان‌های صوتی واقعی و درک درستی از طیف گسترده‌ای از زبان‌ها و لهجه‌ها ارائه می‌دهد.

از ابتدا نیز Hume یکی از اولین ارائه‌دهندگان مدل هوش مصنوعی بود که یک رابط برنامه‌نویسی کاربردی (API) را مستقیماً از ابتدا ارائه می‌داد و به توسعه‌دهندگان و کسب‌وکارهای شخص ثالث خارج از آن امکان می‌داد برنامه‌ها را متصل کنند یا برنامه‌های جدیدی بر اساس مدل آن بسازند، یا به سادگی آن را در ویژگی‌هایی مانند پاسخگویی به تماس‌های خدمات مشتری و بازیابی پاسخ‌های متنی مناسب از پایگاه داده سازمانی ادغام کنند.

در شش ماه گذشته، Hume مشغول ساخت نسخه به‌روزرسانی شده‌ای از مدل صدای هوش مصنوعی و API خود بوده است. هفته گذشته، رابط صدای همدلانه 2 (EVI 2) معرفی شد که مجموعه‌ای از ویژگی‌های بهبود یافته را برای افزایش طبیعی بودن، پاسخگویی احساسی و قابلیت سفارشی‌سازی ارائه می‌دهد و در عین حال هزینه‌ها را برای توسعه‌دهندگان و کسب‌وکارها به طور قابل توجهی کاهش می‌دهد. این نسخه جدید 40% تأخیر کمتری دارد و از طریق API، 30% ارزان‌تر از نسخه قبلی خود است.

آلن کوون در یک تماس ویدیویی با VentureBeat گفت: «ما می‌خواهیم توسعه‌دهندگان این فناوری را در هر برنامه‌ای بسازند، صدای برند مورد نظر خود را ایجاد کنند و آن را برای کاربران خود تنظیم کنند تا صدا قابل اعتماد و شخصی‌سازی شده به نظر برسد.»

در واقع، کوون به VentureBeat گفت که او امیدوار است و می‌بیند که کسب‌وکارهای بیشتری از ارسال کاربران به یک دستیار صوتی مجهز به EVI برای حل مشکلات فنی و پشتیبانی مشتری فراتر بروند.

او اشاره کرد که به لطف طراحی EVI 2، اکنون ممکن است و در بسیاری از موارد تجربه کاربری بهتری برای کاربران نهایی باشد که مستقیماً درون یک برنامه به یک دستیار صوتی متصل شوند که توسط EVI 2 قدرت می‌گیرد، و این دستیار صوتی می‌تواند اطلاعات را بازیابی کند یا اقدامات لازم را به نمایندگی از کاربر انجام دهد بدون اینکه آنها را به شماره تلفن خارجی متصل کند اگر با استفاده از ابزارهای توسعه‌دهنده Hume به درستی به برنامه مشتری متصل شود.

آلن کوون به VentureBeat گفت: «توسعه‌دهندگان شروع به درک این موضوع کرده‌اند که نیازی نیست صدا را روی یک خط تلفن قرار دهند؛ آنها می‌توانند آن را در هر جایی از برنامه خود قرار دهند.»

به عنوان مثال، اگر بخواهم اطلاعات آدرس خود را در یک حساب آنلاین تغییر دهم، می‌توانم به سادگی از EVI 2 استفاده کنم، اگر یکپارچه شده باشد، و از آن بخواهم که آدرس من را تغییر دهد، به جای اینکه مرا از طریق تمام مراحل و صفحات هدایت کند.

یک راه‌اندازی به موقع

زمان‌بندی راه‌اندازی EVI 2 برای Hume بسیار مفید است. اگرچه به اندازه OpenAI یا حتی رقیب احتمالی Anthropic تبلیغ نشده است – که گفته می‌شود در حال کار بر روی نسخه بازسازی شده دستیار صوتی Alexa سرمایه‌گذار خود، Amazon، برای راه‌اندازی است – Hume آماده است تا پیش از Anthropic و OpenAI یک دستیار صوتی انسانی پیشرفته و توانمند را راه‌اندازی کند که کسب‌وکارها می‌توانند هم‌اکنون از آن استفاده کنند.

در مقابل، حالت صدای پیشرفته OpenAI ChatGPT که توسط مدل GPT-4o آن پشتیبانی می‌شود و در ماه مه به نمایش گذاشته شد، هنوز فقط برای تعداد محدودی از کاربران در دسترس است که در لیست انتظار قرار دارند. علاوه بر این، کوون معتقد است که EVI 2 در تشخیص و پاسخ به احساسات کاربران با استفاده از بیان‌های احساسی خود برتر است.

کوون به VentureBeat گفت: «EVI 2 کاملاً انتها به انتها است. این سیستم فقط سیگنال‌های صوتی را دریافت و سیگنال‌های صوتی را خروجی می‌دهد، که بیشتر شبیه به نحوه عملکرد GPT برای صدا است.»

به عبارت دیگر، EVI 2 و GPT-4o هر دو سیگنال‌های صوتی و داده‌ها را مستقیماً به توکن‌ها تبدیل می‌کنند، به جای اینکه ابتدا آنها را به متن تبدیل کرده و سپس به مدل‌های زبانی تغذیه کنند. مدل اول EVI از روش دوم استفاده می‌کرد – با این حال، در استفاده مستقل VentureBeat همچنان سریع و پاسخگو بود.

برای توسعه‌دهندگان و کسب‌وکارهایی که به دنبال افزودن ویژگی‌های هوش مصنوعی صوتی برای متمایز شدن هستند، یا برای کاهش هزینه‌ها یا پایین نگه داشتن آنها با استفاده از هوش مصنوعی صوتی به جای مراکز تماس انسانی، EVI 2 Hume ممکن است گزینه جذابی باشد.

پیشرفت‌های هوش مصنوعی مکالمه‌ای EVI 2

کوون و Hume ادعا می‌کنند که EVI 2 امکان مکالمات سریع‌تر و روان‌تر، زمان پاسخ زیر یک ثانیه و انواع سفارشی‌سازی‌های صوتی را فراهم می‌کند.

آنها می‌گویند EVI 2 به گونه‌ای طراحی شده است که به ترجیحات کاربران در زمان واقعی پاسخ دهد و تطبیق یابد، که این امر آن را به گزینه‌ای ایده‌آل برای طیف گسترده‌ای از کاربردها، از ربات‌های خدمات مشتری تا دستیارهای مجازی تبدیل می‌کند.

بهبودهای کلیدی در EVI 2 شامل یک سیستم تولید صدای پیشرفته است که طبیعی بودن و وضوح گفتار را افزایش می‌دهد، همراه با هوش احساسی که به مدل کمک می‌کند تا لحن کاربر را درک کرده و پاسخ‌های خود را متناسب با آن تنظیم کند.

EVI 2 همچنین از ویژگی‌هایی مانند مدولاسیون صدا پشتیبانی می‌کند و به توسعه‌دهندگان اجازه می‌دهد تا صدایی را بر اساس پارامترهایی مانند زیر و بمی، بینی بودن و جنسیت تنظیم کنند، که این امر آن را چندمنظوره و قابل سفارشی‌سازی می‌کند بدون اینکه خطرات مرتبط با شبیه‌سازی صدا را به همراه داشته باشد.

در VentureBeta، ما همچنین تعدادی از مدل‌های هوش مصنوعی صوتی اختصاصی و منبع باز را دیده و گزارش کرده‌ایم. و در سراسر وب، مردم نمونه‌هایی از مکالمه دو یا چند مدل هوش مصنوعی صوتی را منتشر کرده‌اند که منجر به نتایج عجیب و نگران‌کننده‌ای مانند فریادهای شکنجه‌آمیز شده است.

وقتی از کوون درباره این مثال‌ها پرسیده شد، به نظر می‌رسید که او سرگرم شده است، اما نگرانی زیادی درباره وقوع آنها با Hume نداشت.

او گفت: «این‌ها قطعاً مسائلی هستند که این مدل‌ها دارند. شما باید با داده‌های مناسب این مشکلات را از مدل خارج کنید و ما در این کار بسیار خوب هستیم. شاید به ندرت، افرادی سعی کنند از آن سوءاستفاده کنند، اما این نادر است.»

علاوه بر این، کوون گفت که Hume هیچ برنامه‌ای برای ارائه شبیه‌سازی صدا ندارد، یعنی گرفتن صدای یک سخنران و تکرار آن از یک نمونه چند ثانیه‌ای به طوری که بتواند هر متنی را بیان کند.

کوون گفت: «ما می‌توانیم صداها را با مدل خود شبیه‌سازی کنیم، البته، اما آن را ارائه نکرده‌ایم زیرا خطرات آن بسیار بالا است و مزایا اغلب نامشخص هستند. آنچه مردم واقعاً می‌خواهند، توانایی سفارشی‌سازی صدای خود است. ما صداهای جدیدی توسعه داده‌ایم که می‌توانید شخصیت‌های مختلفی ایجاد کنید، که به نظر می‌رسد برای توسعه‌دهندگان حتی جذاب‌تر از شبیه‌سازی صداهای خاص باشد.»

مجموعه‌ای کاملاً جدید از ویژگی‌ها

EVI 2 چندین ویژگی جدید معرفی می‌کند که آن را از نسخه قبلی متمایز می‌کند:

زمان پاسخگویی سریع‌تر: EVI 2 با کاهش 40 درصدی تأخیر نسبت به EVI 1، اکنون زمان پاسخگویی متوسطی بین 500 تا 800 میلی‌ثانیه دارد. این بهبود، روانی مکالمات را افزایش می‌دهد و آنها را طبیعی‌تر و فوری‌تر می‌کند.
هوش احساسی: با ادغام صدا و زبان در یک مدل واحد، EVI 2 می‌تواند بهتر زمینه احساسی ورودی‌های کاربر را درک کند. این امر به آن اجازه می‌دهد تا پاسخ‌های مناسب‌تر و همدلانه‌تری تولید کند.
صداهای قابل سفارشی‌سازی: یک روش جدید مدولاسیون صدا به توسعه‌دهندگان اجازه می‌دهد تا پارامترهای مختلف صدا مانند جنسیت و زیر و بمی را تنظیم کنند تا صداهای منحصر به فردی متناسب با برنامه‌ها یا کاربران خاص ایجاد کنند. این ویژگی سفارشی‌سازی به شبیه‌سازی صدا متکی نیست و گزینه‌ای امن‌تر برای توسعه‌دهندگانی که به دنبال گزینه‌های صوتی انعطاف‌پذیر و در عین حال ایمن هستند، ارائه می‌دهد.
درخواست‌های درون مکالمه: EVI 2 به کاربران اجازه می‌دهد تا سبک صحبت کردن هوش مصنوعی را به صورت پویا تغییر دهند. به عنوان مثال، کاربران می‌توانند از آن بخواهند که سریع‌تر صحبت کند یا در طول مکالمه هیجان‌زده‌تر به نظر برسد، که این امر تعاملات جذاب‌تری را ممکن می‌سازد.
قابلیت‌های چندزبانه: در حالی که EVI 2 در حال حاضر از زبان انگلیسی پشتیبانی می‌کند، Hume قصد دارد تا پایان سال 2024 پشتیبانی از چندین زبان دیگر از جمله اسپانیایی، فرانسوی و آلمانی را ارائه دهد.

علاوه بر این، کوون به VentureBeat گفت که به لطف آموزش‌های خود، EVI 2 در واقع چندین زبان را به تنهایی یاد گرفته است، بدون اینکه مستقیماً از آن خواسته شود یا توسط مهندسان انسانی خود هدایت شود.

کوون توضیح داد: «ما مدل را به طور خاص برای خروجی دادن به زبان‌های خاصی آموزش ندادیم، اما از داده‌ها یاد گرفت که به زبان‌های فرانسوی، اسپانیایی، آلمانی، لهستانی و بیشتر صحبت کند.»

قیمت‌گذاری و قابلیت ارتقاء

یکی از مزایای برجسته EVI 2، مقرون به صرفه بودن آن است. Hume AI قیمت EVI 2 را به 0.072 دلار در دقیقه کاهش داده است، که 30 درصد کاهش نسبت به مدل قدیمی EVI 1 دارد که با قیمت 0.102 دلار در دقیقه عرضه می‌شد.

کاربران سازمانی نیز از تخفیف‌های حجمی بهره‌مند می‌شوند، که این پلتفرم را برای کسب‌وکارهایی با نیازهای حجمی بالا مقیاس‌پذیر می‌کند.

با این حال، بر اساس محاسبات ما، پیشنهادات فعلی تبدیل متن به گفتار OpenAI که از طریق API صوتی آن در دسترس است – که حالت صدای پیشرفته GPT-4o/ChatGPT جدید نیست – به طور قابل توجهی ارزان‌تر از Hume EVI 2 به نظر می‌رسد، با هزینه 0.015 دلار برای هر 1000 کاراکتر (تقریباً 0.015 دلار در دقیقه گفتار) در مقابل 0.072 دلار در دقیقه برای EVI 2 Hume.

EVI 2 در حال حاضر در نسخه بتا موجود است و از طریق API Hume برای یکپارچه‌سازی باز است.

توسعه‌دهندگان می‌توانند از همان ابزارها و گزینه‌های پیکربندی که برای EVI 1 در دسترس بود، استفاده کنند و این امر مهاجرت را روان می‌کند.

علاوه بر این، توسعه‌دهندگانی که مایل به ادامه استفاده از EVI 1 هستند، تا دسامبر 2024 فرصت دارند، زمانی که Hume قصد دارد API قدیمی را غیرفعال کند.

EVI 2 یک گام بزرگ به جلو در مأموریت Hume AI برای بهینه‌سازی هوش مصنوعی برای رفاه انسان است. این مدل به گونه‌ای طراحی شده است که با هماهنگ کردن پاسخ‌های خود با نشانه‌ها و ترجیحات احساسی کاربر، رضایت کاربر را افزایش دهد. در ماه‌های آینده، Hume به بهبود مدل ادامه خواهد داد، از جمله گسترش پشتیبانی از زبان‌های مختلف و تنظیم دقیق توانایی آن در پیروی از دستورالعمل‌های پیچیده.

به گفته Hume AI، EVI 2 همچنین به گونه‌ای طراحی شده است که به طور یکپارچه با سایر مدل‌های زبان بزرگ (LLM) کار کند و با ابزارهایی مانند جستجوی وب ادغام شود، و اطمینان حاصل کند که توسعه‌دهندگان به مجموعه کاملی از قابلیت‌ها برای برنامه‌های خود دسترسی دارند.

API اندازه‌گیری بیان و API مدل‌های سفارشی

علاوه بر EVI 2، Hume AI همچنان API اندازه‌گیری بیان و API مدل‌های سفارشی خود را ارائه می‌دهد که لایه‌های اضافی از عملکرد را برای توسعه‌دهندگانی که به دنبال ساخت برنامه‌های هوش مصنوعی پاسخگو به احساسات هستند، فراهم می‌کند.

API اندازه‌گیری بیان: این API به توسعه‌دهندگان اجازه می‌دهد تا پروسودی گفتار، حالات چهره، انفجارهای صوتی و زبان احساسی را اندازه‌گیری کنند. قیمت‌گذاری برای این API از 0.0276 دلار در دقیقه برای ویدئو با صدا شروع می‌شود و مشتریان سازمانی از تخفیف‌های حجمی بهره‌مند می‌شوند.
API مدل‌های سفارشی: برای کسانی که نیاز به آموزش و استقرار مدل‌های هوش مصنوعی سفارشی دارند، Hume آموزش مدل رایگان ارائه می‌دهد و هزینه‌های استنتاج با هزینه‌های API اندازه‌گیری بیان مطابقت دارد.

گام بعدی برای Hume و EVI 2 چیست؟

Hume AI قصد دارد در ماه‌های آینده بهبودهای بیشتری در EVI 2 ایجاد کند، از جمله پشتیبانی پیشرفته از زبان‌های اضافی، خروجی‌های صوتی طبیعی‌تر و بهبود قابلیت اطمینان.

این شرکت می‌گوید که می‌خواهد اطمینان حاصل کند که توسعه‌دهندگان ابزارهای لازم برای ساخت برنامه‌هایی که هم بسیار کاربردی و هم پاسخگو به احساسات هستند را در اختیار دارند.

3 مهر 1403

0 26 زمان تقریبی مطالعه 8 دقیقه