معرفی مدل EVI 2 صدای احساسی و API: جانشین ChatGPT
Hume که به نام فیلسوف اسکاتلندی قرن هجدهم، دیوید هیوم، نامگذاری شده است، از ضبطهای صوتی بینفرهنگی از سخنرانان مختلف، همراه با نتایج نظرسنجیهای احساسی خودگزارشدهی شده، برای ایجاد مدل هوش مصنوعی اختصاصی خود استفاده میکند که بیانهای صوتی واقعی و درک درستی از طیف گستردهای از زبانها و لهجهها ارائه میدهد.
از ابتدا نیز Hume یکی از اولین ارائهدهندگان مدل هوش مصنوعی بود که یک رابط برنامهنویسی کاربردی (API) را مستقیماً از ابتدا ارائه میداد و به توسعهدهندگان و کسبوکارهای شخص ثالث خارج از آن امکان میداد برنامهها را متصل کنند یا برنامههای جدیدی بر اساس مدل آن بسازند، یا به سادگی آن را در ویژگیهایی مانند پاسخگویی به تماسهای خدمات مشتری و بازیابی پاسخهای متنی مناسب از پایگاه داده سازمانی ادغام کنند.
در شش ماه گذشته، Hume مشغول ساخت نسخه بهروزرسانی شدهای از مدل صدای هوش مصنوعی و API خود بوده است. هفته گذشته، رابط صدای همدلانه 2 (EVI 2) معرفی شد که مجموعهای از ویژگیهای بهبود یافته را برای افزایش طبیعی بودن، پاسخگویی احساسی و قابلیت سفارشیسازی ارائه میدهد و در عین حال هزینهها را برای توسعهدهندگان و کسبوکارها به طور قابل توجهی کاهش میدهد. این نسخه جدید 40% تأخیر کمتری دارد و از طریق API، 30% ارزانتر از نسخه قبلی خود است.
آلن کوون در یک تماس ویدیویی با VentureBeat گفت: «ما میخواهیم توسعهدهندگان این فناوری را در هر برنامهای بسازند، صدای برند مورد نظر خود را ایجاد کنند و آن را برای کاربران خود تنظیم کنند تا صدا قابل اعتماد و شخصیسازی شده به نظر برسد.»
در واقع، کوون به VentureBeat گفت که او امیدوار است و میبیند که کسبوکارهای بیشتری از ارسال کاربران به یک دستیار صوتی مجهز به EVI برای حل مشکلات فنی و پشتیبانی مشتری فراتر بروند.
او اشاره کرد که به لطف طراحی EVI 2، اکنون ممکن است و در بسیاری از موارد تجربه کاربری بهتری برای کاربران نهایی باشد که مستقیماً درون یک برنامه به یک دستیار صوتی متصل شوند که توسط EVI 2 قدرت میگیرد، و این دستیار صوتی میتواند اطلاعات را بازیابی کند یا اقدامات لازم را به نمایندگی از کاربر انجام دهد بدون اینکه آنها را به شماره تلفن خارجی متصل کند اگر با استفاده از ابزارهای توسعهدهنده Hume به درستی به برنامه مشتری متصل شود.
آلن کوون به VentureBeat گفت: «توسعهدهندگان شروع به درک این موضوع کردهاند که نیازی نیست صدا را روی یک خط تلفن قرار دهند؛ آنها میتوانند آن را در هر جایی از برنامه خود قرار دهند.»
به عنوان مثال، اگر بخواهم اطلاعات آدرس خود را در یک حساب آنلاین تغییر دهم، میتوانم به سادگی از EVI 2 استفاده کنم، اگر یکپارچه شده باشد، و از آن بخواهم که آدرس من را تغییر دهد، به جای اینکه مرا از طریق تمام مراحل و صفحات هدایت کند.
یک راهاندازی به موقع
زمانبندی راهاندازی EVI 2 برای Hume بسیار مفید است. اگرچه به اندازه OpenAI یا حتی رقیب احتمالی Anthropic تبلیغ نشده است – که گفته میشود در حال کار بر روی نسخه بازسازی شده دستیار صوتی Alexa سرمایهگذار خود، Amazon، برای راهاندازی است – Hume آماده است تا پیش از Anthropic و OpenAI یک دستیار صوتی انسانی پیشرفته و توانمند را راهاندازی کند که کسبوکارها میتوانند هماکنون از آن استفاده کنند.
در مقابل، حالت صدای پیشرفته OpenAI ChatGPT که توسط مدل GPT-4o آن پشتیبانی میشود و در ماه مه به نمایش گذاشته شد، هنوز فقط برای تعداد محدودی از کاربران در دسترس است که در لیست انتظار قرار دارند. علاوه بر این، کوون معتقد است که EVI 2 در تشخیص و پاسخ به احساسات کاربران با استفاده از بیانهای احساسی خود برتر است.
کوون به VentureBeat گفت: «EVI 2 کاملاً انتها به انتها است. این سیستم فقط سیگنالهای صوتی را دریافت و سیگنالهای صوتی را خروجی میدهد، که بیشتر شبیه به نحوه عملکرد GPT برای صدا است.»
به عبارت دیگر، EVI 2 و GPT-4o هر دو سیگنالهای صوتی و دادهها را مستقیماً به توکنها تبدیل میکنند، به جای اینکه ابتدا آنها را به متن تبدیل کرده و سپس به مدلهای زبانی تغذیه کنند. مدل اول EVI از روش دوم استفاده میکرد – با این حال، در استفاده مستقل VentureBeat همچنان سریع و پاسخگو بود.
برای توسعهدهندگان و کسبوکارهایی که به دنبال افزودن ویژگیهای هوش مصنوعی صوتی برای متمایز شدن هستند، یا برای کاهش هزینهها یا پایین نگه داشتن آنها با استفاده از هوش مصنوعی صوتی به جای مراکز تماس انسانی، EVI 2 Hume ممکن است گزینه جذابی باشد.
پیشرفتهای هوش مصنوعی مکالمهای EVI 2
کوون و Hume ادعا میکنند که EVI 2 امکان مکالمات سریعتر و روانتر، زمان پاسخ زیر یک ثانیه و انواع سفارشیسازیهای صوتی را فراهم میکند.
آنها میگویند EVI 2 به گونهای طراحی شده است که به ترجیحات کاربران در زمان واقعی پاسخ دهد و تطبیق یابد، که این امر آن را به گزینهای ایدهآل برای طیف گستردهای از کاربردها، از رباتهای خدمات مشتری تا دستیارهای مجازی تبدیل میکند.
بهبودهای کلیدی در EVI 2 شامل یک سیستم تولید صدای پیشرفته است که طبیعی بودن و وضوح گفتار را افزایش میدهد، همراه با هوش احساسی که به مدل کمک میکند تا لحن کاربر را درک کرده و پاسخهای خود را متناسب با آن تنظیم کند.
EVI 2 همچنین از ویژگیهایی مانند مدولاسیون صدا پشتیبانی میکند و به توسعهدهندگان اجازه میدهد تا صدایی را بر اساس پارامترهایی مانند زیر و بمی، بینی بودن و جنسیت تنظیم کنند، که این امر آن را چندمنظوره و قابل سفارشیسازی میکند بدون اینکه خطرات مرتبط با شبیهسازی صدا را به همراه داشته باشد.
در VentureBeta، ما همچنین تعدادی از مدلهای هوش مصنوعی صوتی اختصاصی و منبع باز را دیده و گزارش کردهایم. و در سراسر وب، مردم نمونههایی از مکالمه دو یا چند مدل هوش مصنوعی صوتی را منتشر کردهاند که منجر به نتایج عجیب و نگرانکنندهای مانند فریادهای شکنجهآمیز شده است.
وقتی از کوون درباره این مثالها پرسیده شد، به نظر میرسید که او سرگرم شده است، اما نگرانی زیادی درباره وقوع آنها با Hume نداشت.
او گفت: «اینها قطعاً مسائلی هستند که این مدلها دارند. شما باید با دادههای مناسب این مشکلات را از مدل خارج کنید و ما در این کار بسیار خوب هستیم. شاید به ندرت، افرادی سعی کنند از آن سوءاستفاده کنند، اما این نادر است.»
علاوه بر این، کوون گفت که Hume هیچ برنامهای برای ارائه شبیهسازی صدا ندارد، یعنی گرفتن صدای یک سخنران و تکرار آن از یک نمونه چند ثانیهای به طوری که بتواند هر متنی را بیان کند.
کوون گفت: «ما میتوانیم صداها را با مدل خود شبیهسازی کنیم، البته، اما آن را ارائه نکردهایم زیرا خطرات آن بسیار بالا است و مزایا اغلب نامشخص هستند. آنچه مردم واقعاً میخواهند، توانایی سفارشیسازی صدای خود است. ما صداهای جدیدی توسعه دادهایم که میتوانید شخصیتهای مختلفی ایجاد کنید، که به نظر میرسد برای توسعهدهندگان حتی جذابتر از شبیهسازی صداهای خاص باشد.»
مجموعهای کاملاً جدید از ویژگیها
EVI 2 چندین ویژگی جدید معرفی میکند که آن را از نسخه قبلی متمایز میکند:
- زمان پاسخگویی سریعتر: EVI 2 با کاهش 40 درصدی تأخیر نسبت به EVI 1، اکنون زمان پاسخگویی متوسطی بین 500 تا 800 میلیثانیه دارد. این بهبود، روانی مکالمات را افزایش میدهد و آنها را طبیعیتر و فوریتر میکند.
- هوش احساسی: با ادغام صدا و زبان در یک مدل واحد، EVI 2 میتواند بهتر زمینه احساسی ورودیهای کاربر را درک کند. این امر به آن اجازه میدهد تا پاسخهای مناسبتر و همدلانهتری تولید کند.
- صداهای قابل سفارشیسازی: یک روش جدید مدولاسیون صدا به توسعهدهندگان اجازه میدهد تا پارامترهای مختلف صدا مانند جنسیت و زیر و بمی را تنظیم کنند تا صداهای منحصر به فردی متناسب با برنامهها یا کاربران خاص ایجاد کنند. این ویژگی سفارشیسازی به شبیهسازی صدا متکی نیست و گزینهای امنتر برای توسعهدهندگانی که به دنبال گزینههای صوتی انعطافپذیر و در عین حال ایمن هستند، ارائه میدهد.
- درخواستهای درون مکالمه: EVI 2 به کاربران اجازه میدهد تا سبک صحبت کردن هوش مصنوعی را به صورت پویا تغییر دهند. به عنوان مثال، کاربران میتوانند از آن بخواهند که سریعتر صحبت کند یا در طول مکالمه هیجانزدهتر به نظر برسد، که این امر تعاملات جذابتری را ممکن میسازد.
- قابلیتهای چندزبانه: در حالی که EVI 2 در حال حاضر از زبان انگلیسی پشتیبانی میکند، Hume قصد دارد تا پایان سال 2024 پشتیبانی از چندین زبان دیگر از جمله اسپانیایی، فرانسوی و آلمانی را ارائه دهد.
علاوه بر این، کوون به VentureBeat گفت که به لطف آموزشهای خود، EVI 2 در واقع چندین زبان را به تنهایی یاد گرفته است، بدون اینکه مستقیماً از آن خواسته شود یا توسط مهندسان انسانی خود هدایت شود.
کوون توضیح داد: «ما مدل را به طور خاص برای خروجی دادن به زبانهای خاصی آموزش ندادیم، اما از دادهها یاد گرفت که به زبانهای فرانسوی، اسپانیایی، آلمانی، لهستانی و بیشتر صحبت کند.»
قیمتگذاری و قابلیت ارتقاء
یکی از مزایای برجسته EVI 2، مقرون به صرفه بودن آن است. Hume AI قیمت EVI 2 را به 0.072 دلار در دقیقه کاهش داده است، که 30 درصد کاهش نسبت به مدل قدیمی EVI 1 دارد که با قیمت 0.102 دلار در دقیقه عرضه میشد.
کاربران سازمانی نیز از تخفیفهای حجمی بهرهمند میشوند، که این پلتفرم را برای کسبوکارهایی با نیازهای حجمی بالا مقیاسپذیر میکند.
با این حال، بر اساس محاسبات ما، پیشنهادات فعلی تبدیل متن به گفتار OpenAI که از طریق API صوتی آن در دسترس است – که حالت صدای پیشرفته GPT-4o/ChatGPT جدید نیست – به طور قابل توجهی ارزانتر از Hume EVI 2 به نظر میرسد، با هزینه 0.015 دلار برای هر 1000 کاراکتر (تقریباً 0.015 دلار در دقیقه گفتار) در مقابل 0.072 دلار در دقیقه برای EVI 2 Hume.
EVI 2 در حال حاضر در نسخه بتا موجود است و از طریق API Hume برای یکپارچهسازی باز است.
توسعهدهندگان میتوانند از همان ابزارها و گزینههای پیکربندی که برای EVI 1 در دسترس بود، استفاده کنند و این امر مهاجرت را روان میکند.
علاوه بر این، توسعهدهندگانی که مایل به ادامه استفاده از EVI 1 هستند، تا دسامبر 2024 فرصت دارند، زمانی که Hume قصد دارد API قدیمی را غیرفعال کند.
EVI 2 یک گام بزرگ به جلو در مأموریت Hume AI برای بهینهسازی هوش مصنوعی برای رفاه انسان است. این مدل به گونهای طراحی شده است که با هماهنگ کردن پاسخهای خود با نشانهها و ترجیحات احساسی کاربر، رضایت کاربر را افزایش دهد. در ماههای آینده، Hume به بهبود مدل ادامه خواهد داد، از جمله گسترش پشتیبانی از زبانهای مختلف و تنظیم دقیق توانایی آن در پیروی از دستورالعملهای پیچیده.
به گفته Hume AI، EVI 2 همچنین به گونهای طراحی شده است که به طور یکپارچه با سایر مدلهای زبان بزرگ (LLM) کار کند و با ابزارهایی مانند جستجوی وب ادغام شود، و اطمینان حاصل کند که توسعهدهندگان به مجموعه کاملی از قابلیتها برای برنامههای خود دسترسی دارند.
API اندازهگیری بیان و API مدلهای سفارشی
علاوه بر EVI 2، Hume AI همچنان API اندازهگیری بیان و API مدلهای سفارشی خود را ارائه میدهد که لایههای اضافی از عملکرد را برای توسعهدهندگانی که به دنبال ساخت برنامههای هوش مصنوعی پاسخگو به احساسات هستند، فراهم میکند.
- API اندازهگیری بیان: این API به توسعهدهندگان اجازه میدهد تا پروسودی گفتار، حالات چهره، انفجارهای صوتی و زبان احساسی را اندازهگیری کنند. قیمتگذاری برای این API از 0.0276 دلار در دقیقه برای ویدئو با صدا شروع میشود و مشتریان سازمانی از تخفیفهای حجمی بهرهمند میشوند.
- API مدلهای سفارشی: برای کسانی که نیاز به آموزش و استقرار مدلهای هوش مصنوعی سفارشی دارند، Hume آموزش مدل رایگان ارائه میدهد و هزینههای استنتاج با هزینههای API اندازهگیری بیان مطابقت دارد.
گام بعدی برای Hume و EVI 2 چیست؟
Hume AI قصد دارد در ماههای آینده بهبودهای بیشتری در EVI 2 ایجاد کند، از جمله پشتیبانی پیشرفته از زبانهای اضافی، خروجیهای صوتی طبیعیتر و بهبود قابلیت اطمینان.
این شرکت میگوید که میخواهد اطمینان حاصل کند که توسعهدهندگان ابزارهای لازم برای ساخت برنامههایی که هم بسیار کاربردی و هم پاسخگو به احساسات هستند را در اختیار دارند.