3月6日,声网举办“ai开口,互动无界”产品发布会,重磅推出首个对话式ai引擎。该引擎凭借650毫秒超低延时响应、流畅打断、全模型适配等五大核心优势,可将任意文本大模型快速升级为具备语音交互能力的多模态大模型。更令人惊喜的是,其价格低至0.098元/分钟。
五大核心能力,赋能任意大模型
在生成式AI蓬勃发展的当下,多模态大模型被视为实现通用人工智能(AGI)的关键路径。知名投资机构a16z近期发布的Voice AI报告也指出,随着大模型技术不断成熟,语音交互将成为重要的应用入口。作为实时互动云领域的领导者,声网凭借在音视频领域的深厚技术积累和丰富的实践经验,将实时音视频技术(RTE)与生成式AI巧妙融合,打造出这款对话式AI引擎,为开发者提供高效、经济的AI语音对话解决方案。
模型选择灵活,开发者拥有更多自主权: 支持DeepSeek、ChatGPT等全球几乎所有主流大模型厂商,并兼容全球主流语音合成供应商,开发者可灵活选择并定制专属音色。此外,音视频SDK还支持30000+终端设备适配,有效解决跨设备兼容性问题。
响应速度极快,打断流畅自然: 通过全链路优化,在中、美、欧、东南亚主要城市实测,语音对话延迟中位数低至650毫秒,实现AI秒级响应。独创的“智能打断”技术,模拟真实对话场景,打断延时低至340毫秒,带来更自然流畅的交互体验。
对话体验出色: “选择性注意力锁定”功能可有效屏蔽95%的环境噪声,精准识别对话语音。同时,该引擎具备强大的抗弱网、抗丢包能力,即使在80%丢包率下也能保持稳定流畅的对话,断网3-5秒后依然能够无缝衔接。
开发便捷,成本更低: 只需两行代码,15分钟即可完成AI语音功能的集成,极大降低了开发门槛。开发者只需填写LLM和TTS相关的URL和Key即可快速部署,详细流程可参考声网官网文档中心。
对话式AI引擎的成本优势显著,价格仅为0.098元/分钟,首次使用还赠送1000分钟。“智能打断”功能作为增值服务,价格也仅为0.042元/分钟。
声网AI RTE产品线负责人姚光华表示,根据用户实际使用数据统计,平均每次对话包含约3轮问答,时长约21.1秒,单次成本不到3分钱。每月15次对话,月成本不足5毛钱,年成本仅需5元。
对话式AI引擎,赋能更多应用场景
借助声网对话式AI引擎,开发者可以快速构建智能助手、虚拟陪伴、口语陪练、智能客服、智能硬件等多种对话式AI应用。例如,智能助手可以帮助用户管理日程、查询信息、执行任务,提升生活效率;在智能硬件领域,该引擎可以赋能语音控制、智能看护、智能陪伴等功能,将普通设备升级为智能硬件,广泛应用于AI玩具、AI教育硬件、AI陪伴机器人、家居语音助手、可穿戴设备等领域。