在莫西之后,kyutai发行了Unustruty,AI的自由声音

Kyutai人工智能实验室由ILIAD,CMA CGM和Schmidt Sciences于2023年创立,刚刚提出了Un Unturunter,这项技术旨在为大型语言模型提供声音和耳朵。在这项创新的背后,将与AI相互作用转变为流体声音交流的野心,没有潜伏期或刚性,而开场逻辑则是一部分。

tl; DR您需要了解的有关Kyutai的取消静音

👥为谁重要?

  • 人声和多模式AI的研究人员和工程师
  • 欧洲初创企业和出版商结合了人工智能助手
  • 寻求主权替代方案的公共机构
  • 开源开发人员和语言模型
  • 技术方向探索声带模块化砖

💡为什么这是战略性的?

  • 通过模块化系统向所有LLM添加声音能力
  • 由于早期综合,延迟的大幅下降
  • 替代定位向OpenAI,Google或Baidu Solutions开放
  • 发表在开源以促进欧洲采用的技术
  • 可互操作工具,不包括所有者基础架构,可在规模上使用

🔧它具体改变什么

  • 声带互动而没有明显,更自然的延迟
  • 短样品中可配置的声音,没有大量培训
  • 通过简单的文本文本自定义行为自定义
  • 在现有系统上可能部署,而无需云依赖
  • 可立即测试技术,即迫在眉睫的守则

取消静音是基于一个围绕两个砖的模块化体系结构,一个具有语音探测器语义末端的真实时间转录模块,以及一个积极的声音综合,能够在最终确定文本响应之前开始讲话。因此,这种相互作用在连续性方面获得了增长,而没有与语音塔或治疗时间有关的常规破裂。

该工具允许您在几秒钟的音频样本中配置语音,并通过提示文本来控制代理人的个性。它旨在适应所有用例,从客户支持到ON -Board帮助,包括培训或创建工具。

Kyutai将Unmot定位为主要参与者提出的专有解决方案的免费替代方案。在过去的十二个月中,后者已经大大加快了声乐发言的发展。 Openai刚刚宣布了基于Whisper(STT)和所有者生成引擎的高级Chatgpt的高级版本,该版本能够模仿人类的语调和情感。已发表的示范显示了延迟不到300毫秒的连续对话,并结合了接近人类对话的沉默和中断的检测能力。

Google继续将Gemini集成到Android生态系统中,并在某些设备上可在某些设备上可用的声音功能,该功能针对离线。 DeepMind在4月底发表了其声带系统上的一系列基准测试,显示出与人类的反应速度,韵律和对上下文的理解相近的表现。

META通过她的语音箱项目探索了多任务TTS模型,能够从几秒钟的音频中重现语音,并且出于安全原因,应用程序仍然限于研究。就亚马逊而言,亚马逊继续将Alexa整合到更强大的生成模型中,重点是用户环境的历史化。

在中国演员的一边,百度和伊夫特克(Iflytek)在移动上加强了他们多模式声乐助手的能力,通常本地启动骨骼,具有识别,产生和合成之间完全整合的逻辑,有时会与专有的建议引擎相结合。

在这种情况下,Kyutai的提议因其性能的不同而少,而与其说是其在开源中发表的模块化系统的战略选择,其较少的记录。与Moshi或Hibiki一样,目标是允许欧洲开发人员,研究人员或公司在不依赖封闭的API或基础设施的情况下进行适当的技术。 Un Uncurit的可测试版本已经在Unture.SH上在线上,等待在接下来的几周内完整发布源代码。

这种方法是欧洲技术主权的逻辑的一部分,而大多数参考声音砖是今天的美国或中国。但是开源不能保证采用:Unumt的成功将取决于其轻松整合到工业用途中的能力,以证明具有专有标准的等效性能,并动员了能够维持和改进其的贡献者社区。

自创建以来,Kyutai出版了几种著名的模型,即Moshi,Hibiki,Mimi,Helium,Moshivis,劳动力限制为大约20人。