在莫西之后，kyutai发行了Unustruty，AI的自由声音

Kyutai人工智能实验室由ILIAD，CMA CGM和Schmidt Sciences于2023年创立，刚刚提出了Un Unturunter，这项技术旨在为大型语言模型提供声音和耳朵。在这项创新的背后，将与AI相互作用转变为流体声音交流的野心，没有潜伏期或刚性，而开场逻辑则是一部分。

tl; DR您需要了解的有关Kyutai的取消静音

👥为谁重要？

人声和多模式AI的研究人员和工程师
欧洲初创企业和出版商结合了人工智能助手
寻求主权替代方案的公共机构
开源开发人员和语言模型
技术方向探索声带模块化砖

💡为什么这是战略性的？

通过模块化系统向所有LLM添加声音能力
由于早期综合，延迟的大幅下降
替代定位向OpenAI，Google或Baidu Solutions开放
发表在开源以促进欧洲采用的技术
可互操作工具，不包括所有者基础架构，可在规模上使用

🔧它具体改变什么

声带互动而没有明显，更自然的延迟
短样品中可配置的声音，没有大量培训
通过简单的文本文本自定义行为自定义
在现有系统上可能部署，而无需云依赖
可立即测试技术，即迫在眉睫的守则

取消静音是基于一个围绕两个砖的模块化体系结构，一个具有语音探测器语义末端的真实时间转录模块，以及一个积极的声音综合，能够在最终确定文本响应之前开始讲话。因此，这种相互作用在连续性方面获得了增长，而没有与语音塔或治疗时间有关的常规破裂。

该工具允许您在几秒钟的音频样本中配置语音，并通过提示文本来控制代理人的个性。它旨在适应所有用例，从客户支持到ON -Board帮助，包括培训或创建工具。

Kyutai将Unmot定位为主要参与者提出的专有解决方案的免费替代方案。在过去的十二个月中，后者已经大大加快了声乐发言的发展。 Openai刚刚宣布了基于Whisper（STT）和所有者生成引擎的高级Chatgpt的高级版本，该版本能够模仿人类的语调和情感。已发表的示范显示了延迟不到300毫秒的连续对话，并结合了接近人类对话的沉默和中断的检测能力。

Google继续将Gemini集成到Android生态系统中，并在某些设备上可在某些设备上可用的声音功能，该功能针对离线。 DeepMind在4月底发表了其声带系统上的一系列基准测试，显示出与人类的反应速度，韵律和对上下文的理解相近的表现。

META通过她的语音箱项目探索了多任务TTS模型，能够从几秒钟的音频中重现语音，并且出于安全原因，应用程序仍然限于研究。就亚马逊而言，亚马逊继续将Alexa整合到更强大的生成模型中，重点是用户环境的历史化。

在中国演员的一边，百度和伊夫特克（Iflytek）在移动上加强了他们多模式声乐助手的能力，通常本地启动骨骼，具有识别，产生和合成之间完全整合的逻辑，有时会与专有的建议引擎相结合。

在这种情况下，Kyutai的提议因其性能的不同而少，而与其说是其在开源中发表的模块化系统的战略选择，其较少的记录。与Moshi或Hibiki一样，目标是允许欧洲开发人员，研究人员或公司在不依赖封闭的API或基础设施的情况下进行适当的技术。 Un Uncurit的可测试版本已经在Unture.SH上在线上，等待在接下来的几周内完整发布源代码。

这种方法是欧洲技术主权的逻辑的一部分，而大多数参考声音砖是今天的美国或中国。但是开源不能保证采用：Unumt的成功将取决于其轻松整合到工业用途中的能力，以证明具有专有标准的等效性能，并动员了能够维持和改进其的贡献者社区。

自创建以来，Kyutai出版了几种著名的模型，即Moshi，Hibiki，Mimi，Helium，Moshivis，劳动力限制为大约20人。