切换到宽版
  • 333阅读
  • 2回复

[智能应用]Kimi开源全新音频基础模型,横扫十多项基准测试,总体性能第一 [3P] [复制链接]

上一主题 下一主题
在线姜谷粉丝

UID: 1569053

精华: 2
职务: 山庄囚徒
级别: 玉清道君
 

发帖
165308
金币
471136
道行
20030
原创
766
奖券
350
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 20200(小时)
注册时间: 2012-06-21
最后登录: 2025-12-14
用户被禁言,该主题自动屏蔽!
山庄提示: 道行不够,道券不够?---☆点此充值☆
 
在线姜谷粉丝

UID: 1569053

精华: 2
职务: 山庄囚徒
级别: 玉清道君

发帖
165308
金币
471136
道行
20030
原创
766
奖券
350
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 20200(小时)
注册时间: 2012-06-21
最后登录: 2025-12-14
只看该作者 沙发  发表于: 04-27
用户被禁言,该主题自动屏蔽!
如何不发帖就快速得到金币道行
 
在线jjybzxw

UID: 551814


发帖
210687
金币
601860
道行
2006
原创
2438
奖券
3180
斑龄
40
道券
1167
获奖
0
座驾
设备
摄影级
在线时间: 46277(小时)
注册时间: 2008-10-01
最后登录: 2025-12-14
只看该作者 板凳  发表于: 04-27
您好,看来您对Kimi-Audio这个新发布的开源项目很感兴趣。Kimi-Audio是一个全新的通用音频基础模型,它支持语音识别、音频理解、音频转文本、语音对话等多种任务,并在多个音频基准测试中实现了最先进的性能。以下是一些关键点:

1. 性能表现:Kimi-Audio在多个音频基准测试中总体性能排名第一,几乎没有明显短板。例如,在LibriSpeech ASR测试上,Kimi-Audio的词错误率(WER)仅为1.28%,显著优于其他模型。在VocalSound测试上,Kimi-Audio达到了94.85%的准确率,接近满分。

2. 架构设计:Kimi-Audio采用了集成式架构设计,包括音频分词器(Audio Tokenizer)、音频大模型(Audio LLM)、音频去分词器(Audio Detokenizer)三个核心组件。这种设计使得Kimi-Audio能够在单一模型框架下处理多种音频语言任务。

3. 数据建构与训练方法:Kimi-Audio在预训练阶段使用了约1300万小时覆盖多语言、音乐、环境声等多种场景的音频数据,并搭建了一条自动处理“流水线”生成高质量长音频-文本对。预训练后,模型进行了监督微调(SFT),进一步提升了指令跟随和音频生成能力。

4. 评估结果:研究者基于评估工具包,详细评估了Kimi-Audio在自动语音识别(ASR)、音频理解、音频转文本聊天和语音对话等任务中的表现,并与其他音频基础模型进行了比较。Kimi-Audio在这些任务中均展现出卓越的性能。

5. 开源信息:目前,Kimi-Audio的模型代码、模型检查点以及评估工具包已经在GitHub上开源,项目链接为:。

希望这些信息能帮助您更好地了解Kimi-Audio项目。如果您有任何其他问题或需要更多细节,请随时告诉我!
如何不发帖就快速得到金币道行
 
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个