语音合成标记语言（Speech Synthesis Markup Language丨SSML）

访问量 333 发布于 2023-03-14 更新于 2024-03- 20 5~7 分钟 阅读

小白版本

中学的时候参加朗诵比赛，老师教我在文字上“做记号”，把所有的停顿、重音、轻音、语速节奏等全都在文字上标记出来，这样再读就非常简单了。

而语音合成（TTS）的过程其实也是朗读的过程，机器若要实现拟人化的朗读发音，其实也可以给它提前把文字做上标记，用到的就是语音合成标记语言（Speech Synthesis Markup Language SSML）。

除了进行朗读技巧的标记，SSML还可以对有歧义的文本进行标记，以确定读法，例如：

23:24

表示时间时可读为：

“二十三点二十四分”
“晚上十一点二十四分”

表示比分时则读为：

“二十三比二十四”

如果还要在特定环境下需要在语句朗读时加入BGM，也可通过SSML实现定制化的TTS。

百科介绍

搜狗百科（详情）

语音合成标记语言（SSML：Speech Synthesis Markup Language），它是W3C的语音接口框架的一部分，是关于语音应用和在万维网上构建语音应用的一套规范，通过SSML，人们可以更多的通过移动电话、桌面计算机和其他设备来聆听合成语音，把计算和信息传输延伸到全球每个角落。
SSML是另一种在构建基于语音浏览器技术的VUI时令人迷惑的一部分。SSML能通过语音合成引擎界面推动便携性的发展，这个界面由不同供应商以统一方式提供。SSML是另一种W3C标准，它基于JSML(JSpeech Synthesis Markup Language，Java语音合成置标语言)。SSML根据它试图解决的问题更易于理解。

维基百科（详情）

语音合成标记语言（SSML）是一种XML为基础的标记语言用于语音合成应用中。这是一个推荐W3C的语音浏览器工作组。SSML通常嵌入在VoiceXML脚本中以驱动交互式电话系统。但是，它也可以单独使用，例如用于创建有声读物。对于桌面应用程序，其他标记语言很受欢迎，包括Apple的嵌入式语音命令和Microsoft的SAPI Text to Speech（TTS）标记，也是一种XML语言。

语音技术(听和说)

算法理论开发者研究人员

分享协议: CC BY 4.0