AI语音智能识别

本文为您介绍智能语音交互服务中的相关概念，以便于更好地理解本产品。

音频采样率是指录音设备在一秒钟内对声音信号的采样次数，采样频率越高声音的还原就越真实越自然。

目前语音识别服务支持16000Hz和8000Hz两种采样率，其中电话业务一般使用8000Hz，其余业务使用16000Hz。

调用语音识别服务时，如果语音数据采样率高于16000Hz，需要先把采样率转换为16000Hz才能发送给语音识别服务；如果语音数据采样率是8000Hz，请勿将采样率转换为16000Hz，项目中选用支持8000Hz采样率的模型。

采样位数

采样值或取样值，即是将采样样本幅度量化。用来衡量声音波动变化的参数，或是声卡的分辨率。数值越大、分辨率越高，发出声音的能力越强。

目前语音识别中常用的采样位数为16bits小端序。即每次采样的音频信息用2字节保存，或者说2字节记录1/16000s的音频数据。

每个采样数据记录的是振幅，采样精度取决于采样位数的大小：

其中2字节采样位数已经能够达到CD标准。

语音数据存储和传输的方式。注意语音编码和语音文件格式不同，如常见的WAV文件格式，会在其头部定义语音数据的编码，其中的音频数据通常使用PCM、AMR或其他编码。

录制声音时，在不同空间位置采集的相互独立的音频信号。声道数也就是声音录制时的音源数量。常见的音频数据为单声道或双声道（立体声）。