跨平台的音频接口简介

日期：2020-05-29 栏目：程序人生浏览：次

OSS（Open Sound System）是unix平台上一个统一的音频接口。以前，每个Unix厂商都会提供一个自己专有的API，用来处理音频。这就意味着为一种Unix平台编写的音频处理应用程序，在移植到另外一种Unix平台上时，必须要重写。不仅如此，在一种平台上具备的功能，可能在另外一个平台上无法实现。但是，OSS出现以后情况就大不一样了，只要音频处理应用程序按照OSS的API来编写，那么在移植到另外一个平台时，只需要重新编译即可。因此，OSS提供了源代码级的可移植性。

同时，很多的Unix工作站中，只能提供录音与放音的功能。有了OSS后，给这些工作站带来了MIDI功能，加上音频流、语音识别/生成、计算机电话（CT）、JAVA以及其它的多媒体技术，在Unix工作站中，同样可以享受到同Windows、Macintosh环境一样的音频世界。另外，OSS还提供了与视频和动画播放同步的音频能力，这对在Unix中实现动画、游戏提供了帮助。

本文首先解释在音频编程时经常遇到的名词、设备文件的含义，然后分别在录音、播放、Mixer方面对OSS接口的使用方法进行介绍。由于OSS API十分丰富，因此在本文中只介绍那些最为常用的接口。对于OSS API的一个完整描述，可以参考[1]。

一、基础知识

数字音频设备（有时也称codec，PCM，DSP，ADC/DAC设备）：播放或录制数字化的声音。它的指标主要有：采样速率（电话为8K，DVD为96K）、channel数目（单声道，立体声）、采样分辨率（8-bit，16-bit）。

mixer（混频器）：用来控制多个输入、输出的音量，也控制输入（microphone，line-in，CD）之间的切换。

synthesizer（合成器）：通过一些预先定义好的波形来合成声音，有时用在游戏中声音效果的产生。

MIDI 接口：MIDI接口是为了连接舞台上的synthesizer、键盘、道具、灯光控制器的一种串行接口。

在Unix系统中，所有的设备都被统一成文件，通过对文件的访问方式（首先open，然后read/write，同时可以使用ioctl读取/设置参数，最后close）来访问设备。在OSS中，主要有以下的几种设备文件：

/dev/mixer：访问声卡中内置的mixer，调整音量大小，选择音源。

/dev/sndstat：测试声卡，执行cat /dev/sndstat会显示声卡驱动的信息。

/dev/dsp 、/dev/dspW、/dev/audio：读这个设备就相当于录音，写这个设备就相当于放音。/dev/dsp与/dev/audio之间的区别在于采样的编码不同，/dev/audio使用μ律编码，/dev/dsp使用8-bit（无符号）线性编码，/dev/dspW使用16-bit（有符号）线形编码。/dev/audio主要是为了与SunOS兼容，所以尽量不要使用。

l /dev/sequencer：访问声卡内置的，或者连接在MIDI接口的synthesizer。

这些设备文件的设备编号见[1]。

二、音频编程

OSS为音频编程提供三种设备，分别是/dev/dsp，/dev/dspW和/dev/audio，前面已经提到了它们之间的区别。

用户可以直接使用Unix的命令来放音和录音，命令cat /dev/dsp >xyz可用来录音，录音的结果放在xyz文件中；命令cat xyz >/dev/dsp播放声音文件xyz。

如果通过编程的方式来使用这些设备，那么Unix平台通过文件系统提供了统一的访问接口。程序员可以通过文件的操作函数直接控制这些设备，这些操作函数包括：open、close、read、write、ioctl等。下面我们就分别讨论打开音频设备、放音、录音和参数调整。

1. 打开音频设备

1) 头文件定义

/*
* Standard includes
*/
#include <ioctl.h>
#include <unistd.h>
#include <fcntl.h>
#include <sys/soundcard.h>
/*
* Mandatory variables.
*/
#define BUF_SIZE 4096
int audio_fd;
unsigned char audio_buffer[BUF_SIZE];

2) 打开设备

if ((audio_fd = open(DEVICE_NAME, open_mode, 0)) == -1) {
/* Open of device failed */
perror(DEVICE_NAME);
exit(1);
}

open_mode有三种选择：O_RDONLY，O_WRONLY和O_RDWR，分别表示只读、只写和读写。OSS建议尽量使用只读或只写，只有在全双工的情况下（即录音和放音同时）才使用读写模式。

2. 录音

int len;
if ((len = read(audio_fd, audio_buffer, count)) == -1) {
perror("audio read");
exit(1);
}

count为录音数据的字节个数（建议为2的指数），但不能超过audio_buffer的大小。从读字节的个数可以精确的测量时间，例如8kHZ 16-bit stereo的速率为8000*2*2=32000bytes/second，这是知道何时停止录音的唯一方法。

3. 放音

放音实际上和录音很类似，只不过把read改成write即可，相应的audio_buffer中为音频数据，count为数据的长度。

注意，用户始终要读/写一个完整的采样。例如一个16-bit的立体声模式下，每个采样有4个字节，所以应用程序每次必须读/写4的倍数个字节。

另外，由于OSS是一个跨平台的音频接口，所以用户在编程的时候，要考虑到可移植性的问题，其中一个重要的方面是读/写时的字节顺序。

4. 设置参数

设置采样格式

转载注明出处：https://www.heiqu.com/12296.html

跨平台的音频接口简介

相关推荐