一、中心简介
智能信息处理与应用工程中心现有成员8人,其中教授2人、副教授2人、博士2人,面积约450平方米。中心以声音为线索,围绕语音交互、康复医疗、电声测量、音视频会议等领域展开科学研究与工程化实践,致力于构建与广州市及周边企业紧密协作的工程化平台,服务粤港澳大湾区电子信息产业。中心的实验设施完备,拥有依据国内工业规格建设的全消声实验室和可调混响听音实验室,能够为语音信号分析和测量提供标准的声学环境,助力深入探究语音在复杂声学环境中的处理效果。智能音视频会议开发实验室为研究提供了贴近实际应用的语音通信实验场景,便于开展音视频会议相关的技术研发与测试工作。助听实验室拥有完善的临床测量到自动验配的一条龙设备及软件,便于快速开发助听器信号处理算法和测试助听设备。
二、主要的研究方向
(1)智能语音技术
(2)机器视觉
(3)音视频大模型
(4)助听技术
(5)电声精细化测量
三、实验室环境及主要设备
(1) 全消声室

外形尺寸: 6000x5000x3550mm(L*W*H);
本底噪声LAeq :≤18dB(A)
截止频率 80Hz 时,自由场半径 R≥1m;
吸声结构:平板型
全消声室采用先进的平面吸声材料,可模型近似自由空间的声学环境,降低外部的声音干扰。其主体结构采用钢制框架,采用静电粉末喷涂,具备高强度和扛撞击能力,保证框架使 用寿命不低于10年。
(2)可调混响听音室

外形尺寸:4800x4100x2800mm(L*W*H);
本底噪声LAeq :≤25dB(A);
频率范围/;125 ~ 8000Hz;
混响时间:RT60=0.4~0.7s。翻转可调式,支持混响时间调节,调整用时≤5分钟;
(3)人工头测量系统

人工耳频率范围:3~20000Hz。
人工耳动态范围:
下限:16dB SPL(A),上限:148dB SPL。
人工耳麦克风灵敏度:≥50mv/Pa
人工耳频响、指向性:满足 ITU‐T P.58 或同等国内标准要求。
人工耳极化电压:±60V或者±120V。
人工嘴扬声器配置:2分频。
人工嘴频率范围:50~20000Hz。
人工嘴指向性、失真:满足 ITU‐T P.58 或同等国内标准要求。
人工嘴阻抗:4Ω。
人工嘴功率极限: ≥20W RMS,≥50W Peak,(最大功率电气限制在≥6 kHz)。
人工头测量系统支持ACQUA 软件完成人工嘴和人工耳校准,可支持各种耳机、音箱、手持设备的听觉特性测量。
(4)音频数据采集前端

数据采集器采用4 个通道200V 极化电压麦克风输入,2 通道高精度输出,2 通道带功放输出,立体声输出接口等。包含 2 个模拟 BNC 输 入和 2 个模拟BNC输出。数采前端支持ACQUA软件。包含集成到一个Sub‐D 15 针连接器上的AES 输入/输出。同时具备使用 TTL 电平的脉冲和输出。包含一个额外的用于音频数据交换的AES 数字音频输入和输出(XLR 3 针)。包含两个 BNC 插座,用于通用用途的输入和输出(GPIO),如脉冲、时钟等。
(5)背景噪声模拟系统

背景噪声模拟回放系统支持上百种噪声模拟,可以实现超过10个声道的背景噪声回放,支持超过8通道的分布式麦克风声场还原和均衡,以保证噪声场的还原精度。背景噪声模拟回放系统针对声场的还原维度,包括声压级、频率响应、相位、指向性、延时等多个维度,以保证声场还原精度。背景噪声可以实现与语料播放系统同步,支持远程控制。
(6)听觉诱发电位仪

听觉诱发电位仪具有频谱分析功能:可对刺激声和诱发电位反应分别进行频谱分析。
采集叠加:1~51711 次/秒;
刺激频率:0Hz~16kH;
支持多种刺激方式:a.短声(Click),b. 纯音(Pure Tone),c.短纯音(toneburst, TB),d.短音(Tonepip);刺激函数可根据需要编辑调整,用于科研及临床分析。
(7)助听器分析仪

助听器分析仪的测试程序配置执行IEC,ANSI或同等国内标准的各种测试。具有≥10 种工作模式(包括但不限于:ANSI、IEC或同等国内标准测试模式;多信号测试;耦合腔测试;多曲线测试;电池电流测试;电磁感应测试;声输入/声输出方式;降噪控制;内置多种模拟电池片),可测试无线调频系统。
(8)声级计

噪声动态测量范围:≥120dB(不需要切换量程)。
自动修正:具备风罩自动检测和修正、自由场/混响场修正功能。
噪声频率计权:满足A,B,C, Z 线性计权方式。
频率范围:6.3Hz至20kHz。
具有240×320点矩阵触摸式彩色屏幕。
(9)音视频会议系统

音视频会议系统配备3屏显示终端2个,HDMI/USB 免驱视频会议摄像头≥4K 高清≥20倍AI摄像机。音视频会议本地服务器支持≥50 方通话,支持的视频编码:包含但不限于 H.261、H.263、H.264、H.264 High Profile、H.265,支持的音频编码:包含但不限于 G.711、G.722、G.728、G.722.1、G.722.1、Annex C、ZTE_BA、AAC-LD/LC。高端麦克风拾音半径≥10 米,单指向性,频响:50Hz-20KHz,支持MC协议。≥75 寸≥4K 高清视频会议拼接显示器,支持≥3 屏拼接。
(10)嵌入式音视频开发平台

嵌入式音视频开发平台包括: 带NPU的音视频开发平台YJS-S8010、基于安卓系统的嵌入式音视频开发平台YJS-S8220CPU、带多麦克风阵列的音频处理开发平台YJS-S8250。支持16/32/48k 音频采样率、支持 Wifi 功能、支持多格式视频解码器,包括H.264/H.265 等解码器。支持安卓操作系统,提供≥5个音频相关实验,包括端点检测实验、语音增强实验、声源定位和回声消除实验;提供≥5个视频或图像相关实验,包括人脸识别、图像分割、目标跟踪等实验。