Анна Сергеева. Новые возможности звукового распознавания с аудиопроцессором Microsemi ZL38052 // Вестник электроники. №3-4 (60). 2017
Компания Zarlink (Microsemi) выпустила на рынок новый аудиопроцессор ZL38052 семейства Timberwolf, который успешно применяется в составе IP-камер, систем пожарной и газовой безопасности, управляемых голосом шлюзах. В статье приводится обзор характеристик и преимуществ процессора, а также сопроводительного программного обеспечения, позволяющего значительно расширить функциональные возможности конечных изделий.
Опубликовано в разделе "Активные компоненты"
Эта же статья на сайте журнала
Возможности аудиопроцессора нового поколения ZL38052
ZL38052 — ведущая модель семейства аудиопроцессоров Timberwolf от компании Zarlink (Microsemi). В дополнение к современной аппаратной платформе (рис. 1), эти устройства оснащены инновационной акустической технологией AcuEdge, которая поддерживает внушительный набор высоко-сложных и интегрированных алгоритмов обработки звука.
Рис. 1. Упрощенная блок-схема аудиопроцессора ZL38052 семейства Timberwolf.
Благодаря такому оснащению, процессоры ZL38052 способны воспринимать отдаленные входящие аудиосигналы, подавлять эхо и шумы при проведении видеоконференций, обрабатывать конференц-вызовы с подключением спутниковых телефонов, а также обеспечивать работу IP-камер и камер наблюдения высокой четкости с двусторонней передачей голоса (рис. 2 и 3).
Рис. 2. Возможности применения аудиопроцессоров семейства Timberwolf.
Рис. 3. Пример применения ZL38052 в системах наблюдения.
Перечислим основные аппаратные характеристики ZL38052.
Используется DSP со встроенной памятью, частотой 300 МГц и аппаратным ускорением обработки голоса. Поддерживаются 2 цифровых микрофонных интерфейса, с возможностью параллельной обработки данных от 4 цифровых микрофонов.
Можно задействовать 2 независимых драйвера для телефонной гарнитуры с емкостью 16 Ом и выходной мощностью 32 мВт. Для поддержки гарнитур используются двухканальные 16-разрядные цифро-аналоговые преобразователи (ЦАП).
Доступны 2 шины мультиплексирования времени (TDM). Порты конфигурируемые, с поддержкой режимов импульсно-кодовой модуляции (РСМ) или Inter-IC Sound (I2S). В первом случае, поддерживается синхронизация PCM и GCI, во втором — I2S. Каждый порт может выступать в роли ведущего или ведомого. В режиме РСМ каждый порт способен поддерживать до 4 двусторонних потоков передачи голосовых данных, в режиме I2S — до 2 двусторонних потоков со скоростью от 128 кб/с до 8 Мб/с.
Поддерживаются 2 порта последовательного интерфейса SPI. Производитель рекомендует в качестве основного порта взаимодействия с хост-процессором использовать ведомый (Slave) SPI-порт, поскольку он обеспечивает наиболее быструю загрузку и настройку прошивки устройства. Ведущий (Master) SPI-порт следует использовать для загрузки прошивки устройства с внешней Flash-памяти (в режиме автозагрузки).
Также доступен I2C-порт. По аналогии с SPI , он может использоваться в качестве основного порта взаимодействия с хост-процессором, для загрузки устройства и настройки прошивки.
Набор портов GPIO можно использовать для создания отчетов о прерываниях и событиях, управления фиксированными режимами функционирования и параметрами загрузки. Также GPIO можно задействовать как порты ввода-вывода общего назначения для связи и управления внешними устройствами.
Для отладки и дополнительной настройки устройства предусмотрен порт UART.
Возможности сопроводительного ПО AcuEdge
Технология Microsemi AcuEdge включает программный пакет для управления конференц-вызовами со спутниковых микрофонов.
Поддерживает такие алгоритмы обработки аудио сигналов как оценка местонахождения источника звука и определение его направления, подавление акустического эха и шумов, а также многие другие возможности для улучшения разборчивости и субъективного качества голоса в жестких условиях эксплуатации (рис.4).
Рис. 4. Ключевые возможности технологии Microsemi AcuEdge.
Перечислим ключевые возможности технологии Microsemi AcuEdge.
-
Двусторонняя передача аудио. Обеспечивает полнодуплексный канал голосового общения с использованием телефонных гарнитур.
-
Подавление шумов. Уменьшает стационарные посторонние шумы от кондиционеров, вентиляторов, электроники и т. д.
-
Направление звука. Обнаруживает местоположение источника звука.
-
Формирование зоны источника звука. Определение области нахождения говорящего, что увеличивает четкость голоса и минимизирует нестационарные шумы.
-
Обработка отдаленного звука. Мгновенно усиливает отдаленные сигналы.
-
Распознавание голосовых команд на фоне других звуков.
-
Распознавание ключевых слов для включения устройства.
-
Распознавание командных фраз для голосового управления без подключения к сети.
Кроме того, ZL38052 поддерживает функции классификации звуков, что позволяет системе слежения распознавать и различать такие аудио-события как сигналы детекторов дыма (Т3) и детекторов угарного газа (Т4), звук бьющегося стекла.
В общем случае, для ZLS38052 производитель предлагает 2 профиля настроек, для выбора нужного режим функционирования: полнодуплексная коммуникация и распознавание тревожных сигналов.
Режим полнодуплексной коммуникации (ZLS38052.0):
-
Улавливание звуков от отдаленных источников
-
Формирование зоны источника звука
-
Оценка местонахождения источника звука
-
Полное подавление узкополосного и широкополосного акустического эха
-
Поддержка подавления длинного эха (до 256 мс)
-
Нелинейное эхоподавление для избежания резких искажений звука в динамиках гарнитуры
-
Обнаружение и подавление воя
-
Предотвращение колебаний при эхоподавлении
-
Усовершенствованное шумоподавление для фильтрации звуков от находящихся рядом посторонних источников
-
Различные алгоритмы кодирования/декодирования сигналов: линейный 16-битный, G.722, G.711 A/μlaw
-
Эквалайзеры для передаваемого и принимаемого сигналов
Режим распознавания тревожных сигналов (ZLS38052.2):
-
Распознавание тревожных сигналов T3 (сигнализация датчиков дыма)
-
Распознавание тревожных сигналов T4 (сигнализация датчиков возгорания)
-
Распознавание звука бьющегося стекла
-
Программируемый детектор управления энергопотреблением
Дополнительно, поддерживается динамическое переключение между этими профилями непосредственно в процессе работы оборудования.
Дополнительные инструменты разработки
В дополнение к аудиопроцессорам семейства Timberwolf, производитель Microsemi поставляет на рынок дополнительные инструменты для ускорения цикла разработки конечных продуктов.
В частности, для интерактивной настройки оборудования аудиопроцессора ZL38052 разработчики могут использовать совместимый программный пакет MiTuner с удобным графическим интерфейсом. MiTuner поставляется в продвинутой модификации ZLS38508 и более упрощенной ZLS38508LITE.
Возможности программного пакета включают поддержку автоматической и субъективной подстройки звука, настройку ключевых параметров разрабатываемой системы, визуальное отображение аудио-дорожек с удобным контекстным меню программного управления параметрами звучания (рис. 5).
Рис. 5. Графический интерфейс программного пакета ZLS38508 MiTuner
Также доступен полный комплект автоматической настройки MiTuner ZLE38470BADA, который обеспечивает легкое управление для тонкой ручной настройки возможностей технологии AcuEdge. В комплект входят блок аппаратного аудиоинтерфейса, микрофон и наушники, программный пакет ZLS38508 MiTuner (рис. 6).
Рис. 6. Комплект автоматической настройки MiTuner ZLE38470BADA
Возможности аудиопроцессоров ZL38052 и других моделей семейства Timberwolf от компании Microsemi позволяют применять их в голосовых приложениях с повышенными требованиями к точности и четкости обработки звука. Процессоры поддерживают передовую технологию Microsemi AcuEdge, набор высокоточных и интегрированных алгоритмов которой позволяет пользователям извлекать больше полезной информации из аудиопотоков.
Набор инструментов разработчика с поддержкой программной среды MiTuner позволяет проектировщикам удобно и быстро создавать требуемые эталонные конструкции, проводить их оперативную конфигурирование и отладку. Все это помогает клиентам ускорить выход на рынок готовых устройств и систем.