
글/트레이시 브라운(Traci Browne), 마우저 일렉트로닉스(Mouser Electronics)
![]()
(출처: Olga Gorkun/stock.adobe.com; generated with AI)
얼마 전까지만 해도 오디오 분석은 녹음된 클립을 오프라인으로 처리하여 키워드를 검색하거나, 레벨을 측정하거나, 사후에 이벤트를 태깅하는 것을 의미했다. 오늘날 업계는 오디오 스트리밍을 필요로 하지 않고도 주요 소리를 감지하기 위해 인공지능(AI) 기반의 엣지 분석으로 점점 더 이동하고 있다.(참고자료 1)
예를 들어, 건물 보안 시스템은 유리 깨지는 소리나 고함과 같은 비정상적인 소리를 감지하기 위해 오디오 분석을 사용할 수 있으며, 이를 통해 즉각적인 경고를 발생시킬 수 있다. 이 시스템은 원시 오디오를 저장하는 대신 소리를 분류하기 때문에 개인정보 보호 위험을 줄이면서도 신속한 대응을 가능하게 한다.
엣지 분석은 알고리즘 개발을 훨씬 넘어서는 작업을 요구하기 때문에 시스템 중심의 사고를 필요로 하는 변화를 촉진하고 있다. 이를 사운드, 비디오, 사물인터넷(IoT) 센서, 그리고 엣지 컴퓨팅을 결합한 오디오 분석 파이프라인으로 볼 수 있으며, 카메라와 스마트 마이크가 이벤트를 실시간으로 처리하고 중요한 데이터만 전송할 수 있도록 한다.
오디오 분석 파이프라인
오디오 분석은 다양한 환경에서 사용되지만, 그 기본적인 파이프라인은 일관된다. 시스템은 소리를 캡처하고, 이를 디지털 형태로 표현한 다음, 로컬에서 분석하여 활용 가능한 이벤트를 생성한다. 화상 통화에서의 이 오디오 분석 파이프라인을 생각해 보자.
1단계: 소리 캡처 및 신호 정제
화상 통화 중 마이크는 사용자의 목소리와 배경에서 짖는 개 소리를 구분할 수 없다. 단지 하나의 변화하는 공기 압력 패턴만을 감지할 뿐이다. 이 파이프라인의 첫 번째 단계에서 마이크는 공기 압력의 변화를 전기 신호로 변환하며, 전체적인 소리 크기가 증가하거나 감소함에 따라 전압이 상승하거나 하강한다.
그 다음 오디오 프론트엔드는 저주파 험과 고주파 간섭을 제거하기 위해 간단한 필터를 적용한다. 또한 이득(Gain)을 설정하여 일반적인 음성이 배경 잡음보다 위에 위치하도록 하되, 큰 소리가 신호를 클리핑하거나 왜곡시키지 않도록 한다. 필터를 통해 신호가 “정제”되면, 아날로그-디지털 변환기(ADC)는 이를 시스템이 처리할 수 있는 디지털 샘플 스트림으로 변환한다(그림 1).
그림 1: 소리 캡처 및 신호 정제 과정 (출처: 저자/마우저 일렉트로닉스)
2단계: 오디오 특징 추출
디지털 오디오 샘플은 깨끗하지만, 각각의 원시 샘플 값을 개별적으로 단순히 살펴보는 것만으로는 충분하지 않다. 대신 시스템은 신호를 작은 시간 구간으로 나누고, 각 구간마다 전체 진폭, 주파수 전반에 걸친 에너지 분포, 그리고 인간 음성에 일반적인 주파수 범위 내의 에너지 양과 같은 요약 특징을 계산한다.
각 구간은 하나의 간결한 특징 벡터가 되며, 소프트웨어는 이러한 벡터를 사용해 음성과 개 짖는 소리와 같은 다른 소리를 구분하고, 누군가가 말을 시작하거나 끝내는 시점을 감지한다. 이러한 상위 수준의 특징을 바탕으로, 장치는 에코 제거, 잡음 억제, 음성 활동 감지 기능을 실시간으로 수행할 수 있다(그림 2).
그림 2: 오디오 특징 추출 과정 (출처: 저자/마우저 일렉트로닉스)
3단계: 특징을 이벤트로 변환
이러한 특징 스트림이 생성되면, 레이블링이 시작된다. 시스템은 어떤 참가자가 말하고 있는지, 언제 영상의 초점을 전환해야 하는지를 판단해야 하며, 동시에 배경 잡음을 식별하고 차단하여 이를 음성과 구분해야 한다. 그렇다면 콜센터 환경과 같이 보다 정교한 구현이라면 어떨까?
콜센터에서는 요구사항이 달라진다. 이 경우 관리자는 통화자가 점점 불만을 느끼고 있는지를 파악하기를 원한다. 모델은 음량, 음색, 말하는 속도와 같은 특징을 기반으로 감정 상태와 음성 긴장도를 예측한다. 시스템이 고도화됨에 따라 출력은 단순한 신호 수준의 정보에서 벗어나, 대시보드와 워크플로우를 구동하는 보다 상위 수준의 이벤트로 전환된다(그림 3).
그림 3: 특징을 이벤트로 변환하는 과정을 시각적으로 나타낸 것 (출처: 저자/마우저 일렉트로닉스)
파이프라인이 실행되는 위치: 엣지 vs. 클라우드
앞서 언급했듯이, 이러한 오디오 분석 시스템은 더 이상 고성능 프로세서와 클라우드 기반 인프라에만 의존하지 않는다. 전체 전사, 고급 감정 분석, 장기적인 추세 모니터링을 위한 복잡한 모델은 여전히 PC와 서버에서 실행되지만, 이제는 디바이스에서 생성된 특징 및 이벤트 스트림을 기반으로 시작된다.
많은 최신 헤드셋, 스마트 스피커, 화상회의용 사운드바에서는 마이크가 신호를 디지털 신호 처리(DSP) 기능을 갖춘 마이크로컨트롤러(MCU) 또는 전용 DSP 칩으로 전달한다. 이러한 장치들은 데이터가 하드웨어를 떠나기 전에 프론트엔드 정제 작업을 수행하고, 특징을 추출하며, 기본적인 음성 존재 여부 판단을 수행한다.
왜 프론트엔드 선택이 분석 성능을 좌우하는가
전기 설계 엔지니어에게 이러한 프론트엔드 선택은 전체 분석 파이프라인의 성능을 얼마나 잘 발휘할지를 결정한다. 이후의 모든 결정은 프론트엔드가 제공하는 데이터에 의존한다. 마이크의 선택과 배치, 아날로그 이득 설정, 필터링, 변환기 설정은 노이즈 수준, 동작 범위, 지연을 결정하며, 이 모든 요소는 전체 분석 작업에 영향을 미친다.
이러한 요소들이 제대로 구현되면, 동일한 하드웨어 플랫폼으로 소비자 기기의 단순한 잡음 제거부터 헤드셋, 스마트 스피커, 영상 카메라에서의 실시간 분석까지 다양한 기능을 지원할 수 있다.
음성을 녹음하지 않고 건강 이벤트 감지하기
또 다른 예로, 병실에서 기침을 감지하도록 설계된 천장 장착 시스템을 생각해 보자. 오디오 프론트엔드는 배경 장비 소음과 난방, 환기 및 공조(HVAC) 시스템 소음을 포함한 환경 속에서 기침 신호를 추출해야 하며, 지속적으로 동작해야 한다. 엄격한 환자 개인정보 보호 규정 때문에 이 시스템은 원시 오디오 스트림을 지속적으로 전송하는 대신, 이벤트 메타데이터만 전송하도록 디바이스 내 추론(on-device inference) 기반으로 설계되어야 한다.
이러한 시스템은 충분한 커버리지를 제공하기 위해 저전력 마이크로전자기계(MEMS) 마이크의 소형 어레이를 포함할 수 있다. 이득은 조용한 기침이 배경 소음보다 두드러지도록 설정되며, 동시에 갑작스럽고 큰 소리가 신호를 클리핑 상태로 몰아넣지 않도록 조정된다. 프론트엔드는 험(hum)과 HVAC로 인한 저주파 소음을 필터링하면서도 기침과 관련된 주파수는 유지한다. 또한 기계 설계자는 진동과 공기 흐름에 의한 잡음을 방지하기 위해 마이크를 나사나 통풍구로부터 떨어진 위치에 배치한다.
저전력의 항상-청취(always-listening) 단계는 기침과 유사한 패턴을 지속적으로 모니터링하고, 이러한 패턴이 감지되면 더 강력한 프로세서를 활성화하여 짧은 오디오 구간을 분석한다. 이 기능은 장치를 전력 및 열 예산 내에서 동작하도록 유지하며, 병원 정책에 따라 시간, 병실 번호, 기침 감지 여부와 같은 이벤트 데이터만 장치를 벗어나도록 한다.
콜센터 오디오에서 스트레스 신호 감지
콜센터 환경에서는 헤드셋이 통화 품질이 악화되기 시작할 때 이를 감지해 관리자에게 알리는 시스템의 일부로 동작하며, 관리자가 신속하게 개입할 수 있도록 한다. 오디오 프론트엔드는 소음이 많은 환경에서도 명확한 음성을 캡처해야 하고, 저전력 장치에서 지속적으로 동작해야 하며, 원시 오디오가 아닌 파생된 신호를 중심으로 분석이 이루어지도록 개인정보 보호 기능을 지원해야 한다.
마이크는 상담원의 입 가까이에 배치되며, 아날로그 신호 경로는 음성이 깨끗하게 유지되는 동시에 사무실 소음은 배경에 머물도록 설계된다. 또한 이득과 잡음 감소 파라미터는 주변에서 누군가 목소리를 높이거나 큰 소리가 발생하더라도 상담원과 고객의 음성이 왜곡 없이 명확하게 들리도록 설정된다.
프론트엔드는 신호를 정제한 후 이를 헤드셋 프로세서에서 실행되는 경량 분석 기능으로 전달한다. 시스템은 모든 단어를 모니터링하는 대신, 화자 간 음량 균형, 음높이와 음색 변화, 침묵 시간, 그리고 발화 중단 패턴을 추적한다. 이후 각 통화를 고객 불만, 상담원 발화 중단, 장시간 대기와 관련된 세 가지 지표(점수)로 변환한다.
이 장치는 이러한 간결한 점수와 함께 압축된 통화 오디오를 전송하여, 관리자가 원시 마이크 데이터를 직접 모니터링하지 않고도 스트레스 수준의 증가를 파악할 수 있도록 한다.
항상-청취 디바이스의 미래
항상-청취 노드는 건강, 안전, 스마트 환경 모니터링의 표준으로 자리잡고 있지만, 이는 오디오 분석이 엣지에서 효율적으로 실행될 때에만 가능하다. 이제 사용자는 자신의 기기가 음성 명령과 다양한 음향 이벤트를 인식하기를 기대하고 있으며, 따라서 모든 마이크 입력은 단순한 오디오 경로가 아니라 신뢰할 수 있는 오디오 분석 파이프라인으로 전달되어야 한다.
설계자에게 이러한 기대는 병실, 산업 플랜트, 차량, 건물 등에서 과열이나 배터리 소모 없이 지속적으로 청취할 수 있는 저전력 하드웨어에 더 많은 기능을 요구하게 만든다. 프론트엔드는 소형 프로세서에서 지속적인 이득 제어, 필터링, 간단한 패턴 감지를 수행하며, 필요할 때에만 더 복잡한 처리로 확장한다.(참고자료 2)
이러한 요구는 분석 기능을 미래의 부가 요소가 아닌, 전기 설계 엔지니어에게 필수적인 요구사항으로 만든다. 성공적인 설계는 저잡음 마이크와 효율적이고 신뢰할 수 있는 오디오 프론트엔드를 결합하여, 소프트웨어 팀이 하드웨어를 변경하지 않고도 디바이스 수명 동안 새로운 청취 기능을 추가할 수 있도록 한다.
설계 초기 단계부터 오디오 분석을 반영하기
오디오 분석은 더 이상 사후 처리되는 오프라인 도구에 머무르지 않고, 이제 항상-청취 디바이스 내에 자리잡고 있다. 많은 시스템은 안전, 건강, 운영 품질과 관련된 특정 이벤트를 식별하기 위해 소리를 로컬에서 분석하며, 이를 통해 디바이스에서 원시 오디오를 스트리밍할 필요성을 줄인다. 애플리케이션과 관계없이 동일한 파이프라인—캡처, 특징, 이벤트—을 통해 원시 소리는 모든 파형을 클라우드로 전송하지 않고도 의사결정으로 전환된다.
전기 설계 엔지니어는 새로운 오디오 설계를 수행할 때 다음과 같은 질문에 답해야 한다:
• 어떤 소리가 이벤트로서 중요한가?
• 무엇이 이벤트로 간주되는가?
• 이 노드는 어디에 위치하게 되는가?
• 해당 환경에서 고려해야 할 전력, 열, 개인정보 보호 제한은 무엇인가?
• 파이프라인 중 얼마나 많은 부분을 저전력 프론트엔드에 배치할 수 있는가?
• 어떤 기능이 서버급 처리 성능을 필요로 하는가?
이러한 질문들에 초기 단계에서 답하고, 저잡음 마이크와 효율적이며 신뢰할 수 있는 오디오 프론트엔드를 결합한 설계는, 디바이스의 수명 동안 소프트웨어 팀이 하드웨어를 다시 설계하지 않고도 새로운 청취 기능을 지속적으로 추가할 수 있는 여지를 제공한다.
참고자료
1. https://www.ideas2it.com/blogs/audio-classification-on-edge-ai
2. https://blog.meetneura.ai/edge-audio-event-detection/
저자 소개

트레이시 브라운(Traci Browne)은 제조 및 산업 응용 분야를 전문으로 하며,
신흥 기술, 엔지니어링, 로보틱스, 산업용 사물인터넷에 중점을 둔 저명하고
존경받는 저널리스트이자 작가이다. 그녀는 로보틱스 비즈니스 리뷰,
넥스트봇 매거진, 컴파운딩스 매거진, 플럼빙 앤 메카니컬 엔지니어,
인텔 아이큐, 프로페셔널 마리너, 뮤니시펄 시워 앤 워터 매거진 등 다양한 매체에 글을 게재해 왔다. 또한 주요 클라우드 플랫폼 및 서비스 제공업체, 로보틱스 제조업체, 글로벌 기술 기업들을 위해서도 글을 집필해 왔다.