티스토리 뷰
작업 중 (2018-03-07 ~)
Emotion Recognition From Speech
초록 (Abstract)
이 논문에서는 음성을 통해 감정을 인식하는 과정을 다룬다. 제안된 접근법은 작은 단위로 쪼개진 연속된 음성 특징(sequential acoustic features)으로 학습된 Deep RNN을 사용한다. 동시에 특별한 확률적 특성(probabilistic-nature)인 CTC 손실 함수는 감정적 부분과 비감정적 부분이 모두 포함된 긴 발화도 고려할 수 있도록 한다. 이런 접근법은 두 가지 효과를 보이게 된다. 하나는 해당 분야의 최근 발전 결과물들과 비교가 가능하다는 점이다. 또다른 점은 인간이 같은 과정을 처리했을 때의 성능을 수치화할 수 있다는 점이다.
1. Introduction
최근 몇년동안 데이터 사이언티스트들에게 인간-컴퓨터 상호작용은 더욱 더 흥미로운 주제로 다가왔다. 대부분의 연구는 인간과 컴퓨터 사이의 소통을 더 자연스럽게 만드는 것에 목표를 두었다. 당연하게도 이 목표를 위해서는 2개에 초점을 두면 되는데: 바로 사람이 컴퓨터를 잘 이해하도록 하는 것과 그 정반대의 작업이다. STT(Speech to Text)라고 불리는 음성 인식에는 큰 진보가 있었다. 오늘날 기계는 인간이 하는 말을 대부분 이해할 수 있으며, Siri와 같이 스마트폰을 통해 목소리로 제어하는 서비스들도 이미 널리 사용되고 있다. Totally, 컴퓨터는 사람이 "무엇을" 말했는지는 알 수 있다. 하지만 음성에는 "누가", "어떻게" 말했는지 등의 더 많은 정보가 담겨있다. 두 번째 질문은 음성으로부터 감정을 추론하는 방법 탐구에 동기부여를 해준다.
- Total
- Today
- Yesterday
- VSCode
- 2019년
- /var/log
- Pixhawk
- venv
- docker
- bitsandbytes
- Visual Studio Code
- mavros
- Consensus
- RemoteSSH
- rust
- 합의알고리즘
- drop
- kotlin
- 분산시스템
- raft
- native
- 회고록
- PX4
- ros
- virtualenv
- jquery
- go
- 2019
- Android
- RaspberryPi
- WSL
- Drag
- CUDA
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |