티스토리 뷰
Google이 Speech API를 사용하는 것처럼 스트림 접근 방식이 없습니다. 새 프로필을 등록하려면 30 초가 필요하지 않습니다. 최근 연습에서-10 초 동안 성공적인 결과를 얻었습니다. MS API의 핵심 문제는 여러 스피커에 대한 제한입니다. 별도의 오디오 트랙으로 나누는 방법을 찾아야합니다. 그렇지 않으면 가장 먼저 알려진 음성을 인식합니다.
-------------------등록에는 30 초의 데이터가 필요합니다. 사용자 프로필이 있으면 1 초 샘플에서 사용자를 식별 할 수 있으므로 매우 작은 지연으로 거의 실시간으로 수행 할 수 있습니다. 이것을 사용하려면 shortAudio 매개 변수 를 설정해야합니다 . 식별이 그보다 더 빨리 작동한다고 상상하기는 어렵습니다.
뭔가 다른 것이 필요한 경우 더 유연한 작업을 수행 할 수있는 Kaldi 와 같은 오픈 소스 음성 툴킷 이 있습니다.
출처
https://stackoverflow.com/questions/39920134
댓글