mdh.sePublikationer
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Optimizing text-independent speaker recognition using an LSTM neural network
Mälardalens högskola, Akademin för innovation, design och teknik.
2014 (Engelska)Självständigt arbete på avancerad nivå (masterexamen), 20 poäng / 30 hpStudentuppsats (Examensarbete)
Abstract [en]

In this paper a novel speaker recognition system is introduced. Automated speaker recognition has become increasingly popular to aid in crime investigations and authorization processes with the advances in computer science. Here, a recurrent neural network approach is used to learn to identify ten speakers within a set of 21 audio books. Audio signals are processed via spectral analysis into Mel Frequency Cepstral Coefficients that serve as speaker specific features, which are input to the neural network. The Long Short-Term Memory algorithm is examined for the first time within this area, with interesting results. Experiments are made as to find the optimum network model for the problem. These show that the network learns to identify the speakers well, text-independently, when the recording situation is the same. However the system has problems to recognize speakers from different recordings, which is probably due to noise sensitivity of the speech processing algorithm in use.

Ort, förlag, år, upplaga, sidor
2014. , s. 52
Nyckelord [en]
speaker recognition, speaker identification, text-independent, long short-term memory, lstm, mel frequency cepstral coefficients, mfcc, recurrent neural network, speech processing, spectral analysis, rnnlib, htktoolkit
Nationell ämneskategori
Övrig annan teknik
Identifikatorer
URN: urn:nbn:se:mdh:diva-26312OAI: oai:DiVA.org:mdh-26312DiVA, id: diva2:759404
Externt samarbete
Ss. Cyril and Methodius University in Skopje, Macedonia
Presentation
2014-09-05, Skopje, Macedonia, 17:25 (Engelska)
Handledare
Examinatorer
Tillgänglig från: 2014-10-30 Skapad: 2014-10-29 Senast uppdaterad: 2014-10-30Bibliografiskt granskad

Open Access i DiVA

Optimizing text-independent speaker recognition using an LSTM neural network(1092 kB)974 nedladdningar
Filinformation
Filnamn FULLTEXT01.pdfFilstorlek 1092 kBChecksumma SHA-512
8cb1ff78fe9f9ae607ba0202ca0839465e56a2f7768d4a0f9a3ab43d05413292ddf97f9a7b2aeff4e6520856b84843b7403d86b17a71ca9c9009e35e27e656f2
Typ fulltextMimetyp application/pdf

Sök vidare i DiVA

Av författaren/redaktören
Larsson, Joel
Av organisationen
Akademin för innovation, design och teknik
Övrig annan teknik

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 974 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

urn-nbn

Altmetricpoäng

urn-nbn
Totalt: 3110 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf