Распознавание личности по голосу на базе параметров спектральной модели голосового источника

И. С. Макаров; Макаров И. С.; Д. С. Осипов; Осипов Д. С.

doi:10.31857/S0320791924010132

Распознавание личности по голосу на базе параметров спектральной модели голосового источника

Авторлар: Макаров И.С.¹, Осипов Д.С.²^,3
Мекемелер:
1. ООО “БиометрикЛабс”
2. Институт проблем передачи информации им. А.А. Харкевича РАН
3. Национальный исследовательский университет “Высшая школа экономики”
Шығарылым: Том 70, № 1 (2024)
Беттер: 113-119
Бөлім: АКУСТИКА ЖИВЫХ СИСТЕМ. БИОМЕДИЦИНСКАЯ АКУСТИКА
URL: https://kazanmedjournal.ru/0320-7919/article/view/648380
DOI: https://doi.org/10.31857/S0320791924010132
EDN: https://elibrary.ru/ZNOOAD
ID: 648380

Дәйексөз келтіру

Толық мәтін

Ашық рұқсат
Рұқсат жабық

Рұқсат берілді
Рұқсат жабық

Рұқсат ақылы немесе тек жазылушылар үшін

Аннотация
Толық мәтін
Авторлар туралы
Әдебиет тізімі
Қосымша файлдар
Статистика

Аннотация

Исследована информативность параметров спектральной модели голосового источника в задаче автоматического распознавания личности по голосу. Для голосовых параметров ошибка распознавания личности составила 20.8%; совместное использование этих параметров с периодом основного тона понизило ошибку до 13.8%. Наконец, совместное использование параметров спектральной модели с периодом основного тона и мел-частотными кепстральными коэффициентами обеспечило наивысшую точность (ошибка распознавания составила 1.2%).

Негізгі сөздер

обратная фильтрация, голосовой источник, математические модели голосообразования, распознавание личности по голосу

Толық мәтін

Авторлар туралы

И. Макаров

ООО “БиометрикЛабс”

Хат алмасуға жауапты Автор.
Email: im@biometriclabs.ru
Ресей, 4-я ул. 8-го Марта 3, стр. 3, Москва, 125319

Д. Осипов

Институт проблем передачи информации им. А.А. Харкевича РАН; Национальный исследовательский университет “Высшая школа экономики”

Email: d_osipov@iitp.ru
Ресей, Большой Каретный переулок 19, стр. 1, Москва, 127051; ул. Мясницкая 20, Москва, 101000

Әдебиет тізімі

Kinnunen T., Li H. An overview of text-independent speaker recognition: From features to supervectors // Speech Commun. 2010. V. 52. P. 12–40.
Yegnanarayana B., Mahadeva Prasanna S., Zachariah J., and Gupta Ch. Combining Evidence from Source, Suprasegmental and Spectral Features for a Fixed-Text Speaker Verification System // IEEE Trans. on Speech and Audio Process. 2005. V. 13. № 4. P. 575–582.
Kinnunen T., Alku P. On separating glottal source and vocal tract information in telephony speaker verification // Proc. the IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, ICASSP 2009.
Plumpe M., Quatieri T., Reynolds D. Modelling of the Glottal Flow Derivative Waveform with Application to Speaker Identification // IEEE Trans. on Speech and Audio Process. 1999. V. 7. № 5. P. 569–586.
Gudnason J., Brookes M. Voice Source Cepstrum Coefficients for Speaker Identification // IEEE ICASSP. 2008. P. 4821–4824.
Mazaira-Fernández L., Álvarez-Marquina A., Gómez-Vilda P., Martínez Olalla R., Muñoz C. Glottal Source Cepstrum Coefficients Applied to NIST SRE 2010 // V Jornadas de Reconocimiento Biométrico de Personas JRBP10, Huesca, España. 2010.
Mazaira-Fernandes L., Alvares-Marquina A., Gomez-Vilda P. Improving speaker recognition by biometric voice deconstruction // Front. Bioeng. Biotechnol. 2015. V. 3. P. 126.
Sorokin V.N. Vocal Source Contribution to Speaker Recognition // Pattern Recognition and Image Analysis. 2018. V. 28. № 3. P. 546–556.
Ananthapadmanabha T. Acoustic Analysis of Voice Source Dynamics // STL-QPSR. 1984. V. 2–3. P. 1–24.
Snyder D., Garcia-Romero D., Sell G., Povey D., Khudanpur S. X-vectors: Robust DNN Embeddings for Speaker Recognition // 2018 IEEE Int. Conf. on Speech, Audio, and signal Process. (ICASSP).
Jessen M., Bortlik J., Schwarz P., Solewisz Y. Evaluation of Phonexia Automatic Speaker Recognition Software under Conditions Reflecting Those of a Real Forensic Voice Comparison Case // Speech Communication 111. 2019. P. 22–28.
Guo J., Xu N., Qian K., Shi Y., Wu Y., Alwan A. Deep Neural Network based i-vector Mapping for Speaker Verification Using Short Utterances // Speech Communication 105. 2018. P. 92–102.
Bai Z., Zhang X., Chen J. Cosine Metric Learning based Speaker Verification // Speech Communication 118. 2020. P. 10–20.
Сорокин В.Н., Макаров И.С. Определение пола диктора по голосу // Акуст. журн. 2008. Т. 54. № 4. С. 659–668.
Sorokin V.N., Leonov A.S. Multisource Speech Analysis for Speaker Recognition // Pattern Recognition and Image Analysis. 2019. V. 29. № 1. P. 181–193.
Леонов А.C., Сорокин В.Н. Верхняя граница ошибок решения обратной задачи определения голосового источника // Акуст. журн. 2017. Т. 63. С. 532–545.
Сорокин В.Н., Макаров И.С. Обратная задача для голосового источника // Информационные процессы. 2006. Т. 6. № 4. С. 375–395.
Цыплихин А.И. Анализ импульсов голосового источника // Акуст. журн. 2007. Т. 53. № 1. С. 119–133.
Nagrani A., Chung J.S., Xie W., Zisserman A. Voxceleb: Large-scale speaker verification in the wild // Computer Science and Language, 2019.
Dehak N., Kenny P., Dehak R., Dumouchel P., and Ouellet P. Front-end factor analysis for speaker verification // IEEE Trans. on Audio, Speech, and Lang. Process. 2011. V. 19. № 4. P. 788–798.
Kenny P., Stafylakis T., Ouellet P., Alam M., Dumouchel P. PLDA for speaker recognition with utterances of arbitrary duration // Proc. ICASSP. 2013. P. 76449–7653.
Vestman V., Kinnunen T. Supervector Compression Strategies to Speed up i-Vector System Development // Speaker Odyssey 2018: The Speaker and Language Recognition Workshop.
Morrison G. Tutorial on logistic regression calibration and fusion: converting a score to a likelihood ratio // Australian Journal of Forensic Sciences. 2013. V. 45. № 2. P. 173–197.
Zhu W., Kong T., Lu S., Li J., Zhang D., Deng F., Wang X., Yang S., Liu J. SpeechNAS: Towards Better Trade-off between Latency and Accuracy for Large-Scale Speaker Verification // arXiv – CS – Artificial Intelligence, 2021. https://doi.org/arxiv-2109.08839

Қосымша файлдар

Әрекет

1. JATS XML

Жүктеу

2. Fig. 1. One period of the voice source generated by the model from [9]. T0 = 10 ms (fundamental tone frequency 100 Hz).

Жүктеу (12KB)

Метадеректер

3. Fig. 2. Modulus of the spectrum of the source (Fig. 1) calculated using the model (3) (solid line) and with the 1024-point Fast Fourier Transform (dashed line).

Жүктеу (10KB)

Метадеректер

Пайдаланушының аты
Құпиясөз
Мені есте сақтау

Құпия сөзді ұмыттыңыз ба?	Тіркеу

Пайдаланушының аты
Құпиясөз
Мені есте сақтау

Құпия сөзді ұмыттыңыз ба?	Тіркеу

Том 71, № 4 (2025)

Том 71, № 4 (2025)

Распознавание личности по голосу на базе параметров спектральной модели голосового источника

Толық мәтін

Аннотация

Негізгі сөздер

Толық мәтін

Авторлар туралы

И. Макаров

Д. Осипов

Әдебиет тізімі

Қосымша файлдар