Метод корректировки коэффициентов линейного предсказания для систем цифровой обработки речи со сжатием данных на основе авторегрессионной модели голосового сигнала

Обложка

Цитировать

Полный текст

Открытый доступ Открытый доступ
Доступ закрыт Доступ предоставлен
Доступ закрыт Только для подписчиков

Аннотация

Рассмотрена проблема искажений авторегрессионной модели голосового сигнала под действием аддитивного фонового шума в системах цифровой обработки речи со сжатием данных на основе линейного предсказания. В частотной области указанные искажения проявляются в ослаблении основных формант, отвечающих за разборчивость речи диктора. Для компенсации формантного ослабления предложено корректировать основные параметры авторегрессионной модели — коэффициенты линейного предсказания. Разработан регулярный метод их корректировки с использованием импульсной характеристики рекурсивного формирующего фильтра. При применении данного метода наряду с амплитудным усилением формант их частόты сохраняются неизменными как фактор узнаваемости голоса диктора. Эффективность метода исследована экспериментально с использованием авторского программного обеспечения. По результатам проведенного эксперимента сделаны выводы о существенном повышении относительного уровня формант в спектре мощности откорректированного голосового сигнала.

Об авторах

В. В. Савченко

Редакция журнала “Радиотехника и электроника”

Автор, ответственный за переписку.
Email: vvsavchenko@yandex.ru
Россия, ул. Моховая, 11, корп. 7, Москва, 125009

Л. В. Савченко

Национальный исследовательский университет “Высшая школа экономики”

Email: vvsavchenko@yandex.ru
Россия, ул. Б. Печерская, 25, Нижний Новгород, 603155

Список литературы

  1. Rabiner L.R., Schafer R.W. // Foundations and Trends in Signal Processing. 2007. V. 1. № 1–2. P. 1. https://doi.org/10.1561/2000000001
  2. O’Shaughnessy D. // J. Audio. Speech. Music Processing. 2023. V. 8. https://doi.org/10.1186/s13636-023-00274-x
  3. Savchenko V.V. // Radioelectron. Commun. Systems. 2021. V. 64. № 11. P. 592. https://doi.org/10.3103/S0735272721110030
  4. Gibson J. // Information. 2019. V. 10. № 5. 179. https://doi.org/10.3390/info10050179
  5. Chaouch H., Merazka F., Marthon Ph. // Speech Commun. 2019. V. 108. P. 33. https://doi.org/10.1016/j.specom.2019.02.002.
  6. Савченко В.В., Савченко Л.В. // Измерит. техника. 2019. № 9. С. 59. https://doi.org/10.32446/0368-1025it.2019-9-59-64
  7. Candan Ç. // Signal Processing. 2020. V. 166. № 10. Р. 107256. https://doi.org/10.1016/j.sigpro.2019.107256
  8. Semenov V.Yu. // J. Automation and Inform. Sci. 2019. V. 51. № 2. P. 30. https://doi.org/10.1615/JAutomatInfScien.v51.i2.40
  9. Marple S.L. Digital Spectral Analysis with Applications. 2-nd ed. Mineola: Dover Publ., 2019.
  10. Burg J.P. Maximum entropy spectral analysis. PhD Thesis. Stanford Univ., 1975.
  11. Magi C., Pohjalainen J., Bäckström T., Alku P. // Speech Commun. 2009. V. 51. № 5. P. 401. https://doi.org/10.1016/j.specom.2008.12.005
  12. Rout J.K., Pradhan G. // Speech Commun. 2022. V. 144. P. 101. https://doi.org/10.1016/j.specom.2022.09.004
  13. Deng F., Bao Ch. // Speech Commun. 2016. V. 79. P. 30. https://doi.org/10.1016/j.specom.2016.02.006
  14. Савченко В.В., Савченко А. В. // Измерит. техника. 2020. № 11. С. 65. https://doi.org/10.32446/0368-1025it.2020-11-65-72
  15. Савченко В.В. // РЭ. 2023. Т. 68. № 2. С. 138. https://doi.org/10.31857/S0033849423020122
  16. Kathiresan Th., Maurer D., Suter H., Dellwo V. // J. Acoust. Soc. Amer. 2018. V. 143. № 3. P. 1919. https://doi.org/10.1121/1.5036258
  17. Ngo Th., Kubo R., Akagi M. // Speech Commun. 2021. V. 135. P. 11. https://doi.org/10.1016/j.specom.2021.09.004
  18. Palaparthi A., Titze I. R. // Speech Commun. 2020. V. 123. P. 98. https://doi.org/10.1016/j.specom.2020.07.003
  19. Sadasivan J., Seelamantula Ch.S., Muraka N.R. // Speech Commun. 2020. V. 116. P. 12. https://doi.org/10.1016/j.specom.2019.11.001
  20. Gustafsson Ph.U., Laukka P., Lindholm T. // Speech Commun. 2023. V. 146. P. 82. https://doi.org/10.1016/j.specom.2022.12.001
  21. Ito M., Ohara K., Ito A., Yano M. // Proc. Interspeech. 2010. V. 2490. https://doi.org/10.21437/Interspeech.2010-669
  22. Arun-Sankar M.S., Sathidevi P. S. // Heliyon. 2019. V. 5. № 5. Р. e01820. https://doi.org/10.1016/j.heliyon.2019.e01820
  23. Narendra N.P., Alku P. // Speech Commun. 2019. V. 110. P. 47. https://doi.org/10.1016/j.specom.2019.04.003
  24. Alku P., Kadiri S.R., Gowda D. // Computer Speech & Language. 2023. V. 81. № 10. Р. 101515. https://doi.org/10.1016/j.csl.2023.101515
  25. Sadok S., Leglaive S., Girin L. et al. // Speech Commun. 2023. V. 148. P. 53. https://doi.org/10.1016/j.specom.2023.02.005
  26. Nguyen D.D., Chacon A., Payten Ch.L. et al. // Int. J. Language & Commun. Disorders. 2022. V. 57. № 2. P. 366. https://doi.org/10.1111/1460-6984.12705

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

© Российская академия наук, 2024