本博客用于总结学习、工作中的一些技术,由于时间有限,公式和图片基本没有,之后可能会补上或有了新的感悟重新写一篇,虽然参照了不少论文和前辈博客,但是主要还是靠自己脱稿白话描述,所以用词严谨性不足,可能存在错误,同时虽然不少博文是总结性质的,但是视野受限,片面描述在所难免,但随着技术能力和写作能力提升,博文的阅读体验感也会更佳,曲折中前进。
本文以faster-decoder和lattice-decoder两个解码器为实例分别介绍kaldi解码器的基本原理、设计思想和代码简析。首先介绍两种解码器的基本功能与产物,然后介绍基于viterbi朴素实现的解码器的局限性,并给出kaldi中faster-decoder的优化方法和解决方案。最后以lattice-decoder为例给出代码实现简析。 两种解码器原理基本一致,lat...
内存管理一直是一个程序设计绕不开的一个话题,尤其是当存在性能瓶颈或内存泄漏时,一个合理的内存分配和释放策略尤为重要。由于之前使用HTK作为快速验证语音相关算法的软件原型时,出现过内存泄漏的问题,借此机会研究了一下HTK的内存设计方法。本文以HTK内存管理设计为例介绍内存管理三个层次的最上层设计应用案例。 1 内存管理的一些基本问题 1.1 内存管理三个层次 内存管理实现一般有三...
Parallel text-to-speech with pitch prediction pitch在tts中的应用
内存管理三层次之用户态上层案例分析:HTK内存管理
pitch提取技术路线及在ASR、TTS、变声算法中的应用[TODO]