Home
zhang
Cancel

kaldi vs wenet:online流程设计对照

  ASR online实现是工程实现必不可少的一环,可以随着用户实时语音流的输入及时返回识别结果,对于用户体验感非常重要。kaldi/wenet都支持全流程的online实现,主要包括online feature extractor、online model inference、online decoding。由于wenet借鉴了kaldi的不少实现思路和代码,所以本文以kaldi为主介绍...

HMM几个应用场景:NLP、TTS、ASR[TODO]

  

DNN-based SPSS全流程算法原理:Merlin[TODO]

  

语音合成不同时期的技术特点和核心原理

  TTS(Text-to-Speech)本质上是解决输入文本到输入语音的不定长映射问题。和ASR具有很大的相似性,但是又具有one-to-many技术特点而带来诸多难点。各位前辈的技术博客和各类论文都会对TTS技术原理和特点都有专业、详尽的描述,但是想起刚入门时面对众多技术路线,又不知从何下手的困境,觉得还是有必要沉淀一篇带有核心原理的方向性综合论述博文。本文给出不同时期TTS技术的基本特...

pitch提取技术路线及在ASR、TTS、变声算法中的应用[TODO]

   Parallel text-to-speech with pitch prediction pitch在tts中的应用

写在前面

  本博客用于总结学习、工作中的一些技术,由于时间有限,公式和图片基本没有,之后可能会补上或有了新的感悟重新写一篇,虽然参照了不少论文和前辈博客,但是主要还是靠自己脱稿白话描述,所以用词严谨性不足,可能存在错误,同时虽然不少博文是总结性质的,但是视野受限,片面描述在所难免,但随着技术能力和写作能力提升,博文的阅读体验感也会更佳,曲折中前进。

内存管理三层次之用户态上层案例分析:HTK内存管理

  内存管理一直是一个程序设计绕不开的一个话题,尤其是当存在性能瓶颈或内存泄漏时,一个合理的内存分配和释放策略尤为重要。由于之前使用HTK作为快速验证语音相关算法的软件原型时,出现过内存泄漏的问题,借此机会研究了一下HTK的内存设计方法。本文以HTK内存管理设计为例介绍内存管理三个层次的最上层设计应用案例。 1 内存管理的一些基本问题 1.1 内存管理三个层次   内存管理实现一般有三...

kaldi解码器基本原理、设计思想与代码简析

  本文以faster-decoder和lattice-decoder两个解码器为实例分别介绍kaldi解码器的基本原理、设计思想和代码简析。首先介绍两种解码器的基本功能与产物,然后介绍基于viterbi朴素实现的解码器的局限性,并给出kaldi中faster-decoder的优化方法和解决方案。最后以lattice-decoder为例给出代码实现简析。   两种解码器原理基本一致,lat...

Trending Tags