<pre id="jwfl5"><big id="jwfl5"></big></pre>

<cite id="jwfl5"></cite>

<cite id="jwfl5"><table id="jwfl5"></table></cite>

閱讀(3.4k) 書簽贊(1) 我要糾錯(cuò)

AI人工智能構(gòu)建語音識(shí)別器

2020-09-24 11:00 更新

在本章中，我們將學(xué)習(xí)使用 AI 和 Python 進(jìn)行語音識(shí)別。言語是成人人際溝通的最基本手段。語音處理的基本目標(biāo)是提供人與機(jī)器之間的交互。語音處理系統(tǒng)主要有三項(xiàng)任務(wù) -

首先，語音識(shí)別允許機(jī)器捕捉我們所說的單詞，短語和句子
其次，自然語言處理使機(jī)器能夠理解我們所說的話
第三，語音合成允許機(jī)器說話。

本章重點(diǎn)講述語音識(shí)別，理解人類說話的過程。請(qǐng)記住，在麥克風(fēng)的幫助下捕捉語音信號(hào)，然后系統(tǒng)才能理解它。

語音識(shí)別或自動(dòng)語音識(shí)別(ASR)是 AI 機(jī)器人等 AI 項(xiàng)目的關(guān)注焦點(diǎn)。沒有 ASR，就不可能想象一個(gè)認(rèn)知機(jī)器人與人進(jìn)行交互。但是，構(gòu)建語音識(shí)別器并不容易。

開發(fā)語音識(shí)別系統(tǒng)的困難 開發(fā)高質(zhì)量的語音識(shí)別系統(tǒng)確實(shí)是一個(gè)難題。語音識(shí)別技術(shù)的困難可以廣泛地表征為如下所討論的許多維度 -

詞匯大小

- 詞匯大小影響開發(fā) ASR 的難易程度。考慮以下詞匯量以便更好地理解。

例如，在一個(gè)語音菜單系統(tǒng)中，一個(gè)小詞匯由 2 到 100 個(gè)單詞組成
例如，在數(shù)據(jù)庫(kù)檢索任務(wù)中，中等大小的詞匯包含幾個(gè) 100 到 1000 個(gè)單詞
一個(gè)大的詞匯由幾萬個(gè)單詞組成，如在一般的聽寫任務(wù)中。

信道特性 - 信道質(zhì)量也是一個(gè)重要的維度。例如，人類語音包含全頻率范圍的高帶寬，而電話語音包含頻率范圍有限的低帶寬。請(qǐng)注意，后者更難。

說話模式 - 輕松開發(fā) ASR 還取決于說話模式，即語音是處于孤立詞模式還是連接詞模式，還是處于連續(xù)語音模式。請(qǐng)注意，連續(xù)說話很難辨認(rèn)。

口語風(fēng)格 - 閱讀說話可以采用正式風(fēng)格，也可以采用自發(fā)風(fēng)格和對(duì)話風(fēng)格。后者更難以識(shí)別。

揚(yáng)聲器依賴性 - 語音可以依賴揚(yáng)聲器，揚(yáng)聲器自適應(yīng)或揚(yáng)聲器獨(dú)立。獨(dú)立發(fā)言人是最難建立的。

噪音類型

- 噪音是開發(fā) ASR 時(shí)需要考慮的另一個(gè)因素。信噪比可以在各種范圍內(nèi)，這取決于觀察較少的聲學(xué)環(huán)境與較多的背景噪聲 -

如果信噪比大于30dB，則認(rèn)為是高范圍
如果信噪比在 30dB 到 10db 之間，則認(rèn)為是中等信噪比
如果信噪比小于 10dB，則認(rèn)為是低范圍

麥克風(fēng)特性 - 麥克風(fēng)的質(zhì)量可能很好，平均水平或低于平均水平。此外，嘴和微型電話之間的距離可能會(huì)有所不同。識(shí)別系統(tǒng)也應(yīng)考慮這些因素。

盡管存在這些困難，研究人員在語音的各個(gè)方面做了很多工作，例如理解語音信號(hào)，說話人以及識(shí)別口音。

所以，需要按照以下步驟構(gòu)建語音識(shí)別器 -

以上內(nèi)容是否對(duì)您有幫助：

← AI人工智能語音識(shí)別

AI人工智能可視化音頻信號(hào) - 從文件讀取并進(jìn)行處理 →

寫筆記

我要補(bǔ)充