AI人工智能 構(gòu)建語音識(shí)別器

2020-09-24 11:00 更新

在本章中,我們將學(xué)習(xí)使用 AI 和 Python 進(jìn)行語音識(shí)別。 言語是成人人際溝通的最基本手段。 語音處理的基本目標(biāo)是提供人與機(jī)器之間的交互。 語音處理系統(tǒng)主要有三項(xiàng)任務(wù) -

  • 首先,語音識(shí)別允許機(jī)器捕捉我們所說的單詞,短語和句子
  • 其次,自然語言處理使機(jī)器能夠理解我們所說的話
  • 第三,語音合成允許機(jī)器說話。

本章重點(diǎn)講述語音識(shí)別,理解人類說話的過程。 請(qǐng)記住,在麥克風(fēng)的幫助下捕捉語音信號(hào),然后系統(tǒng)才能理解它。

語音識(shí)別或自動(dòng)語音識(shí)別(ASR)是 AI 機(jī)器人等 AI 項(xiàng)目的關(guān)注焦點(diǎn)。 沒有 ASR,就不可能想象一個(gè)認(rèn)知機(jī)器人與人進(jìn)行交互。 但是,構(gòu)建語音識(shí)別器并不容易。

開發(fā)語音識(shí)別系統(tǒng)的困難 開發(fā)高質(zhì)量的語音識(shí)別系統(tǒng)確實(shí)是一個(gè)難題。 語音識(shí)別技術(shù)的困難可以廣泛地表征為如下所討論的許多維度 -

  • 詞匯大小

- 詞匯大小影響開發(fā) ASR 的難易程度。考慮以下詞匯量以便更好地理解。

  • 例如,在一個(gè)語音菜單系統(tǒng)中,一個(gè)小詞匯由 2 到 100 個(gè)單詞組成
  • 例如,在數(shù)據(jù)庫(kù)檢索任務(wù)中,中等大小的詞匯包含幾個(gè) 100 到 1000 個(gè)單詞
  • 一個(gè)大的詞匯由幾萬個(gè)單詞組成,如在一般的聽寫任務(wù)中。

  • 信道特性 - 信道質(zhì)量也是一個(gè)重要的維度。 例如,人類語音包含全頻率范圍的高帶寬,而電話語音包含頻率范圍有限的低帶寬。 請(qǐng)注意,后者更難。

  • 說話模式 - 輕松開發(fā) ASR 還取決于說話模式,即語音是處于孤立詞模式還是連接詞模式,還是處于連續(xù)語音模式。 請(qǐng)注意,連續(xù)說話很難辨認(rèn)。

  • 口語風(fēng)格 - 閱讀說話可以采用正式風(fēng)格,也可以采用自發(fā)風(fēng)格和對(duì)話風(fēng)格。 后者更難以識(shí)別。

  • 揚(yáng)聲器依賴性 - 語音可以依賴揚(yáng)聲器,揚(yáng)聲器自適應(yīng)或揚(yáng)聲器獨(dú)立。 獨(dú)立發(fā)言人是最難建立的。

  • 噪音類型

- 噪音是開發(fā) ASR 時(shí)需要考慮的另一個(gè)因素。 信噪比可以在各種范圍內(nèi),這取決于觀察較少的聲學(xué)環(huán)境與較多的背景噪聲 -

  • 如果信噪比大于30dB,則認(rèn)為是高范圍
  • 如果信噪比在 30dB 到 10db 之間,則認(rèn)為是中等信噪比
  • 如果信噪比小于 10dB,則認(rèn)為是低范圍

  • 麥克風(fēng)特性 - 麥克風(fēng)的質(zhì)量可能很好,平均水平或低于平均水平。 此外,嘴和微型電話之間的距離可能會(huì)有所不同。 識(shí)別系統(tǒng)也應(yīng)考慮這些因素。

盡管存在這些困難,研究人員在語音的各個(gè)方面做了很多工作,例如理解語音信號(hào),說話人以及識(shí)別口音。

所以,需要按照以下步驟構(gòu)建語音識(shí)別器 -

以上內(nèi)容是否對(duì)您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號(hào)
微信公眾號(hào)

編程獅公眾號(hào)