国产欧美巨大精品vⅰde0,97无码免费人妻超级碰碰夜夜

環(huán)境和代理是人工智能強化學習的主要構件。本節(jié)詳細討論它們 -

媒介代理

代理媒介是能夠通過傳感器感知其環(huán)境并通過效應器作用于該環(huán)境的任何事物。

代理術語

以下術語在AI中的強化學習中更頻繁地使用 -

環(huán)境 某些程序在局限于鍵盤輸入，數(shù)據(jù)庫，計算機文件系統(tǒng)和屏幕上字符輸出的完全人造環(huán)境中運行。

相比之下，一些軟件代理(如軟件機器人或軟驅)存在于豐富且無限的軟域中。模擬器具有非常詳細和復雜的環(huán)境。軟件代理需要實時從多種行為中進行選擇。

例如，設計用于掃描顧客的在線偏好并向顧客展示有趣物品的軟堆可在真實環(huán)境和人工環(huán)境中工作。

環(huán)境屬性 如下所述，環(huán)境具有多重屬性 -

離散/連續(xù) - 如果環(huán)境的數(shù)量有限且截然不同，則環(huán)境是離散的，否則它是連續(xù)的。例如，象棋是一個離散的環(huán)境，駕駛是一個連續(xù)的環(huán)境。
可觀察/部分可觀察 - 如果可以從知覺中確定每個時間點環(huán)境的完整狀態(tài)，則可觀察到; 否則它只是部分可觀察的。
靜態(tài)/動態(tài) - 如果環(huán)境在代理正在執(zhí)行時沒有改變，那么它是靜態(tài)的; 否則它是動態(tài)的。
單個代理/多個代理 - 環(huán)境可能包含其他代理，這些代理可能與代理的類型相同或不同。
可訪問/不可訪問 - 如果代理的傳感設備可以訪問完整的環(huán)境狀態(tài)，則可以訪問該代理的環(huán)境; 否則它是無法訪問的。
確定性/非確定性 - 如果環(huán)境的下一個狀態(tài)完全由當前狀態(tài)和代理的行為決定，那么環(huán)境是確定性的; 否則它是非確定性的。
情節(jié)式/非情節(jié)式 - 在情節(jié)化環(huán)境中，每個情節(jié)由代理人感知并然后行動組成。其行動的質(zhì)量取決于情節(jié)本身。隨后的劇集不依賴于前幾集中的動作。情景環(huán)境要簡單得多，因為代理人不需要提前思考。

AI人工智能 構建模塊：環(huán)境和代理