1、1,第二章 智慧型代理人 Intelligent Agents,2,第2章 智慧型代理人,本章所學內容 2.1 代理人和環境 2.2 好的行為表現: 理性的概念 2.3 環境的本質 2.4 代理人的結構 2.5 小 結,3,2.1 代理人和環境,任何能夠以感測器去覺察環境,並且以作用器(effector) 對環境作用的東西都可以稱為代理人。 人類代理人有眼睛,耳朵,以及其他器官做為感測器,還有手,腳,嘴巴以及其他身體各部位做為作用器。一個機器代理人則是以相機及紅外偵測器做為感測器,並且有不同的馬達做為作用器。軟體代理人有編碼的位元字串來覺知及動作。 代理人的績效如何衡量? ( 標準、時機、合理
2、性),4,2.1 代理人和環境,Agent,感測器Sensors,?,執行器Actuators,感知Percepts,行動Actions,環境 Environment,圖2.1 代理人以感測器及執行器與環境作用,5,例子:吸塵器世界,位置:左右兩個位置 狀態:有或沒有灰塵 操作:左移(Left)、右移(Right)、吸塵(Suck) 目標:塵埃吸乾淨 感應器:位置感應器,局部灰塵感應器 感知(Percepts) :位置與內容, e.g., A, Dirty 動作(Action): Left, Right, Suck, NoOp,6,例子:吸塵器世界,7,反射式吸塵器代理人程式,function
3、 REFLEX-VACUUM-AGENT ( location, states )returns an actionif states = Dirty then return Suckelse if location = A then return Right else if location = B then return Left,8,2.2 好的行為表現:理性的概念,用績效衡量來當作決定代理人有多成功的準則。沒有一種固定的衡量是適合所有代理人的。例子 假設一個情況是代理人要把髒地板用吸塵器掃乾淨 績效衡量的方式: 八小時後檢查掃起來的灰塵量算是一個似乎合理的方式, 比較做作的方式是把耗電
4、量和產生的噪音也一併考慮進來, 要求最高的方式,則是要求代理人不只是安靜的、有效率的把地板打掃乾淨,週末還要空出時間來從事衝浪運動。,9,合理性及全知,分辨合理性及全知(上帝)的不同要非常地小心。 全知的代理人知道動作的實際代價,能夠據此決定其行動。但在真實環境中全知是不可能的。 合理性僅關心那些假設已覺察到、預期中的成功。 任何一個給定的時間裡,所謂的合理,和下列四件事相關:定義成功度的效能衡量。 到目前為止代理人覺察到的每一件事。我們稱這整個感知的歷史過程為感知序列。代理人對環境的認識。代理人能夠執行的動作。,10,理想的合理性代理人,定義:對於每一個可能的感知序列,一個理想的合理性代理人
5、,應該在感知序列提供的證據及內建知識的基礎上,執行預期能夠使績效衡量結果最佳化的動作。理想對應: 1.代理人的行為和目前的感知序列相關,只要列出代理人回應感知序列所採取的行動表,就可以描述任何一個特定代理人。這表格稱之為從感知序列到動作的對應。 2.從所有可能的感知序列及記錄代理人回應的動作,可以找出正確描述代理人的對應。對應可以說明代理人,而理想的對應就描述了理想的代理人。 3.一個明確的列表,可以用來登記每一個可能的感知序列。,11,自主性,理想合理性代理人的另一個定義:就是內建知識。如果代理人的行動完全基於內建知識,而完全不注意感知,則我們說這個代理人缺乏自主性。 提供一個人工智慧代理人
6、某些起始知識及學習能力是合理的。例子假如鐘錶製造商有先見之明,預知錶主將在某特定日子前往澳洲,則可以在錶內內建一個機制,在那個時間自動把時針調整六個小時。這將是相當成功的動作,但是智慧性看起來是屬於錶的設計人而非錶本身。,12,2.3 環境的本質,代理人結構:硬體,提供程式來自感測器的感知,執行程式,將程式產生的動作選擇回授給執行器。f : P* A 代理人程式:人工智慧的工作,實現代理人從感知到動作相符的功能。 PEAS(績效Performance measure , 環境Environment, 執行器Actuators, 感測器Sensors) 目標描述代理人設計所需的績效衡量。 人工環
7、境:以鍵盤輸入及螢幕輸出的符號來定義; 真實環境:機器人檢驗通過輸送帶上的零件,其環境假設照明會一直正常,輸送帶上只會有特定種類的零件,也只會有零件通過檢驗或不通過的兩種動作。,13,例子:計程車自動駕駛系統PEAS描述,不同的駕駛會產生不同類型的代理人: 簡單反射式代理人: 條件-動作規則 與世界保持聯繫代理人:記憶體記憶及更新世界狀態 目標基礎代理人:選擇能夠達成目標的動作 實用基礎代理人:具有績效衡量實用性的代理人,14,代理人種類及其PEAS描述,15,2.3.2 任務環境性質,環境的性質 完全可觀察的 vs. 部分可觀察的 確定性的 vs. 隨機的 片段式的 vs. 延續式的 靜態的
8、 vs. 動態的 連續的 vs. 離散的 單代理人 vs. 多代理人 環境程式 環境是由起始狀態及更新功能二者來定義。 加入績效衡量可得到代理人表現資訊,績效衡量可用累積、總和、平均值、極大值來計算。 通常代理人被設計在一個環境群中工作。,16,環境的性質,完全可觀察的 :假如代理人的感測工具能夠完全觀察的到環境的狀態,代理人不必保持內在狀態來追蹤環境世界。 確定性的 :如果環境的下一個狀態完全由目前狀態及代理人所選擇的動作來決定,假如環境是不可觀察的,則可能看起來也是不確定定的或是隨機的。如果環境只要不受其他代理人活動的影響就是確定性的 ,則該環境稱為策略的。 片段式的 :代理人的經驗可被劃
9、分為”片段 ”,每個片段由代理人感知及之後行動所構成。行動的品質決定於片段自己,與前面的片段中發生的行動無關。在此環境中代理人完全不需要事先思考。,17,環境的性質,靜態的:如果環境在代理人深思熟慮的期間不會改變,則稱此環境是靜態的,代理人不必擔心時間的流逝。若代理人績效衡量的成績會隨著時間改變,則稱此環境是半動態的。 離散的:如果存在有限數目、明確且定義清楚的感知和動作,則稱此環境是離散的,西洋棋就是離散的,計程車駕駛是連續的。 單代理人與多代理人:會影響效能指標,競爭的,合作的為多代理人。 最困難的環境狀況:部分可觀察的,隨機的,延續式的,動態的,連續的和多代理人的狀況。,18,環境及其特
10、性舉例,19,2.4 代理人的結構,代理人 = 結構 + 程式 代理人結構:硬體,提供程式來自感測器的感知,執行程式,將程式產生的動作選擇回授給作用器。 代理人程式:人工智慧的工作,實現代理人從感知到動作相符的功能。 PEAS(績效Performance measure , 環境Environment, 執行器Actuators, 感測器Sensors) 目標描述代理人設計所需的績效衡量。 人工環境:以鍵盤輸入及螢幕輸出的符號來定義; 真實環境:機器人檢驗通過輸送帶上的零件,其環境假設照明會一直正常,輸送帶上只會有特定種類的零件,也只會有零件通過檢驗或不通過的兩種動作。,20,2.4.1 代理
11、人程式:查表代理人,function TABLE-DRIVEN-AGENT(percept) returns an actionstatic: percepts, a sequence, initially emptytable, a table of actions, indexed by percept sequences, initially fully specifiedappend percept to the end of perceptsaction LOOKUP(percepts, table)return action查表代理人: 缺點是不實際,解決辦法表格太大,21,2.4
12、.1 代理人程式,function SKELETON-AGENT(percept) returns an actionstatic: memory, the agents memory of the worldmemory UPDATA-MEMORY(memory, percept)action CHOOSE-BEST-ACTION(memory)memory UPDATA-MEMORY(memory, action)return action,22,例子:設計代理人型態,不同類型的代理人: 簡單反射型代理人(reflex agents): 條件-動作規則 基於模型(model-based)的
13、反射型代理人:記憶體記憶及更新世界狀態 基於目標(goal-based)的代理人:選擇能夠達成目標的動作 基於效用(utility-based)的代理人:具有績效衡量實用性的代理人,23,簡單反射式代理人,執行器,條件-動作規則,24,反射式吸塵器代理人程式,function REFLEX-VACUUM-AGENT ( location, states )returns an actionif states = Dirty then return Suckelse if location = A then return Right else if location = B then retur
14、n Left,25,model-based反射型,感測器,執行器,Agent,條件-動作規則,環境Environment,State,How the world evolves,What my actions do,26,model-based反射型代理人程式,function REFLEX-AGENT-WITH-STATE (percept) returns an actionstatic: state, a description of the current world staterules, a set of condition-action rulesaction, the most
15、 recent action, initially nonestate UPDATE-STATE (state, percept)rule RULE-MATCH (state, rules)action RULE-ACTION rulestate UPDATE-STATE (state, action)return actionFig. 12 model-based反射型代理人程式,27,目標基礎的代理人,Goal-based Agent,目標Goals,環境Environment,State,How the world evolves,What my actions do,What it w
16、ill be like If I do action A,28,效用基礎的代理人,29,具有學習能力代理人,感測器,執行器,Agents,環境Environment,效能標準,feedback,學習目標,changes,knowledge,30,2.5 摘要,代理人就是能夠感知環境並執行動作的東西,我們將代理人劃分為結構及代理人程式兩部分。 理想代理人在它目前所看到的感知序列中,總是能夠採取適當行動以使其績效衡量最佳化。 代理人程式將感知對應到動作,同時更新其內部狀態。 代理人程式設計依決策過程中使用到的資訊而定,代理人程式設計適當與否, 和感知、動作、目標及環境有關。 反射式代理人即時反應其感知,目標基礎代理人為達成其目標,效用基礎代理人則設法使它們自己更高興。 以知識使決策過程合理化,是人工智慧及成功代理人設計的核心課題,這代表著知識的呈現是非常重要的。,31,2.6 問題討論,代理人的內涵是什麼? 代理人績效衡量的技術有那些? 代理人的環境有何性質? 如何區別? 如何才能知道我們已經寫了一個“有智慧”的代理人程式?,32,第二章 習題,2.1,2.2 ,2.5 ,2.6,