馬可夫決策過程 Search Results

馬可夫決策過程

在數學中，馬可夫決策過程（英語：Markov decision process，MDP）是離散時間隨機控制過程。它提供了一個數學框架，用於在結果部分隨機且部分受決策者控制的情況下對決策建模。 MDP對於研究通過動態規劃解決的最佳化問題很有用。 MDP至少早在1950年代就已為人所知；一個對馬可夫決策過程的核心研究是...

10 KB (1,831 words) - 06:46, 5 May 2024

部分可觀察馬可夫決策過程

部分可觀察马尔可夫決策過程（Partially Observable Markov Decision Process，缩写：POMDP），是一種通用化的馬可夫決策過程。POMDP模擬代理人決策程序是假設系統動態由MDP決定，但是代理人無法直接觀察目前的狀態。相反的，它必須要根據模型的全域與部分區域觀察結果來推斷狀態的分佈。...

910 bytes (107 words) - 09:02, 24 April 2022

分散式部分可观察马尔可夫决策过程

process，Dec-POMDP）是一种多智慧体协调决策模型。这是一种概率模型，对于现实生活中结果、传感器和通信的不确定性具有很好的解决能力。该模型是马尔可夫决策过程和部分可觀察馬可夫決策過程的泛化，适用于分布式多智慧体的情形。 Dec-POMDP是一个7元组，其中： S {\displaystyle S} 是状态的集合， A...

3 KB (355 words) - 19:07, 17 August 2022

隐马尔可夫模型

在1980年代后半期，HMM开始应用到生物序列尤其是DNA的分析中。此后，在生物信息学领域HMM逐渐成为一项不可或缺的技术。安德雷·马尔可夫贝叶斯推断估计理论條件隨機域排队理论馬可夫決策過程 Google Scholar. [2023-10-27]. （原始内容存档于2022-09-30）. Thad Starner...

20 KB (3,216 words) - 17:35, 28 April 2024

學習自動機

automaton）是一種1970年代就開始研究的机器学习演算法。學習自動機是由對以往對環境的經驗來選擇目前的動作。若環境是随机性的，且使用了馬可夫決策過程，則這種學習自動機屬於强化学习的演算法。學習自動機的研究可以追溯到蘇聯的Michael Lvovitch Tsetlin（英语：Michael...

5 KB (733 words) - 11:05, 6 September 2021

深度强化学习

深度學習已經在電腦視覺、自然語言處理等領域上帶來突破性的進展。強化學習是讓智慧型代理人和環境互動，從中嘗試錯誤以學習做出更好的決策。這類的問題在數學上常常用馬可夫決策過程表示：在每個時間點，代理人處在環境的一個狀態 s {\displaystyle s} ，在代理人採取了一個動作 a {\displaystyle...

10 KB (1,197 words) - 13:40, 4 April 2023

MDP

第一條—民主與進步運動（Articolo 1 – Movimento Democratico e Progressista），一個義大利政黨馬可夫決策過程（Markov decision process），一個廣泛用於人工智慧的機率模型 Mini DisplayPort，一個數位顯示接口...

992 bytes (103 words) - 05:26, 10 June 2023

SARSA算法

{\displaystyle Q(s_{t+1},a_{t+1})} 作为预估。一些针对Q学习的提出优化方法也可以应用于SARSA上。强化学习 Q学习馬可夫決策過程 Online Q-Learning using Connectionist Systems" by Rummery & Niranjan (1994)...

4 KB (559 words) - 18:39, 13 April 2023

Q学习

动會有最大的獎勵值。Q-学习不需要对环境进行建模，即使是对带有随机因素的转移函数或者奖励函数也不需要进行特别的改动就可以进行。对于任何有限的馬可夫決策過程（FMDP），Q-学习可以找到一个可以最大化所有步骤的奖励期望的策略。，在给定一个部分随机的策略和无限的探索时间，Q-学习可以给出一个最佳的动作选择策略。...

9 KB (1,190 words) - 21:14, 12 December 2023

格奥尔基·马林科夫

夫接任。1946年6月初，出席了加里寧的葬礼。马林科夫被下放到中亚地区，甚至有半年多的时间里行踪都没有被详细记录。1946年至1948年马林科夫的经历在官方通常忽略不提。同时，莫洛托夫和米高扬也有类似境遇。 1948年5月日丹諾夫死後，马林科夫于1949年复出成為史達林決策...

8 KB (942 words) - 02:13, 23 October 2024

决策树

以資料母群體為根節點。作單因子變異數分析等，找出變異量最大的變項作為分割準則。（決策樹每個葉節點即為一連串法則的分類結果。）若判斷結果的正確率或涵蓋率未滿足條件，則再依最大變異量條件長出分岔。决策树，影响性图表，应用函数以及其他的决策分析工具和方法主要的授课对象是学校里商业、健康经济学和公共卫生专业的本科生，属于运筹学和管理科学的范畴。...

12 KB (1,885 words) - 22:29, 7 December 2024

工业工程学

運籌學（包括：優化學與數學規劃，動態規劃，優化算法，系統仿真，隨機過程，馬爾可夫鏈和馬爾可夫決策過程，排隊論，存儲論，決策分析，博弈論等），管理科學，決策科學，人工智能，概率和統計方法，預測學，系统集成，系統工程，大系統控制理論，工業戰略管理，生產系統，運作...

11 KB (1,475 words) - 00:42, 12 February 2024

卡尔·约翰·奥斯特伦

Åström，1934年8月5日—），是瑞典控制理论家，在控制理论和控制工程、计算机控制和自适应控制等领域做出了贡献。1965年，他描述了具有不完全信息的马尔可夫决策过程的一般框架，最终导致了部分可观察马尔可夫决策过程的概念。 1995年，奥斯特伦被选为美国国家工程院院士，以表彰其对识别、随机和自适应控制的贡献，并将其纳入控制工程实践。...

2 KB (242 words) - 18:39, 30 March 2023

动态规划

最长公共子序列 Floyd-Warshall算法 Viterbi算法 Kadane's_algorithm 求解馬可夫決策過程下最佳策略萊文斯坦距離 S. Dasgupta, C.H. Papadimitriou, and U.V. Vazirani, 'Algorithms'...

12 KB (1,793 words) - 03:02, 21 November 2024

强化学习

存在和特性，并非是学习或者近似方面。在经济学和博弈论中，强化学习被用来解释在有限理性的条件下如何出现平衡。在机器学习问题中，环境通常被抽象为马尔可夫决策过程（Markov decision processes，MDP），因为很多强化学习算法在这种假设下才能使用动态规划的方法。传统的动态规划方法和强...

9 KB (1,267 words) - 17:44, 26 September 2024

决策树学习

回归树，其预测结果为连续值（例如实数）。在决策分析中，一棵可视的决策树可以向使用者形象地展示决策的结果和过程。在数据挖掘和机器学习中，一棵决策树主要用于描述数据（此后亦可基于习得的预测模型去支持决策)。本页侧重描述数据挖掘中的决策树。在数据挖掘中决策树训练是一个常用的方法。目标是创建一个模型来...

14 KB (2,302 words) - 20:50, 19 December 2024

量子有限自動機

(QFA) or 量子状态机是概率自动机或马尔可夫决策过程的量子模拟.。它们提供了现实世界量子计算机的数学抽象。可以定义几种类型的自动机，包括一次测量和多次测量自动机。量子有限自动机也可以理解为有限类型子位移的量子化, 或马尔可夫链的量子化。反过来，QFA是几何有限自动机或拓扑有限自动机的特例。...

1 KB (202 words) - 08:21, 11 December 2023

麥納馬拉謬誤

生活品質和總體存活率等與結果相關因而更有意義的訊息。在學士後醫科等競爭性的學校錄取過程中，僅僅使用量化數據評估候選學生的作法，可能會忽略掉一些無法量化但在最後可能和學生的成就更加相關的因素和特質。地穴寓言契訶夫的槍奧卡姆剃刀街燈效應（Streetlight effect）真理逼真福特Pinto...

6 KB (779 words) - 00:58, 13 September 2023

荷兰政治

大臣會議透過共治的方式制定決策。包括首相在內的所有大臣（理論上）都是平等的。在休戰廳內，大臣可針對所提議的決策自由的進行辯論，並對各個內閣政策發表意見。所有成員須遵守及支持大臣會議所做出的決策，若是不同意則必須下台。通常，要透過很大的努力才能在決策上達到相對一致的看法。另外，大臣會議也有投票機制，但幾乎不使用。...

11 KB (1,648 words) - 12:05, 13 July 2024

跨期選擇

決策，該模型假設人們評估決策所帶來的快樂和痛苦的方式與金融市場評估損失和收益的方式大致相同，以指數方式“貼現”價值根據他們在時間上的延遲程度來確定結果。折扣效用已被用於描述人們如何實際做出跨期選擇，並已被用作公共政策的工具。關於在研發、健康和教育上花費多少的政策決定都取決於用於分析決策的貼現率。...

1 KB (191 words) - 04:13, 27 July 2022

纽约爱乐

現場演出紀錄，保留自1990年起所有的表演內容工作文件，為逾6,500,000頁的備忘錄、書信、合約、報告等，詳實記載了樂團內部的決策與其過程演出節目資訊，自1842年至今的演出節目均被完整地保存，包括1877年至1928年間紐約交響樂團的演出在內，提供特定作品之演出歷史、指揮者、獨奏者等節目資訊...

8 KB (1,015 words) - 16:35, 29 July 2024

米哈伊尔·苏斯洛夫

夫的副手和接班人。战后，苏斯洛夫一度担任立陶宛苏维埃第一书记，主导波罗的海三国的战后重建和苏联化。 1948年，日丹诺夫去世，苏斯洛夫接任党中央书记并主管宣传和意識形態等方面的工作，直到他去世時仍為蘇聯的最高理論權威，苏斯洛夫在战后一直处于苏联最高权力机关核心，参与了几乎所有重要决策。苏斯洛夫...

15 KB (1,683 words) - 02:10, 23 October 2024

机器学习

断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法（要防止錯誤累積）。很多推论问题属于非程序化決策，所以部分的机器学习研究是开发容易处理的近似算法。机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈（英语：Credit...

10 KB (1,174 words) - 02:00, 31 May 2024

决策无方者埃塞尔雷德

决策无方者埃塞尔雷德（古英語：Æþelræd Unræd；968年—1016年4月23日），有时也作埃塞尔雷德二世（Æthelred II），是盎格鲁-撒克逊时代的英格兰王国国王（978年 - 1013年，1014年 - 1016年）。他是埃德加一世和王后埃尔夫斯里斯（英语：Ælfthryth, wife...

32 KB (5,238 words) - 19:35, 15 December 2024

視覺短期記憶

可歸因於兩個不同的過程如果通過不同的通道進行決策，那麼性能的下降程度通常很小，並且與在進行多個獨立決策時，所預期的下降程度相一致(Greenlee &Thomas,1993; Vincent & Regan，1995)。如果在同一通道內做多個決策，那麼僅僅由於決策...

11 KB (1,737 words) - 13:55, 18 December 2024

概率

提供給其他交易商。因此機率不是各自獨立的進行評估，評估的過程也不一定合理。行為經濟學就是描述團體迷思對定價、政策甚至和平或衝突的影響。有關概率評估及組合的嚴謹方式也改變了社會。對大部份的社會大眾而言，重要的是了解概率評估的方式以及概率和決策之間的關係。概率理論另一個明顯的應用是可靠度理論（英语：Reliability...

20 KB (2,594 words) - 02:50, 24 November 2023

机会成本

机会成本機會成本（英語：Opportunity Cost, OC）是指決策過程中面臨多項選擇，而當中價值最高的選擇（Highest-valued Option Forgone）有可能被放棄，又稱為替代性成本（Alternative Cost），就是俗語所說的世界上沒有白吃的午餐、魚與熊掌不可兼得。簡單來說，機會成本就是所犧牲的代價。...

6 KB (769 words) - 16:26, 9 June 2024

约瑟夫·斯大林

斯大林去世之後，他的遗体被保存在莫斯科红场的列宁墓中，供瞻仰参观。马林科夫在斯大林死后成为中央书记处排名第一的书记，但很快赫鲁晓夫取代了马林科夫成为苏共中央第一书记，随后赫鲁晓夫联合马林科夫并在朱可夫元帅的帮助下，将贝利亚逮捕枪决，最终成为蘇聯最高領導人。在1956年苏共二十大上，...

123 KB (15,840 words) - 05:27, 24 December 2024

妮可·羅賓

小時候在故鄉遇到的巨人族之男薩烏羅，名字中間有一個「D」字，為此對魯夫他們這些擁有「D之意志」的人們抱持著極大的好奇心。對魯夫有著極高的忠誠心，絕對支持他所做出的決定，然而當魯夫做出重要決策的時候，也會適時提醒對方需要考量的風險。羅賓雖然常常作出恐怖的發言，但因為喜歡可愛的東西...

27 KB (4,334 words) - 13:02, 10 December 2024

时序差分学习

π {\displaystyle \pi } 之下有限状态马尔可夫决策过程的状态价值函数。现用 V π {\displaystyle V^{\pi }} 表示马尔可夫决策过程的状态价值函数，其中涉及到状态 ( s t ) t ∈ N {\displaystyle (s_{t})_{t\in...

12 KB (1,571 words) - 12:45, 11 May 2023

法團主義

體制裡，立法的權力交給了由產業、農業和職業團體所派遣的代表。與多元論相較，多元制度裡眾多團體必須經過民主競爭的過程才能取得權力，但在社團主義制度裡，許多未經過選舉的組織實體掌控了決策的過程。這些社團主義的代表團與一般的商業公司或法人組織並不相同，而是构成了社團主義國家的中心思想——精英政治。...

15 KB (2,281 words) - 08:17, 6 November 2024