게임 이론 간단한 예. 매트릭스 게임: 문제 해결의 예

08.07.2019

알아채다!당신의 솔루션 특정 작업아래의 모든 표, 설명 텍스트 및 그림을 포함하여 이 예와 유사하게 보이지만 초기 데이터를 고려하면 ...

일:
매트릭스 게임은 다음 보상 매트릭스로 제공됩니다.

"B" 전략

"A" 전략

에이 1

3

2

매트릭스 게임에 대한 해결책, 즉 다음을 찾으십시오.
- 게임의 최고 가격을 찾으십시오.
- 최저가계략;
- 게임의 정가;
- 플레이어의 최적의 전략을 나타냅니다.
- 선두 그래픽 솔루션(기하학적 해석), 필요한 경우.

1 단계

게임의 낮은 가격을 결정하자 - α

낮은 게임 가격α는 합리적인 상대와의 게임에서 게임 내내 단 하나의 전략(이러한 전략을 "순수"라고 함)을 사용하는 경우 우리가 보장할 수 있는 최대 보상입니다.

보수 행렬의 각 행에서 찾기 최저한의요소를 선택하고 추가 열에 작성합니다(강조 표시됨). 노란색표 1 참조).

그런 다음 우리는 찾습니다 최고추가 열의 요소(별표로 표시됨)는 게임의 더 낮은 가격이 됩니다.

1 번 테이블

"B" 전략

"A" 전략

행 최소값

에이 1

3 *

3

2

3

2

우리의 경우 게임의 낮은 가격은 다음과 같습니다. α = 3, 그리고 3보다 나쁘지 않은 보수를 보장하기 위해 우리는 전략 A 1을 고수해야 합니다.

2 단계

게임의 상한가를 결정하자 - β

최고 게임 가격β는 게임 내내 플레이어 "B"가 합리적인 상대와의 게임에서 자신이 보장할 수 있는 최소 손실입니다. 게임 내내 그가 단 하나의 전략만 사용한다면 말입니다.

보수 행렬의 각 열에서 찾기 최고요소를 추가하고 아래의 추가 줄에 작성합니다(노란색으로 강조 표시됨, 표 2 참조).

그런 다음 우리는 찾습니다 최저한의추가 라인의 요소(플러스로 표시됨), 이것은 게임의 최고 가격이 됩니다.

표 2

"B" 전략

"A" 전략

행 최소값

에이 1

3 *

3

2

우리의 경우 게임의 상한 가격은 다음과 같습니다. β = 5, 자신이 5보다 나쁘지 않은 손실을 보장하기 위해 상대(플레이어 "B")는 전략 B 2를 준수해야 합니다.

3단계
게임의 낮은 가격과 높은 가격을 비교해 봅시다. 이 문제에서는 서로 다릅니다. α ≠ β , 보수 행렬은 안장점을 포함하지 않습니다. 이는 게임에 순수한 미니맥스 전략에는 해결책이 없지만 항상 다음에는 해결책이 있음을 의미합니다. 혼합 전략.

혼합 전략, 이들은 특정 확률(빈도)을 가진 임의로 인터리브된 순수 전략입니다.

플레이어 "A"의 혼합 전략이 표시됩니다.

에스 A=

여기서 B 1 , B 2 는 플레이어 "B"의 전략이고 q 1 , q 2 는 각각 이러한 전략이 적용될 확률이며 q 1 + q 2 = 1입니다.

플레이어 "A"를 위한 최적의 혼합 전략은 그에게 최대 보수를 제공하는 것입니다. 따라서 "B"의 경우 최소 손실입니다. 이러한 전략에는 레이블이 지정되어 있습니다. 에스 A* 및 에스비*. 한 쌍의 최적 전략이 게임의 솔루션을 형성합니다.

일반적으로 플레이어의 최적 전략은 모든 초기 전략을 포함하지 않고 일부만 포함할 수 있습니다. 이러한 전략을 호출 적극적인 전략.

단계:4

어디: 피 1 , 피 2 - 전략 A 1 및 A 2가 각각 적용되는 확률(빈도)

게임 이론에서 플레이어 "A"가 자신의 최적 전략을 사용하고 플레이어 "B"가 활성 전략 내에 남아 있으면 평균 보수는 변경되지 않고 게임 가격과 동일하게 유지된다는 것이 알려져 있습니다. V플레이어 "B"가 자신의 활성 전략을 사용하는 방법에 관계없이. 그리고 우리의 경우 두 가지 전략이 모두 활성화되어 있습니다. 그렇지 않으면 게임은 순수한 전략. 따라서 플레이어 "B"가 순수 전략 B 1 을 사용한다고 가정하면 평균 보수는 V될거야:

케이11피1 + 케이21피2 = 브이 (1)

어디: 케이 ij - 보수 매트릭스 요소.

반면에 플레이어 "B"가 순수 전략 B 2 를 사용한다고 가정하면 평균 보상은 다음과 같습니다.

k12p1 + k22p2 \u003dv (2)

방정식 (1)과 (2)의 왼쪽 부분을 동일시하면 다음을 얻습니다.

k11p1 + k21p2 \u003d k12p1 + k22p2

그리고 그 사실을 고려하면 피 1 + 피 2 = 1 우리는:

k 11 p 1 + k 21 (1 - p 1) \u003d k 12 p 1 + k 22 (1 - p 1)

전략 A 1의 최적 빈도를 쉽게 찾을 수 있는 이유는 다음과 같습니다.

피 1 =

케이 22 - 케이 21

케이 11 + 케이 22 - 케이 12 - 케이 21

(3)

이 작업에서:

피 1 =

개연성 아르 자형 2 뺄셈으로 찾기 아르 자형 1 단위에서:

피 2 = 1 - 피 1 =

어디: 큐 1 , 큐 2 - 전략 B 1 및 B 2가 각각 적용되는 확률(빈도)

게임 이론에서 플레이어 "B"가 자신의 최적 전략을 사용하고 플레이어 "A"가 활성 전략 내에 남아 있으면 평균 보수는 변경되지 않고 게임 가격과 동일하게 유지된다는 것이 알려져 있습니다. V플레이어 "A"가 자신의 적극적인 전략을 사용하는 방법에 관계없이. 따라서 플레이어 "A"가 순수 전략 A 1 을 사용한다고 가정하면 평균 보수는 V될거야:

k11q1 + k12q2 = v (4)

게임 가격 때문에 V 우리는 이미 알고 있고 그것을 감안할 때 큐 1 + 큐 2 = 1 , 전략 B 1의 최적 빈도는 다음과 같이 찾을 수 있습니다.

큐 1 =

V - 케이 12

케이 11 - 케이 12

(5)

이 작업에서:

큐 1 =

개연성 큐 2 뺄셈으로 찾기 큐 1 단위에서:

큐 2 = 1 - 큐 1 =

답변:

낮은 게임 가격:

α =

최고 게임 가격:

β =

게임 가격:

V =

플레이어 A의 최적 전략은 다음과 같습니다.

에스 A*=

에이 1

플레이어 "B"의 최적 전략:

에스 B*=

기하학적 해석(그래픽 솔루션):

고려한 게임에 대한 기하학적 해석을 해보자. 단위길이의 x축 단면을 취하여 그 양끝에 수직선을 긋는다. ㅏ 1 그리고 ㅏ 2 우리의 전략 A 1 및 A 2 에 해당합니다. 이제 플레이어 "B"가 다음에서 전략 B 1을 사용한다고 가정합니다. 순수한 형태. 그런 다음 우리(플레이어 "A")가 순수 전략 A 1 을 사용하면 보수는 3이 됩니다. 축에 해당 지점을 표시해 보겠습니다. ㅏ 1 .
순수 전략 A 2 를 사용하면 보수는 6이 됩니다. 해당 지점을 축에 표시합니다. ㅏ 2
(그림 1 참조). 분명히 우리가 전략 A 1과 A 2를 다양한 비율로 혼합하면 우리의 보수는 좌표가 (0 , 3)과 (1 , 6)인 점을 통과하는 직선을 따라 변할 것입니다. 전략 B 1(그림 .1에서 빨간색으로 표시됨). 주어진 선에 있는 임의의 점의 가로 좌표는 확률과 같습니다. 피 2 (빈도) 전략을 적용하는 A 2 , 종축 - 결과 보수 케이 (그림 1 참조).

그림 1.
보수 그래프 케이 주파수에서 p 2 , 상대방이 전략을 사용할 때 B1.

이제 플레이어 "B"가 가장 순수한 형태의 전략 B 2를 사용한다고 가정합니다. 그런 다음 우리(플레이어 "A")가 순수 전략 A 1 을 사용하면 보수는 5가 됩니다. 순수 전략 A 2 를 사용하면 보수는 3/2이 됩니다(그림 2 참조). 마찬가지로 전략 A 1과 A 2를 서로 다른 비율로 혼합하면 보수는 좌표가 (0 , 5) 및 (1 , 3/2)인 점을 통과하는 직선을 따라 변경됩니다. 이를 전략 라인이라고 합니다. 비 2 . 이전의 경우와 마찬가지로 이 선의 임의 지점의 가로 좌표는 전략을 적용할 확률과 같습니다 A 2 , 세로 좌표는 이 경우 얻은 이득과 같지만 전략 B 2에만 해당됩니다(참조 그림 2).

그림 2.
V 그리고 최적 주파수 p 2 플레이어를 위해 "ㅏ".

실제 게임에서 합리적인 플레이어 "B"가 모든 전략을 사용하면 그림 2에서 빨간색으로 표시된 점선을 따라 보상이 변경됩니다. 이 라인은 소위 이득의 하한. 분명히 가장 고점이 파선은 최적의 전략에 해당합니다. 이 경우 전략 B 1 및 B 2 라인의 교차점입니다. 빈도를 선택하면 피 2 가로 좌표와 같으면 우리의 보수는 변경되지 않고 V 플레이어 "B"의 모든 전략에 대해 추가로 우리가 보장할 수 있는 최대값이 될 것입니다. 빈도(확률) 피 2 이 경우 최적 혼합 전략의 해당 빈도입니다. 그런데 그림 2는 주파수도 보여줍니다. 피 1 , 우리의 최적의 혼합 전략은 세그먼트의 길이 [ 피 2 ; 1] x축에 있습니다. (왜냐하면 피 1 + 피 2 = 1 )

완전히 유사한 방식으로 논의하면 플레이어 "B"에 대한 최적 전략의 빈도를 찾을 수도 있습니다. 그림 3에 나와 있습니다.

그림 3
게임 가격의 그래픽 결정 V 최적 주파수 q2 플레이어를 위해 "안에".

그를 위해서만 소위를 구축해야합니다 손실 상한선(빨간색 점선) 그리고 가장 많이 찾는 저점, 왜냐하면 플레이어 "B"의 목표는 손실을 최소화하는 것입니다. 마찬가지로 주파수 값 큐 1 , 세그먼트의 길이 [ 큐 2 ; 1] x축에 있습니다.

→

강의 11: 게임 이론 및 의사 결정

게임이론의 주제와 과제

고전적인 작업 시스템 분석~이다 게임 작업위험과 불확실성 하에서의 의사 결정.

작전의 목표, 작전을 수행하기 위한 조건, 작전의 성공 여부에 달려 있는 상대방이나 다른 사람의 의식적인 행동은 모두 불확실할 수 있습니다.

위험과 불확실성 하에서 결정을 정당화하기 위해 특별한 수학적 방법이 개발되었습니다. 어떤 경우에는 가장 단순한 경우에 이러한 방법을 통해 최적의 솔루션을 실제로 찾고 선택할 수 있습니다. 보다 복잡한 경우 이러한 방법은 다음을 더 깊이 이해할 수 있는 보조 자료를 제공합니다. 어려운 상황그리고 각각 평가 가능한 해결책와 함께 다양한 포인트보고 그에 따라 결정을 내립니다. 가능한 결과. 중 하나 중요한 조건이 경우 의사 결정은 위험 최소화입니다.

시리즈를 풀 때 실용적인 작업운영 연구(생태학, 생명 안전 등 분야)는 서로 다른 목표를 추구하는 둘(또는 그 이상)의 전쟁 당사자가 충돌하는 상황을 분석해야 하며 각 당사자의 활동 결과는 어떤 행동 방침에 따라 달라집니다. 그것은 적을 선택합니다. 이러한 상황을 다음과 같이 말할 수 있습니다. 갈등 상황.

게임 이론은 갈등 상황에 대한 수학적 이론으로, 이를 통해 갈등 참가자의 합리적인 행동 과정에 대한 권장 사항을 개발할 수 있습니다. 2차 요인을 고려하지 않고 상황을 수학적으로 분석할 수 있도록 단순화되고 도식화된 상황 모델이 구축됩니다. 게임. 게임은 플레이어의 행동에 대한 가능한 옵션을 규제하는 조건 시스템으로 이해되는 잘 정의된 규칙에 따라 진행됩니다. 각 당사자가 상대방의 행동에 대해 가지고 있는 정보의 양; 각 주어진 이동 세트가 이끄는 게임의 결과.

게임의 결과(승패)는 항상 정량적 표현을 전혀 갖지 않지만, 일반적으로 적어도 조건부로 수치로 표현하는 것은 가능합니다.

이동은 게임 규칙 및 구현에서 제공하는 작업 중 하나를 선택하는 것입니다. 움직임은 개인과 무작위로 나뉩니다. 개인 이동이라고 합니다. 의식적인 선택선수 중 한 명 옵션조치 및 구현. 무작위 이동은 플레이어의 결정이 아니라 무작위 선택 메커니즘(동전 던지기, 섞인 덱에서 카드 선택 등)에 의해 수행되는 여러 가능성 중에서 선택하는 것입니다. 각각의 임의 이동에 대해 게임 규칙에 따라 가능한 결과의 확률 분포가 결정됩니다. 게임은 개인 이동만으로 구성될 수도 있고 무작위 이동으로만 구성되거나 둘의 조합으로 구성될 수도 있습니다. 게임 이론의 다음 기본 개념은 전략의 개념입니다. 전략은 플레이어가 채택한 선험적 결정 시스템("if-then" 유형)으로, 플레이어가 게임 중에 고수하며 알고리즘으로 표시되고 자동으로 실행될 수 있습니다.

게임 이론의 목적은 플레이어의 합리적인 행동에 대한 권장 사항을 개발하는 것입니다. 갈등 상황즉, 각각에 대한 "최적 전략"의 정의입니다. 한 측정에서 최적인 전략이 반드시 다른 측정에서는 최적이 아닐 수 있습니다. 이러한 제한 사항을 인식하고 따라서 게임 방법에서 얻은 권장 사항을 맹목적으로 고수하지 않으면 게임 이론의 수학적 장치를 합리적으로 사용하여 정확히 최적은 아니지만 적어도 "수용 가능한"전략을 개발할 수 있습니다.

계략플레이어 수, 전략 수, 플레이어 상호 작용의 특성, 보상의 특성, 이동 횟수, 정보 상태 등으로 분류할 수 있습니다. .

플레이어 수에 따라 2인 게임과 n인 게임을 구별합니다. 그 중 첫 번째가 가장 많이 연구되었습니다. 3명 이상의 플레이어로 구성된 게임은 발생하는 근본적인 어려움과 기술력결정을 받고 있습니다.

가능한 전략의 수에 따라 게임은 " 결정적인" 그리고 " 끝없는».

각 플레이어가 제한된 수의 전략만 가지고 있으면 게임이 유한하다고 하고, 플레이어 중 적어도 한 명이 전략을 가지고 있으면 무한하다고 합니다. 무한한 수전략.

상호 작용의 특성상게임은 비협조적인 것으로 나뉩니다. 플레이어는 계약을 체결하거나 연합을 형성할 권리가 없습니다. 연합(협동조합) - 연합에 가입할 수 있습니다.

협력 게임에서는 연합이 미리 결정됩니다.

상금의 특성상게임은 제로섬 게임(모든 플레이어의 총 자본은 변하지 않지만 플레이어 간에 재분배되며 모든 플레이어의 보수 합계는 0임)과 논제로섬 게임으로 나뉩니다.

보수 함수 유형별게임은 매트릭스, 바이 매트릭스, 연속, 볼록 등으로 나뉩니다.

행렬게임은 제로섬을 가진 두 플레이어의 최종 게임으로, 플레이어 1의 보수는 행렬 형태로 제공됩니다(행렬의 행은 플레이어 1의 적용된 전략 번호에 해당하고 열은 행렬의 행과 열의 교차점에서 플레이어의 적용된 전략의 번호, 적용된 전략에 해당하는 플레이어 1의 보수가 발견됩니다.

매트릭스 게임의 경우 어느 것이든 해결책이 있음이 입증되었으며 게임을 문제로 축소하여 쉽게 찾을 수 있습니다. 선형 프로그래밍.

바이매트릭스이 게임은 합이 0이 아닌 두 플레이어의 유한 게임으로, 각 플레이어의 보수는 해당 플레이어에 대해 별도로 행렬로 제공됩니다(각 행렬에서 행은 플레이어 1의 전략에 해당하고 열은 해당 플레이어에 해당함) 플레이어 2의 전략으로, 첫 번째 매트릭스의 행과 열의 교차점은 플레이어 1의 보수이고, 두 번째 매트릭스는 플레이어의 보수입니다)

마디 없는각 플레이어의 보수 함수가 연속적인 게임이 고려됩니다. 이 클래스의 게임에는 솔루션이 있는 것으로 입증되었지만 솔루션을 찾을 수 있는 실질적으로 수용 가능한 방법은 개발되지 않았습니다.

보수 함수가 볼록한 경우 이러한 게임을 호출합니다. 볼록한. 그들에게는 한 플레이어에 대한 순수한 최적 전략(특정 숫자)을 찾고 다른 플레이어의 순수한 최적 전략을 적용할 확률로 구성된 수용 가능한 솔루션 방법이 개발되었습니다. 이 작업은 비교적 쉽게 해결할 수 있습니다.

매트릭스 게임을 보수 매트릭스로 기록하기

첫 번째 플레이어 A가 m개의 전략을 가지고 있고 두 번째 플레이어 A가 있는 유한 게임을 고려하십시오. 플레이어 B-N전략. 이러한 게임을 m×n 게임이라고 합니다. 전략 A 1 , A 2 , ..., A m ; 및 B 1 , B 2 , ..., B n . 양측이 A i 또는 B j 와 같은 특정 전략을 선택했다고 가정합니다. 게임이 개인 이동으로만 구성된 경우 전략 선택에 따라 게임 결과가 고유하게 결정됩니다. 당사자 중 하나의 승리 a ij . 게임에 개인 무작위 이동 외에 A i 및 B 전략 쌍에 대한 보상은 모든 무작위 이동의 결과에 따라 달라지는 무작위 변수입니다. 이 경우 기대 보수의 자연 추정치는 기대 보수이며 a ij 로도 표시됩니다.

각 전략 쌍에 대한 ij의 값을 알고 있다고 가정합니다. 이 값은 전략 A i 에 해당하는 행과 전략 B j 에 해당하는 열인 직사각형 테이블(매트릭스)의 형태로 작성할 수 있습니다.

그러면 일반적으로 매트릭스 게임은 다음과 같은 보수 매트릭스로 작성할 수 있습니다.

	B1	B2	...	비앤
에이 1	11	12	...	1n
A2	21	22	...	2n
...	...	...	...	...
오전	m1	m2	...	암

표 - 매트릭스 게임의 보수 매트릭스에 대한 일반 보기

여기서 Ai는 플레이어 1의 전략 이름, Bj는 플레이어 2의 전략 이름, aij는 플레이어 1이 i번째 전략을 선택할 때의 보수, 플레이어 2는 — j번째 전략. 이 게임은 제로섬 게임이므로 플레이어 2의 보수 값은 플레이어 1의 보수 값과 반대입니다.

게임의 하한가와 상한가의 개념. 순수한 전략의 게임 솔루션

각 플레이어는 상대 플레이어의 행동을 고려하여 보상을 극대화하려고 합니다. 따라서 플레이어 1의 경우 각 전략에서 보수의 최소값을 결정한 다음 이 값의 최대값을 찾는 것, 즉 값을 결정해야 합니다.

V n \u003d 최대 나는 최소 j a ij

또는 각 보수 행렬 행의 최소값을 찾은 다음 이 값의 최대값을 결정합니다. Vn의 값은 막시민행렬 또는 낮은 게임 가격. 최대 V n에 해당하는 플레이어의 전략을 최대 전략이라고 합니다.

분명히 우리가 최대 전략을 고수한다면 상대방의 모든 행동에 대해 V n 이상의 보상이 보장됩니다. 따라서 V n의 값은 가장 신중한 전략을 고수하면서 우리가 스스로 제공할 수 있는 보장된 최소값입니다.

플레이어 1의 이득 값은 매트릭스 게임의 정의에 따라 플레이어의 손실 값이므로 플레이어 2의 경우 값을 결정해야 합니다.

V in = 최소 j 최대 i a ij

또는 보수 매트릭스의 각 열에 대한 최대값을 찾은 다음 이 값의 최소값을 결정합니다. 값 V in 이라고 합니다. 미니맥스행렬, 최고 게임 가격또는 미니맥스 보수. 보수에 해당하는 상대방의 전략을 그의 미니맥스 전략이라고 합니다. 그의 가장 신중한 미니맥스 전략을 고수함으로써 상대방은 어떤 경우에도 V c 이상을 잃지 않을 것이라고 보장됩니다.

V н와 V в의 값이 일치하지 않으면 장기적으로 게임의 규칙(계수 a ij)을 유지하면서 각 플레이어의 전략 선택이 불안정한 것으로 판명됩니다. V n \u003d V in \u003d V일 때만 안정성을 얻습니다. 이 경우 게임이 순수한 전략의 솔루션, V가 달성되는 전략은 다음과 같습니다. 최적의 순수 전략. 값 V는 게임의 순 가격 .

예를 들어 행렬에서:

	B1	B2	B3	B4	최소 j
에이 1	17	16	15	14	14
A2	11	18	12	13	11
에이 3	18	11	13	12	11
최대 i	18	18	15	14

표 — 순수 전략에 솔루션이 있는 보수 매트릭스

순수한 전략에 해결책이 있습니다. 이 경우 플레이어 1의 경우 최적의 순수 전략은 전략 A 1 이고 플레이어 2의 경우 전략 B 4 입니다.

매트릭스에서 순수한 전략에는 솔루션이 없습니다. 전략 A 1에서 낮은 게임 가격에 도달하고 그 값이 12인 반면 전략 B 4에서 높은 게임 가격에 도달하고 그 값이 13이기 때문입니다.

	B1	B2	B3	B4	최소 j
에이 1	17	16	15	12	12
A2	11	18	12	13	11
에이 3	18	11	13	12	11
최대 i	18	18	15	13

표 - 순수 전략에는 솔루션이 없는 보수 매트릭스

보수 행렬의 차수 줄이기

지배 전략과 중복 전략을 제거하여 보수 행렬의 순서(행과 열의 수)를 줄일 수 있습니다.

전략 K*는 지배전략 K** 만약, 상대 플레이어의 행동의 변형에 대해, 관계가

AK*< A k** ,

여기서 A k* 및 A k**는 플레이어가 각각 전략 K* 및 K**를 선택할 때의 보수 값입니다.

관계라면

전략 K*는 전략 K**에 대해 중복된다고 합니다.

예를 들어, 우세 전략과 중복 전략이 있는 매트릭스에서 전략 A1은 전략 A2에 대해 우세하고, 전략 B6은 전략 B3, B4, B5에 대해 우세하고, 전략 B5는 다음과 관련하여 중복됩니다. 전략 B로 4 .

	B1	B2	B3	B4	B5	B6
에이 1	1	2	3	4	4	7
A2	7	6	5	4	4	8
에이 3	1	8	2	3	3	6
A4	8	1	3	2	2	5

표 - 지배 전략과 중복 전략이 있는 보수 매트릭스

이러한 전략은 플레이어가 선택하지 않을 것입니다. 플레이어는 분명히 지고 있고 보상 매트릭스에서 이러한 전략을 제거해도 이 매트릭스에서 설명하는 게임의 하한 및 상한 가격 결정에 영향을 미치지 않기 때문입니다.

보수 행렬의 차원을 줄인 후 얻은 비지배 전략 집합을 파레토 집합이라고도 합니다.

게임 예시

1. 게임 "치킨"

"치킨" 게임은 플레이어 중 한 명이 게임을 떠날 때까지 각자에게 심각한 피해를 입히는 상호 작용에 참여하는 플레이어로 구성됩니다. 이 게임의 사용 예는 차량의 상호 작용입니다. 예를 들어 두 대의 차량이 서로를 향해 가고 먼저 옆으로 향하는 차량을 "약자" 또는 "닭"으로 간주하는 상황입니다. 게임의 의미는 플레이어의 제거로 이어질 긴장감을 조성하는 것입니다. 이 상황은 종종 십대 또는 공격적인 젊은이들 사이에서 발견되지만 때로는 위험이 더 낮습니다. 이 게임의 또 다른 용도는 두 정당이 접촉하여 얻을 것이 없고 오직 자존심만이 그들을 대립하게 만드는 경우입니다. 당사자들은 최종 지점에 도달할 때까지 더디게 양보합니다. 결과적인 심리적 스트레스는 플레이어 중 한 명을 잘못된 행동 전략으로 이끌 수 있습니다. 플레이어 중 누구도 양보하지 않으면 충돌과 치명적인 비난이 불가피합니다.

게임의 보수 매트릭스는 다음과 같습니다.

	생산하다	포기하지마
생산하다	0, 0	-1, +1
포기하지마	+1, -1	-100, -100

2. 게임 "연과 비둘기"

연과 비둘기 게임은 게임의 생물학적 예입니다. 이 버전에서는 무제한 자원을 가진 두 명의 플레이어가 두 가지 행동 전략 중 하나를 선택합니다. 첫 번째("비둘기")는 플레이어가 상대를 위협하여 자신의 힘을 과시하는 것이고 두 번째("연")은 플레이어가 물리적으로 상대를 공격하는 것입니다. 두 선수 모두 연 전략을 선택하면 서로 상처를 입히며 싸운다. 플레이어 중 한 명이 "Kite"전략을 선택하고 두 번째 "Dove"전략을 선택하면 첫 번째 플레이어가 두 번째 플레이어를 물리칩니다. 두 선수가 모두 비둘기라면 상대방은 타협을 하게 되고 이 게임의 보수 매트릭스에서 다음과 같이 비둘기를 물리치는 연의 보수보다 적은 것으로 판명되는 보수를 받게 됩니다.

여기서 V는 합의 가격, C는 충돌 가격, V는

연과 비둘기 게임에는 세 가지 내쉬 평형점이 있습니다.

첫 번째 플레이어는 연을 선택하고 두 번째 플레이어는 비둘기를 선택합니다.
첫 번째 플레이어는 비둘기를 선택하고 두 번째 플레이어는 연을 선택합니다.
두 플레이어 모두 확률 p로 "연"을 선택하고 확률 1-p로 "비둘기"를 선택하는 혼합 전략을 선택합니다.

3. 죄수의 딜레마

죄수의 딜레마는 게임 이론에서 고려되는 가장 일반적인 갈등 상황 중 하나입니다.

전형적인 죄수의 딜레마는 다음과 같습니다. 두 명의 용의자 A와 B가 서로 다른 감방에 있습니다. 그들을 하나씩 방문하는 수사관은 다음 거래를 제안합니다. 그들 중 한 명이 다른 사람에 대해 증언하고 두 번째가 침묵을 지키면 첫 번째 수감자는 석방되고 두 번째 수감자는 10 년형을 선고받습니다. 둘 다 묵비권을 행사하면 6개월 형을 받는다. 둘 다 서로를 배신하면 각각 2년을 받게 됩니다. 각 수감자는 결정을 내려야 합니다. 공범을 배신하거나 상대방이 어떤 결정을 내렸는지 모른 채 침묵을 유지해야 합니다. 딜레마: 죄수들은 어떤 결정을 내릴 것인가?

게임의 보수 매트릭스:

이 경우 결과는 각 수감자의 결정에 따라 결정됩니다. 상대방이 어떤 결정을 내렸는지 알 수 없고, 서로를 신뢰하지 않는다는 점에서 선수들의 입장은 복잡하다.

플레이어의 최선의 전략은 협력이 될 것입니다. 둘 다 침묵하고 최대 보상(더 작은 기간)을 받고 서로의 솔루션이 덜 승리할 것입니다.

"죄수의 딜레마"를 분석하고 명확성을 위해 정식 형식의 보수 매트릭스로 전달해 보겠습니다.

—	협력	협력 거부
협력	3, 3	0, 5
협력 거부	5, 0	1, 1

이 행렬에 따르면 상호 비협조 비용(S)은 각 플레이어에 대해 1점, 협력 비용(R)은 3점, 상대방을 배신하려는 유혹의 비용(T)은 5점입니다. . 우리는 부등식을 다음과 같이 쓸 수 있습니다: T > R > S. 게임이 여러 번 반복될 때 협력의 선택은 배신의 유혹을 극복하고 최대 보상을 얻습니다: 2 R > T + S.

내쉬균형.

내쉬 균형은 플레이어가 다른 플레이어(다른 회사)의 전략을 고려할 때 자신의 전략을 변경할 유인이 없어 플레이어가 타협 솔루션에 도달할 수 있는 상황입니다.

Nash 균형의 정의와 그 존재는 다음과 같이 정의됩니다.

(S, f)를 S가 전략 집합이고 f가 보수 집합인 게임이라고 가정합니다. 각 플레이어 i ∈ (1, ..., n)이 전략 x i &isin S를 선택할 때, 여기서 x = (x 1 , ..., x n), 플레이어 i는 보수 fi (x)를 받습니다. 보상은 모든 플레이어가 선택한 전략에 따라 다릅니다. 전략 x* ∈ S는 한 플레이어가 전략에서 이탈하지 않아 이익이 발생하지 않는 경우, 즉 다음과 같은 불평등이 모든 i에 대해 유지되는 경우 내쉬 균형입니다.

f i (x*) ≥ f i (xi , x* -i)

예를 들어, 죄수의 딜레마 게임에는 두 죄수가 서로를 배신하는 상황인 하나의 내쉬 균형이 있습니다.

내쉬 균형을 결정하는 가장 쉬운 방법은 특히 두 명의 플레이어가 게임에 참여하고 무기고에 두 가지 이상의 전략이 있는 경우 보수 매트릭스를 사용하는 것입니다. 이 경우 공식 분석이 상당히 복잡해지기 때문에 다음과 같은 니모닉 규칙이 적용됩니다. 지불 매트릭스의 셀은 첫 번째 숫자가 모든 값 중에서 최대 값인 경우 내쉬 평형입니다. 열에 표시되고 두 번째 숫자 , 셀에 서 있음 - 모든 줄 중 최대 수입니다.

예를 들어 3x3 행렬에 이 규칙을 적용합니다.

	ㅏ	비	씨
ㅏ	0, 0	25, 40	5, 10
비	40, 25	0, 0	5, 15
씨	10, 5	15, 5	10, 10

내쉬 평형점: (B,A), (A,B) 및 (C,C). 실제로 셀 (B,A)의 경우 40부터 - 최대값첫 번째 열에서 25는 두 번째 행의 최대값입니다. 셀 (A,B)의 경우 25는 두 번째 열의 최대값이고 40은 두 번째 행의 최대값입니다. 셀 (C,C)도 마찬가지입니다.

오염 게임의 예를 고려하십시오( 환경). 여기에서 우리의 초점은 부작용오염으로 생산. 기업이 아무에게도 무엇을 하라고 요구하지 않는다면, 그들 중 누구라도 값비싼 청소기를 설치하는 것보다 공해를 일으킬 것입니다. 회사가 유해한 배출을 줄이기로 결정하면 비용과 결과적으로 제품 가격이 상승하고 수요가 감소합니다. 이 회사는 단순히 파산할 가능성이 매우 높습니다. 잔인한 자연 선택의 세계에 살고 있는 기업은 폐수 처리 시설과 기술에 돈을 쓸 필요가 없는 내쉬 균형(셀 D)에 머물고 싶어합니다. 어떤 기업도 오염을 줄임으로써 이윤을 늘릴 수 없습니다.

	회사 1
회사 2	낮은 오염	높은 수준의 오염
낮은 오염	ㅏ 100,100	안에 -30,120
높은 수준의 오염	와 함께 120,-30	디 100,100

표 - 환경 오염 게임의 보수 매트릭스.

진입 경제 게임, 통제되지 않고 이윤을 극대화하는 모든 철강 회사는 수질 및 대기 오염을 일으킬 것입니다. 기업이 배출량을 정화하려고 시도하면 가격을 인상하고 손실을 입을 수 밖에 없습니다. 비협조적 행동은 높은 이상치 조건에서 내쉬 균형을 확립합니다. 정부는 균형을 셀 A로 옮기는 조치를 취할 수 있습니다. 이 위치에서 오염은 무시할 수 있지만 이익은 동일하게 유지됩니다.

오염 게임은 "보이지 않는 손"의 메커니즘이 작동하지 않는 경우 중 하나입니다. 이것은 내쉬 균형이 비효율적인 상황입니다. 때로는 이러한 통제 불능 게임이 위협이 되고 정부가 개입할 수 있습니다. 벌금 및 배출 할당량 시스템을 구축함으로써 정부는 기업이 저공해에 해당하는 결과 A를 선택하도록 유도할 수 있습니다. 기업은 배출량이 많아 이전과 똑같은 수익을 올리고 세상은 어느 정도 깨끗해집니다.

순수한 전략으로 매트릭스 게임을 해결하는 예

두 기업이 지역 상품 시장을 놓고 다투는 상황에서 순수 전략으로, 실물 경제에서 매트릭스 게임을 푸는 예를 들어보자.

일.

두 기업이 제품을 생산하여 지역 시장에 공급합니다. 그들은 해당 지역에 제품을 공급하는 유일한 공급업체이므로 해당 지역에서 이러한 제품에 대한 시장을 완전히 결정합니다.

각 기업은 세 가지 기술 중 하나를 사용하여 제품을 생산할 수 있습니다. 환경에 따라 기술 프로세스각 기술로 생산되는 제품의 품질에 따라 기업은 각각 10, 6 및 2 통화 단위 수준에서 출력 단위당 가격을 설정할 수 있습니다. 동시에 기업은 생산 단위 생산 비용이 다릅니다.

표 - 해당 지역의 기업에서 생산되는 산출물 단위당 비용(통화 단위).

지역의 제품 시장에 대한 마케팅 조사 결과 제품 수요 기능이 결정되었습니다.

Y = 6 - 0.5⋅X,

여기서 Y는 해당 지역의 인구가 구매할 제품의 양(천 단위)이고 X는 기업 제품의 평균 가격, c.u입니다.

판매 가격에 따른 제품 수요에 대한 데이터는 표에 나와 있습니다.

판매 가격 1 단위. 제품, m.u.		1개 평균판매가격입니다. 제품, m.u.	제품수요, 천단위
엔터프라이즈 1	엔터프라이즈 2	1개 평균판매가격입니다. 제품, m.u.	제품수요, 천단위
10	10	10	1
10	6	8	2
10	2	6	3
6	10	8	2
6	6	6	3
6	2	4	4
2	10	6	3
2	6	4	4
2	2	2	5

표 - 해당 지역의 제품에 대한 수요, 천 단위.

인구가 구매하는 기업 1 제품의 지분 가치는 기업 1 제품과 기업의 가격 비율에 따라 달라지며 마케팅 조사 결과 이러한 의존성이 확립되었고 가치는 계획된:

표 - 제품 가격 비율에 따라 인구가 구매한 기업 1의 제품 점유율

문제의 조건에 따라 지역 시장에서 운영되는 기업은 2개뿐입니다. 따라서 인구가 구매하는 두 번째 기업의 제품 점유율은 제품 가격 비율에 따라 단위에서 첫 번째 기업의 점유율을 뺀 값으로 정의할 수 있습니다.

이 문제에서 기업의 전략은 생산 기술에 대한 결정입니다. 이러한 결정은 생산 단위의 비용과 판매 가격을 결정합니다. 작업은 다음을 정의해야 합니다.

두 기업의 생산 기술 선택에서이 문제에 균형 상황이 있습니까?
불이익 때문에 기업이 분명히 선택하지 않을 기술이 있습니까?
균형 상황에서 얼마나 많은 제품이 팔릴 것인가? 어느 회사가 승자가 될까요?

문제의 해결책

문제의 보수 행렬에서 보수 계수의 경제적 의미를 결정해 봅시다. 각 기업은 제품 생산으로 인한 이익을 극대화하려고 합니다. 그러나 또한이 경우 기업은 해당 지역의 제품 시장을 위해 싸우고 있습니다. 동시에 한 기업의 이득은 다른 기업의 손실을 의미합니다. 이러한 문제는 제로섬 매트릭스 게임으로 축소될 수 있습니다. 이 경우 이익 계수는 제품 생산으로 인한 기업 1과 기업 2의 이익의 차이입니다. 이 차이가 양수이면 기업 1이 이기고 음수이면 기업 2가 이깁니다.
보수 행렬의 계수를 계산합니다. 이를 위해서는 제품 생산으로 인한 기업 1과 기업 2의 이익 가치를 결정할 필요가 있습니다.

이 문제에서 기업의 이익은 다음에 따라 달라집니다.

가격과 생산 비용에서;
지역 인구가 구매한 제품의 양;
기업에서 인구가 구매 한 제품의 비율에서.

따라서 보수 매트릭스의 계수에 해당하는 기업 이익의 차이 값은 다음 공식에 의해 결정되어야 합니다.

D = p⋅(S⋅R1 - S⋅C1) - (1 - p)⋅(S⋅R2 - S⋅C2),

여기서 D는 기업 1과 기업의 제품 생산으로 인한 이익 차이 값입니다.

p는 지역 인구가 구매한 기업 1의 제품 점유율입니다.

S는 지역 인구가 구매한 제품의 수입니다.

R1과 R2는 기업 1의 생산 단위 판매 가격이고

C1과 C2는 기업 1에서 생산되는 생산 단위의 총 비용이며

보수 행렬 계수 중 하나를 계산해 봅시다.

예를 들어 기업 1은 기술 III에 따라 제품 생산을 결정하고 기업 2는 기술 II에 따라 결정합니다. 그런 다음 단위의 판매 가격. 엔터프라이즈 1의 제품은 CU 2가 됩니다. 단가로. 제품 CU 1.5 Enterprise 2의 경우 단위 판매 가격입니다. 생산량은 CU 6이 될 것입니다. CU 4의 비용으로.

이 지역의 인구가 4cu의 평균 가격으로 구매할 제품의 수는 4,000개입니다. (1 번 테이블). 인구가 기업 1에서 구매할 제품의 비율은 0.85, 기업 2에서 0.15가 될 것입니다(표 1.3). 다음 공식을 사용하여 보수 매트릭스 계수 a 32를 계산합니다.

a 32 \u003d 0.85⋅ (4⋅2 - 4 × 1.5) - 0.15⋅ (4⋅6 - 4⋅4) \u003d 0.5천 단위.

여기서 i=3은 첫 번째 기업의 기술번호이고, j=2는 두 번째 기업의 기술번호이다.

마찬가지로 보수 행렬의 모든 계수를 계산합니다. 보수 매트릭스에서 전략 A 1 - A 3 - 기업 1의 생산 기술에 대한 결정, 전략 B 1 - B 3 - 기업 2의 생산 기술에 대한 결정, 보수 비율 - 기업 1과 기업 간의 이익 차이를 나타냅니다.

	B1	B2	B3	최소 j
에이 1	0,17	0,62	0,24	0,17
A2	0,3	-1,5	-0,8	-1
에이 3	0,9	0,5	0,4	0,4
최대 i	3	0,62	0,4

테이블 - "두 기업의 투쟁" 게임의 보상 매트릭스.

이 매트릭스에는 지배적이거나 복제적인 전략이 없습니다. 이는 두 기업 모두 명백히 수익성이 없는 생산 기술이 없음을 의미합니다. 행렬 행의 최소 요소를 결정합시다. 기업 1의 경우 이러한 각 요소는 적절한 전략을 선택할 때 최소 보장 보상의 가치를 갖습니다. 행별 행렬의 최소 요소 값은 0.17, -1.5, 0.4입니다.

행렬 열의 최대 요소를 결정합시다. 기업 2의 경우 이러한 각 요소는 적절한 전략을 선택할 때 최소 보장 보상의 가치도 있습니다. 열별 행렬의 최대 요소는 3, 0.62, 0.4 값을 갖습니다.

매트릭스에서 게임의 낮은 가격은 0.4입니다. 게임의 상한 가격도 0.4입니다. 따라서 매트릭스에서 게임의 하한가와 상한가는 동일합니다. 이는 이 작업의 조건에서 두 기업 모두에 최적인 생산 기술이 있음을 의미합니다. 이 기술은 III이며 전략 A 3 기업 1 및 B 3 기업에 해당합니다. 전략 A 3 및 B 3은 이 문제에서 순수 최적 전략입니다.

순최적 전략을 선택할 때 기업 1과 기업 2의 이익 차이 값은 양수입니다. 이것은 기업 1이 이 게임에서 이길 것이라는 것을 의미합니다. 기업 1은 CU 0.4천을 얻습니다. 동시에 5,000개가 시장에서 판매될 예정입니다. 제품(판매량은 제품 수요와 같음, 표 1) 두 기업 모두 생산량 단위당 가격을 CU 2로 설정합니다. 이 경우 첫 번째 기업의 경우 생산 단위의 전체 비용은 CU 1.5이고 두 번째 기업의 경우 CU 1입니다. 기업 1은 인구가 구매할 제품의 높은 점유율로 인해 이익을 얻을 것입니다.

결정 기준

의사결정자는 문제를 해결하는 과정에서 구현하는 목표 설정에 따라 가장 수익성 있는 전략을 결정합니다. 의사 결정자는 다음 중 하나를 통해 문제 해결 결과를 결정합니다. 결정 기준. 명확하고 가능하면 가장 유리한 솔루션에 도달하려면 평가(대상) 기능을 도입해야 합니다. 동시에 각 의사 결정자 전략(A i)에는 이 결정의 모든 결과를 특징짓는 일부 결과 Wi가 할당됩니다. 의사 결정 결과의 배열에서 DM은 요소 W를 선택합니다. 가장 좋은 방법그의 행동 동기를 반영합니다.

조건에 따라 외부 환경의사 결정자의 정보 제공 정도에 따라 다음과 같은 의사 결정 작업 분류가 이루어집니다.

위험;
불확실한 상황에서;
충돌 또는 반대 상황에서(적극적).

위험에 처한 의사 결정.

1. 기대 가치의 기준.

기대 가치 기준을 사용하는 것은 기대 이익을 최대화(또는 기대 비용을 최소화)하려는 욕구 때문입니다. 기대값을 사용한다는 것은 충분히 정확한 계산 공식을 얻을 때까지 동일한 문제를 여러 번 풀 수 있는 가능성을 의미합니다. 수학적으로는 다음과 같습니다. X를 다음과 같은 확률 변수로 둡니다. 수학적 기대 MX 및 분산 DX. x 1 , x 2 , ..., x n이 랜덤 변수(r.v.) X의 값이면, 그 (샘플 평균) 값의 산술 평균 x^=(x 1 +x 2 +.. .+x n)/n은 분산이 DX/n입니다. 따라서 n→∞ DX/n→∞ 및 X→MX일 때.

즉, 표본 크기가 충분히 크면 산술 평균과 수학적 기대값의 차이가 0이 되는 경향이 있습니다(소위 확률 이론의 극한 정리). 따라서 기댓값 기준의 사용은 동일한 솔루션을 충분히 많이 적용해야 하는 경우에만 유효합니다. 그 반대도 마찬가지입니다. 기대 지향은 적은 횟수로 내려야 하는 결정에 대해 잘못된 결과로 이어질 것입니다.

예 1. 오작동으로 인한 손실을 최소화하기 위해 PC의 예방 유지 보수가 필요한 시점에 대한 결정이 필요합니다. 너무 자주 수리하면 사고로 인한 고장으로 인한 손실이 적고 유지 보수 비용이 많이 듭니다.

오작동이 언제 발생할지 미리 예측할 수 없기 때문에 t 기간 동안 PC가 고장날 확률을 찾아야 합니다. 이것은 위험 요소입니다.

수학적으로 보면 다음과 같습니다. 고장으로 인해 PC가 멈추면 PC가 개별적으로 수리됩니다. T 시간 간격 후에 모든 n PC의 예방 유지보수가 수행됩니다. 고장난 PC를 수리하고 1회 간격으로 예방 수리를 수행하는 데 드는 총 비용을 최소화하는 최적의 m 값을 결정할 필요가 있습니다.

p t는 시간 t에서 한 PC의 고장 확률이고 n t는 랜덤 변수라고 하자. 숫자와 같다동시에 모든 고장난 PC. 추가로 C 1 - 결함이 있는 PC 수리 비용 및 C 2 - 한 대의 기계에 대한 예방적 유지 관리 비용을 지정합니다.

이 경우 기대 가치 기준의 사용은 PC가 다음을 위해 작동하는 경우 정당화됩니다. 장기간시간. 이 경우 한 간격에 대한 예상 비용은

OZ = (C1∑M(nt)+C1n)/T,

여기서 M(n t)는 시간 t에서 실패한 PC의 수에 대한 수학적 기대치입니다. n t 는 매개변수가 (n, p t)인 이항 분포를 가지므로 M(n t) = np t 입니다. 따라서

OZ \u003d n (C 1 ∑pt + C 2) / T.

필요한 최적 조건 T *의 형식은 다음과 같습니다.

OZ(T*-1) ≥ OZ(T*),

온스(T * +1) ≥ 온스(T *).

따라서 T의 작은 값부터 시작하여 OZ(

T) 만족할 때까지 필요한 조건최적.

C1=100이라고 하자; C2=10; n = 50. pt 값은 다음과 같습니다.

티	피티	∑р 티	온스(티)
1	0.05	0	50(100⋅0+10)/1=500
2	0.07	0.05	375
3	0.10	0.12	366.7
4	0.13	02	400
5	0.18	0.35	450

T* →3, OZ(T*)→366.7

따라서 T * = 3 시간 간격으로 예방 유지보수를 수행해야 합니다.

기준 "예상 값 - 분산".

드물게 발생하는 상황에 적용할 수 있도록 기대값 기준을 수정할 수 있습니다.

만약 x - s. V. 분산이 DX인 경우 산술 평균 x^은 분산 DX/n을 가지며 여기서 n은 x^의 항 수입니다. 따라서 DX가 감소하고 x^가 MX에 가까울 확률이 증가합니다. 따라서 기대이윤의 극대화와 그 분산의 최소화가 결합된 기준을 도입하는 것이 바람직하다.

예 2. 예 1에 대해 "기대값 - 분산" 기준을 적용해 보겠습니다. 이렇게 하려면 한 시간 간격에 대한 비용의 분산을 찾아야 합니다. 분산

s T \u003d (C 1 ∑n t + C 2 n) / T

왜냐하면 n t , t = (1, T-1)은 r.v.이고 s T도 r.v.입니다. S.v. n t는 M(n t) = np t 및 D(n t) = np t (1–p t)인 이항 분포를 갖습니다. 따라서,

D(s T) = D((C 1 ∑n t +C 2 n)/T) = (C 1 /T) 2 D(∑n t) =

= (C 1 /T) 2 ∑Dn t = (C 1 /T) 2 ∑np t (1-p t) = (C 1 /T) 2 (∑ p t - ∑ p t 2 ),

여기서 C 2 n = const.

예 1에서 다음과 같습니다.

M(s T) = M(s(T)).

따라서 원하는 기준은 표현의 최소값이 될 것입니다.

M(s(T)) + ~ D(s T).

논평. 상수 "k"는 수준으로 간주할 수 있습니다. 위험 회피, 왜냐하면 "k"는 수학적 기대치와 관련하여 분산 D(z T)의 "가능성 정도"를 결정합니다. 예를 들어, 기업가가 M(s(T))에서 이익의 큰 음의 편차에 특히 민감한 경우 1보다 훨씬 큰 "k"를 선택할 수 있습니다. 이것은 분산에 더 많은 가중치를 부여하고 다음과 같은 솔루션으로 이어집니다. 큰 이익 손실의 가능성을 줄입니다.

k=1의 경우 문제가 발생합니다.

M(s(T))+D(s(T)) = n ( (C 1 /T+C 1 2 /T 2)∑p t - C 1 2 /T 2 ∑ p t 2 + C 2 /T )

예제 1의 데이터를 사용하여 다음 테이블을 만들 수 있습니다.

티	태평양 표준시	2부	∑티	∑p 2	M(s(T))+D(s(T))
1	0,05	0,0025	0	0	500.00
2	0,07	0,0049	0,05	0,0025	6312,50
3	0,10	0,0100	0,12	0,0074	6622,22
4	0,13	0,0169	0,2	0,0174	6731,25
5	0,18	0,0324	0,35	0,0343	6764,00

표는 각 간격 T * =1 동안 예방 유지보수를 수행해야 함을 보여줍니다.

3. 제한기준

제한 기준은 예를 들어 이익을 최대화하거나 비용을 최소화하는 최적의 솔루션을 제공하지 않습니다. 오히려 그 정의에 맞는다. 허용행동 방식.

예 3. 어떤 제품에 대한 단위 시간당 수요량 x(수요 강도)가 연속 분포 함수 f(x)로 주어진다고 가정합니다. 초기에 재고가 적으면 나중에 상품이 부족할 수 있습니다. 그렇지 않으면 검토 기간이 끝날 때까지 판매되지 않은 상품의 재고가 매우 커질 수 있습니다. 두 경우 모두 손실이 발생할 수 있습니다.

왜냐하면 부족으로 인한 손실을 결정하기가 매우 어려우므로 의사 결정자는 가치가 예상되는적자는 A 1 단위를 초과하지 않았으며 값은 예상되는잉여는 A 2 단위를 초과하지 않았습니다. 즉, 내가 원하는 재고 수준이라고 하자. 그 다음에

예상 적자 = ∫(x-I)f(x)dx ≤ A 1 ,

예상 잉여 = ∫(I-x)f(x)dx ≤ A 2 .

A 1과 A 2를 임의로 선택하면 이러한 조건이 모순될 수 있습니다. 이 경우 허용 가능성을 보장하기 위해 제약 조건 중 하나를 완화해야 합니다.

예를 들어,

f(x) = 20/x 2 , 10≤x≤20,

f(x) = 0, x≤10 및 x≥20.

∫(x-I)f(x)dx = ∫(x-I)(20/x 2)dx = 20(ln(20/I) + I/20 – 1)

∫(I-x)f(x)dx = ∫(I-x)(20/x 2)dx = 20(ln(10/I) + I/10 – 1)

제한 수준 기준을 적용하면 불평등이 발생합니다.

ln(I) - I/20 ≥ ln(20) - A 1 /20 - 1 = 1.996 - A 1 /20

ln(I) - I/10 ≥ ln(10) - A 2 /20 - 1 = 1.302 - A 2 /20

한계 값 A 1 및 A 2는 두 부등식이 적어도 하나의 I 값에 대해 유지되도록 선택해야 합니다.

예를 들어 A 1 = 2이고 A 2 = 4이면 부등식은 다음과 같습니다.

ln(I) - I/20 ≥ 1.896

ln(I) - I/10 ≥ 1.102

I의 값은 10에서 20 사이여야 합니다. 변화를 요구하는 것은 이러한 한계 내입니다. 표는 구간(13.17)에서 I에 대해 두 조건이 모두 충족됨을 보여줍니다.

나	10	11	12	13	14	15	16	17	18	19	20
ln(I) - I/20	1,8	1,84	1,88	1,91	1,94	1,96	1,97	1,98	1,99	1,99	1,99
ln(I) - I/10	1,3	19	18	16	14	11	1,17	1,13	1,09	1,04	0,99

이러한 값은 문제의 조건을 충족합니다.

불확실성 하에서의 의사결정

우리는 의사결정자가 직면하지 않는다고 가정할 것입니다. 합리적인적.

불확실성 하에서 결정을 내리는 데 필요한 데이터는 일반적으로 행렬 형식으로 제공되며 행은 다음에 해당합니다. 가능한 조치, 열은 시스템의 가능한 상태를 나타냅니다.

예를 들어 허용 가능한 비용으로 내구성을 결정할 수 없는 일부 재료로 제품을 제조해야 한다고 가정해 보겠습니다. 하중은 알려진 것으로 가정합니다. 이 자료의 제품 치수를 결정해야 합니다.

솔루션 옵션은 다음과 같습니다.

E 1 - 최대 내구성을 이유로 치수 선택;

E m - 최소 내구성을 이유로 치수 선택;

E i는 중간 솔루션입니다.

고려해야 할 조건은 다음과 같습니다.

F 1 - 최대 내구성을 보장하는 조건;

F n - 최소 내구성을 제공하는 조건;

F i - 중간 조건.

결정 결과 e ij = e(E i ; F j) 여기에서 옵션 E i 및 조건 F j에 해당하는 추정치를 이해하고 이익, 유용성 또는 신뢰성을 특성화할 수 있습니다. 일반적으로 우리는 그러한 결과를 호출합니다 결정의 유용성.

그런 다음 솔루션의 패밀리(매트릭스) ||e ij || 다음과 같이 보입니다.

	F1	F2	...	에프엔
전자 1	전자 11	전자 12	...	전자 1n
전자 2	e 21	e 22	...	전자 2n
...	...	...	...	...
엠	전자 m1	전자 m2	...	전자 mn

명확하고 가능하면 가장 유리한 솔루션에 도달하려면 평가(대상) 기능을 도입해야 합니다. 이 경우 결정 행렬 ||e ij || 한 열로 줄었습니다. 각 옵션 E 나는 따라서 일부 결과 e ir 일반적으로이 결정의 모든 결과를 특징 짓습니다. 이러한 결과는 동일한 기호 e ir 로 추가로 표시됩니다.

고전적인 결정 기준

1. 미니맥스 기준.

최소 기준(MM 기준)에 따라 솔루션을 선택하는 규칙은 다음과 같이 해석할 수 있습니다.

결정 행렬은 각 행의 가장 작은 결과 e ir의 열로 채워집니다. 이 열의 가장 큰 값인 행에서 해당 옵션을 선택해야 합니다.

이렇게 선택했습니다. 옵션은 위험을 완전히 제거합니다. 이는 의사 결정자가 자신이 목표로 삼고 있는 것보다 더 나쁜 결과에 직면할 수 없음을 의미합니다. 이 속성을 통해 MM 기준을 기본 기준 중 하나로 간주할 수 있습니다.

MM 기준의 사용은 결정이 내려진 상황이 다음과 같은 경우에 정당화됩니다.

외부 상태 F j의 출현 가능성에 대해서는 알려진 바가 없습니다.
다양한 외부 상태 F j의 출현을 고려해야 합니다.
솔루션은 한 번만 구현됩니다.
모든 위험은 배제되어야 합니다.

2. Bayes-Laplace 기준.

q i 가 외부 상태 F j 의 출현 확률을 나타내도록 합니다.

해당 선택 규칙은 다음과 같이 해석할 수 있습니다.

결정 행렬은 각 행 값의 수학적 기대치를 포함하는 하나 이상의 열로 보완됩니다. 이러한 옵션은 이 열의 가장 큰 값 e ir가 있는 행에서 선택됩니다.

결정이 내려진 상황은 다음과 같은 상황을 특징으로 한다고 가정합니다.

상태 F j의 출현 확률은 알려져 있으며 시간에 의존하지 않습니다.
솔루션은 (이론적으로) 무한히 여러 번 실현됩니다.
소수의 솔루션 구현의 경우 약간의 위험이 허용됩니다.

충분할 때 많은 수로구현하면 평균값이 점차 안정화됩니다. 따라서 완전한(무한한) 구현으로 모든 위험이 실질적으로 배제됩니다.

저것. Bayes-Laplace 기준(B-L 기준)은 minimax 기준보다 더 낙관적이지만 더 큰 인식과 다소 긴 구현을 의미합니다.

3. 새비지의 기준.

a ij:= 최대 i (e ij) - e ij

e ir:= 최대 i(a ij) = 최대 j(최대 i(e ij) - e ij)

a ij의 값은 최대 추가 이득으로 해석될 수 있으며, 이는 상태 F j에서 변형 E i 대신 이 외부 상태에 최적인 다른 변형이 선택되는 경우 달성됩니다. a ij 의 값은 최적 변형을 변형 E i 로 대체할 때 상태 F j 에서 발생하는 손실(페널티)로 해석될 수도 있습니다. 후자의 경우 e ir 는 변형 E i 를 선택하는 경우 가능한 최대(모든 외부 상태 F j , j = (1,n)) 손실입니다.

Savage의 기준에 해당하는 선택 규칙은 이제 다음과 같이 해석됩니다.

결정 행렬의 각 요소 ||e ij || 해당 열의 가장 큰 결과 max(e ij)에서 뺍니다.
차이 a ij는 잔차 || e ij ||의 행렬을 형성합니다. 이 행렬은 가장 큰 차이 열 e ir로 업데이트됩니다. 이 열의 값이 가장 작은 행에서 해당 옵션을 선택하십시오.

결정이 내려지는 상황에 대한 요구 사항은 MM 기준에 대한 요구 사항과 일치합니다.

4. 예 및 결론.

고려된 기준에 대한 요구 사항에서 엄격한 시작 위치로 인해 이상적인 경우에만 적용할 수 있음이 분명해집니다. 실용적인 솔루션. 너무 강한 이상화가 가능한 경우에는 서로 다른 기준을 번갈아 동시에 적용할 수 있다. 그 후 여러 선택지 중에서 의사결정자는 의지적 방법으로 최종 결정을 선택한다. 이 접근 방식은 첫째, 의사 결정 문제의 모든 내부 연결에 더 잘 침투하고 둘째, 주관적 요인의 영향을 약화시킵니다.

예. 컴퓨터 작동 중에는 정보 처리를 주기적으로 중단하고 컴퓨터에 바이러스가 있는지 확인해야 합니다. 정보 처리를 중단하면 특정 경제적 비용이 발생합니다. 바이러스가 적시에 탐지되지 않으면 일부 정보가 손실되어 더 큰 손실이 발생할 수 있습니다.

솔루션 옵션은 다음과 같습니다.

E 1 - 전체 확인;

E 2 - 최소 점검;

E 3 - 확인 거부.

컴퓨터는 다음 상태일 수 있습니다.

F 1 - 바이러스가 없습니다.

F 2 - 바이러스가 있지만 정보를 손상시킬 시간이 없었습니다.

F 3 - 복원해야 하는 파일이 있습니다.

바이러스 검색 및 제거 비용과 정보 복원과 관련된 비용을 포함한 결과는 다음과 같습니다.

	F1	F2	F3	MM 기준		기준 B-L
	F1	F2	F3	전자 ir = 최소 j (e ij)	최대 i(전자 IR)	eir = ∑eij	최대 i(전자 IR)
전자 1	-20,0	-20	-25,0	-25,0	-25,0	-22,33
전자 2	-14,0	-23,0	-31,0	-31,0		-22,67
E 3	0	-24.0	-40.0	-40.0		-21.33	-21.33

MM 기준에 따라 전체 점검을 수행해야 합니다. 베이즈-라플라스 기준(Bayes-Laplace criterion)은 기계의 모든 상태가 동일할 가능성이 있다고 가정합니다.

	F1	F2	F3	새비지의 기준
	F1	F2	F3	전자 ir = 최소 j (a ij)	최소 j(전자)
전자 1	+20,0	0	0	+20,0
전자 2	+14,0	+1,0	+6,0	+14,0	+14,0
E 3	0	+2,0	+15,0	+15,0

예제는 각 기준이 새로운 솔루션을 제공하도록 특별히 선택되었습니다. 수표가 컴퓨터를 찾은 상태의 불확실성은 따라야 할 기준에 대한 모호함으로 바뀝니다.

다른 기준은 결정이 내려지는 다른 조건과 연관되기 때문에 특정 기준의 권장 사항을 비교 평가하기 위한 권장 사항을 얻는 것이 가장 좋습니다. 추가 정보상황 자체에 대해. 특히, 동일한 매개변수를 가진 수백 대의 기계를 참조하여 결정하는 경우 Bayes-Laplace 기준을 적용하는 것이 좋습니다. 기계 수가 많지 않은 경우에는 minimax 또는 Savage 기준을 사용하는 것이 좋습니다.

파생 기준.

1. Hurwitz 기준.

가장 균형 잡힌 입장을 취하기 위해 Hurwitz는 극단적인 낙관론과 극단적인 비관론 사이에 있는 평가 함수를 제안했습니다.

최대 i (e ir) = ( C⋅min j (e ij) + (1-C)⋅max j (e ij) ),

여기서 C는 가중치 계수입니다.

Hurwitz 기준에 따른 선택 규칙은 다음과 같이 구성됩니다.

결정 행렬 ||e ij || 각 행에 대한 가장 작은 결과와 가장 큰 결과의 가중 평균을 포함하는 열로 채워집니다. 이 열의 가장 큰 요소 e e ir가 있는 행에서 해당 옵션만 선택됩니다.

C=1에서 Hurwitz 기준은 MM 기준으로 바뀝니다. C = 0에서 "도박꾼" 기준으로 바뀝니다.

최대 i(e ir) = 최대 i(최대 j(e ij)),

저것들. 우리는 최고의 기회가 "실패"할 것이라고 베팅하는 도박꾼의 관점을 취합니다.

기술 응용 분야에서는 가중치 계수 C를 선택하기가 어렵습니다. 결정을 내릴 때 존재하는 낙관주의와 비관주의의 양적 특성을 찾기가 어렵습니다. 따라서 대부분 C: \u003d 1/2입니다.

Hurwitz 기준은 다음과 같은 경우에 적용됩니다.

상태 F j의 출현 확률에 대해서는 알려진 바가 없습니다.
상태 Fj의 출현으로 고려해야 합니다.
소수의 솔루션만 구현됩니다.
약간의 위험이 허용됩니다.

2. Hodge–Lehmann 기준.

이 기준은 MM 기준과 Bayes-Laplace 기준에 동시에 의존합니다. 매개변수 n을 사용하여 사용된 확률 분포의 신뢰도를 표현합니다. 신뢰도가 높으면 Bayes-Laplace 기준이 우세하고, 그렇지 않으면 MM 기준, 즉 우리는 ~을 찾고있다

최대 i (e ir) = 최대 i (v⋅∑e ij ⋅q i + (1-v) min j (e ir)), 0 ≤ n ≤ 1.

Hodge-Lehman 기준에 해당하는 선택 규칙은 다음과 같이 구성됩니다.

결정 행렬 ||e ij || 가중 평균(가중치 v≡const 포함) 수학적 기대치와 각 행의 가장 작은 결과(*)로 구성된 열로 보완됩니다. 이러한 솔루션은 이 열의 가장 큰 값이 있는 행에서 선택됩니다.

v = 1에서 Hodge-Lehman 기준은 Bayes-Laplace 기준으로 바뀌고 v = 0에서 minimax가 됩니다.

모든 분포 함수의 신뢰도는 암흑 물질이기 때문에 v의 선택은 주관적입니다.

Hodge-Lehman 기준을 적용하기 위해서는 결정이 내려지는 상황이 다음 속성을 만족하는 것이 바람직하다.

상태 F j의 발생 확률은 알 수 없지만 확률 분포에 대한 몇 가지 가정이 가능합니다.
수용된 솔루션은 이론적으로 무한히 많은 구현을 허용합니다.
구현 수가 적은 경우 약간의 위험이 허용됩니다.

3. Germeier의 기준.

이 기준은 손실 금액, 즉 ~에 음수 값모두 e ij . 여기서

최대 i (e ir) = 최대 i (min j (e ij)q j) .

왜냐하면 경제적 과제에서 그들은 주로 가격과 비용, 조건 e e ij를 다룹니다.<0 обычно выполняется. В случае же, когда среди величин e ij встречаются и положительные значения, можно перейти к строго отрицательным значениям с помощью преобразования e ij -a при подходящем образом подобранном a>0. 동시에 최선의 선택솔루션은 다음에 따라 다릅니다.

Germeier 기준에 따른 선택 규칙은 다음과 같이 공식화됩니다.

결정 행렬 ||e ij || 각 행에 사용 가능한 결과의 최소 곱과 해당 상태 F j의 확률을 포함하는 하나 이상의 열로 보완됩니다. 이러한 옵션은 이 열의 가장 큰 값 e e ij가 발견된 행에서 선택됩니다.

어떤 의미에서 Germeier 기준은 MM 기준을 일반화합니다. 균일 분포의 경우 q j = 1/n, j=(1,n), 그들은 동일해집니다.

적용 조건은 다음과 같습니다.

특정 상태의 출현과 함께 개별적으로 또는 조합하여 고려할 필요가 있습니다.
약간의 위험이 허용됩니다.
솔루션은 한 번 이상 구현될 수 있습니다.

분포 함수가 매우 안정적으로 알려져 있지 않고 실현 수가 적으면 Germeier 기준에 따라 일반적으로 말해서 비합리적으로 큰 위험이 발생합니다.

4. 결합된 Bayes-Laplace 및 minimax 테스트.

지금까지 고려한 모든 것보다 기존 상황에 더 잘 적응할 수 있는 기준을 얻으려는 욕구는 소위 복합 기준의 구성으로 이어졌습니다. 예를 들어, Bayes-Laplace와 minimax 기준(BL(MM) 기준)을 결합하여 얻은 기준을 고려하십시오.

이 기준에 대한 선택 규칙은 다음과 같이 공식화됩니다.

결정 행렬 ||e ij || 세 개의 열이 더 추가되었습니다. 첫 번째에는 각 행의 수학적 기대치가 기록되고 두 번째에는 기준 값의 차이가 기록됩니다.

e i 0 j 0 = 최대 i(최대 j(e ij))

그리고 가장 작은 값

해당 라인. 세 번째 열에는 가장 큰 값 간의 차이가 포함됩니다.

각 행과 e i 0 j 0 값을 포함하는 행의 가장 큰 값 max j (ei 0 j). 이러한 옵션이 선택되며, 그 행(두 번째 열과 세 번째 열의 요소 사이의 다음 비율에 따라 다름)이 가장 높은 수학적 기대치를 제공합니다. 즉, 해당 값

e i 0 j 0 - 최대 j (e ij)

두 번째 열의 값은 미리 결정된 위험 수준 E add와 같거나 같아야 합니다. 세 번째 열의 값은 두 번째 열의 값보다 커야 합니다.

이 기준의 적용은 결정이 내려지는 상황의 다음과 같은 특징 때문입니다.

상태 F j의 발생 확률은 알 수 없지만 특정 분포에 유리한 선험적 정보가 있습니다.
개별적으로 그리고 조합하여 다양한 상태의 출현을 고려할 필요가 있습니다.
제한된 위험 허용;
결정은 한 번 또는 반복적으로 구현됩니다.

BL(MM) 기준은 주로 기술 분야에서 실용적인 솔루션을 구성하는 데 적합하며 상당히 신뢰할 수 있는 것으로 간주될 수 있습니다. 그러나 주어진 위험 경계 E 추가 및 그에 따라 위험 추정 E 나는 솔루션의 적용 횟수 또는 기타 유사한 정보를 고려하지 않습니다. 주관적 요인의 영향이 약해지긴 했지만 완전히 배제된 것은 아니다.

최대 j(eij)-최대 j(ei0j)≥Ei

솔루션이 한 번만 또는 적은 횟수만 구현되는 경우에 필수적입니다. 이러한 조건에서 불리한 외부 조건과 평균 값과 관련된 위험에만 집중하는 것만으로는 충분하지 않습니다. 그러나 이로 인해 성공 시 약간의 손실을 입을 수 있습니다. 외부 상태. ~에 큰 숫자구현, 이 조건은 더 이상 중요하지 않습니다. 합리적인 대안도 허용합니다. 그러나 어떤 경우에 이 조건을 생략해야 하는지에 대한 명확한 정량적 표시는 없습니다.

5. 작품의 기준.

최대 i(e ir):= 최대 i(∏e ij)

이 경우 선택 규칙은 다음과 같이 공식화됩니다.

결정 행렬 ||e ij || 각 행의 모든 결과의 제품을 포함하는 새 열로 채워집니다. 해당 옵션은 다음 라인에서 선택됩니다. 가장 높은 값이 열.

이 기준의 적용은 다음과 같은 상황 때문입니다.

상태 F j의 출현 확률은 알려지지 않았습니다.
각 상태의 출현과 함께 F j는 개별적으로 고려되어야 합니다.
이 기준은 소수의 솔루션 구현에도 적용할 수 있습니다.
약간의 위험이 허용됩니다.

제품 기준은 모든 eij가 양수인 경우에 주로 적용됩니다. 양성 조건이 위반되면 일부 상수 a>|min ij (e ij)|와 함께 일부 이동 e ij +a가 수행되어야 합니다. 결과는 자연스럽게 a에 따라 달라집니다. 실무에서 가장 자주

a:= |최소 ij (e ij)|+1.

상수가 의미 있는 것으로 인식될 수 없으면 제품 기준이 적용되지 않습니다.

예.

이전과 동일한 예를 고려하십시오(위 참조).

Hurwitz 기준에 따른 확인에 대한 결정 매트릭스에 대한 최적 솔루션의 구성은 다음과 같은 형식을 갖습니다(at С=0, in 10 3).

\|\|이이 \|\|			С⋅최소 j (e ij)	(1-С)⋅최대j(eij)	전자	최대 i(전자 IR)
-20,0	-22,0	-25,0	-12,5	-10.0	-22,5
-14,0	-23.0	-31.0	-15,5	-7.0	-22,5
0	-24.0	-40.0	-20.0	0	-20.0	-20.0

안에 이 예솔루션은 가중치 계수 C와 관련하여 전환점이 있습니다. C = 0.57까지, E 3이 최적으로 선택되고, 큰 값— 이자형 1 .

Hodge-Lehman 테스트 적용(q=0.33, v=0, at 103):

∑eij ⋅qj	minj(eij)	v⋅∑e ij ⋅q j	(1-v)⋅∑eij ⋅qj	전자	최대 i(전자 IR)
-22,33	-25,0	-11,17	-12,5	-23,67	-23,67
-22,67	-31,0	-11,34	-15,5	-26,84
-21,33	-40,0	-10,67	-20,0	-30,76

Hodge-Lehman 테스트는 MM 테스트와 마찬가지로 옵션 E 1(전체 확인)을 권장합니다. 권장 변형의 변경은 v=0.94에서만 발생합니다. 따라서 고려 중인 기계의 균일한 상태 분포는 더 큰 수학적 기대치에 의해 선택될 수 있도록 매우 높은 확률로 인식되어야 합니다. 솔루션 구현 횟수는 항상 임의로 유지됩니다.

q j = 0.33에서 Germeier 기준은 다음 결과를 제공합니다(10 3에서).

\|\|이이 \|\|			\|\|e ij q j \|\|			e ir = min j (e ij q j)	최대 i(전자 IR)
-20,0	-22,0	-25,0	-6,67	-7,33	-8,33	-8,33	-8,33
-14,0	-23,0	-31,.0	-4,67	-7,67	-10,33	-10,33
0	-24,0	-40,0	0	-8,0	-13,33	-13,33

옵션 E 1이 최적의 것으로 선택됩니다. e ir 값을 사용하여 변형을 비교하면 Germeier 테스트가 작동하는 방식이 MM 테스트보다 훨씬 더 유연하다는 것을 알 수 있습니다.

아래 표에서 솔루션은 q 1 =q 2 =q 3 =1/2(10 3의 데이터)인 BL(MM) 기준에 따라 선택됩니다.

\|\|이이 \|\|			∑eijqj	e i 0 j 0 - 최소 j (e ij)	최대 j(eij)	최대 j(e ij) - 최대 j(e i 0 j)
-20,0	-22,0	-25,0	-23,33	0	-20,0	0
-14,0	-23,0	-31,0	-22,67	+6,0	-14,0	+6,0
0	-24,0	-40,0	-21,33	+15,0	0	+20,0

옵션 E 3(확인 거부)는 위험이 E possible = 15⋅10 3 에 근접하는 경우에만 이 기준에 의해 허용됩니다. 그렇지 않으면 E1이 최적입니다. 많은 기술 및 경제 작업에서 허용 가능한 위험은 훨씬 낮으며 일반적으로 총 비용의 작은 비율에 불과합니다. 이러한 경우 다음과 같은 경우 특히 가치가 있습니다. 부정확한 값확률 분포는 크게 영향을 받지 않습니다. 동시에 결정에 관계없이 사전에 허용 가능한 위험 E를 추가로 설정하는 것이 불가능한 것으로 판명되면 가능한 예상 위험 E의 계산이 도움이 될 수 있습니다. 그런 다음 그러한 위험이 정당한지 여부를 고려하는 것이 가능해집니다. 이러한 연구는 일반적으로 더 쉽습니다.

a = 41⋅10 3 및 a = 200⋅10 3에 대한 곱 기준을 적용한 결과는 다음과 같습니다.

ㅏ	\|\|eij + a\|\|			eir = ∏ j e ij	최대 i e ir
41	+21	+19	+16	6384	6384
	+27	+18	+10	4860
	+41	+17	+1	697
200	+180	+178	+175	5607
	+186	+177	+169	5563
	+200	+176	+160	5632	5632

조건 e ij > 0은 이 행렬에 적합하지 않습니다. 따라서 행렬의 요소에 (외부 임의성에 따라) 먼저 추가됩니다 a = 41⋅10 3 , 다음 a = 200⋅10 3 .

а = 41⋅10 3의 경우 변형 Е 1이 최적이고 а = 200⋅10 3의 경우 — 변형 Е 3이므로 а에 대한 최적 변형의 의존성이 분명합니다.

2인 제로섬 게임이 호출되며, 각 사람은 유한한 전략 세트를 가지고 있습니다. 매트릭스 게임의 규칙은 보수 매트릭스에 의해 결정되며, 그 요소는 첫 번째 플레이어의 보수이고 두 번째 플레이어의 손실이기도 합니다.

매트릭스 게임 적대적인 게임입니다. 첫 번째 플레이어는 게임 가격과 동일한 최대 보장(두 번째 플레이어의 행동에 의존하지 않음) 보수를 받습니다. 유사하게 두 번째 플레이어는 최소 보장 손실을 얻습니다.

아래에 전략 현재 상황에 따라 플레이어의 각 개인 이동에 대한 다양한 행동 선택을 결정하는 일련의 규칙(원칙)으로 이해됩니다.

이제 모든 것에 대해 순서대로 자세히 설명합니다.

보수 매트릭스, 순수 전략, 게임 가격

안에 매트릭스 게임 그 규칙이 결정된다 보수 매트릭스 .

첫 번째 플레이어와 두 번째 플레이어의 두 참가자가 있는 게임을 고려하십시오. 첫 번째 플레이어가 중순수한 전략, 그리고 두 번째 플레이어의 처분에 따라 - N순수한 전략. 게임을 고려하고 있기 때문에 이 게임에서 승패가 있는 것은 당연하다.

안에 결제 매트릭스 요소는 플레이어의 이득과 손실을 나타내는 숫자입니다. 승패는 포인트, 돈 또는 기타 단위로 표현할 수 있습니다.

보수 매트릭스를 만들어 봅시다:

첫 번째 플레이어가 선택하는 경우 나-th 순수 전략, 그리고 두 번째 플레이어 제이-번째 순수 전략인 경우 첫 번째 플레이어의 보수는 다음과 같습니다. ㅏij단위, 그리고 두 번째 플레이어의 손실도 ㅏij단위.

왜냐하면 ㅏij + (- ㅏ ij) = 0, 설명된 게임은 제로섬 매트릭스 게임입니다.

매트릭스 게임의 가장 간단한 예는 동전 던지기입니다. 게임의 규칙은 다음과 같습니다. 첫 번째와 두 번째 플레이어는 동전을 던지고 결과는 앞면 또는 뒷면입니다. 머리와 머리 또는 꼬리나 꼬리가 동시에 굴리면 첫 번째 플레이어가 한 유닛을 이기고 다른 경우에는 한 유닛을 잃습니다(두 번째 플레이어가 한 유닛을 얻음). 두 번째 플레이어는 동일한 두 가지 전략을 사용할 수 있습니다. 해당 보수 매트릭스는 다음과 같습니다.

게임 이론의 임무는 첫 번째 플레이어의 전략 선택을 결정하여 최대 평균 이득을 보장하고 두 번째 플레이어의 전략 선택을 결정하여 최대 평균 손실을 보장하는 것입니다.

매트릭스 게임에서 전략은 어떻게 선택되는가?

보수 매트릭스를 다시 살펴보겠습니다.

먼저 첫 번째 플레이어가 다음을 사용하는 경우의 보수를 결정합니다. 나순수한 전략. 첫 번째 플레이어가 사용하는 경우 나-번째 순수 전략인 경우 두 번째 플레이어가 그러한 순수 전략을 사용할 것이라고 가정하는 것이 논리적이며, 이로 인해 첫 번째 플레이어의 보상이 최소화됩니다. 차례로 첫 번째 플레이어는 그에게 최대 보상을 제공하는 순수한 전략을 사용합니다. 이러한 조건에 따라 첫 번째 플레이어의 보수는 다음과 같이 표시됩니다. V1 , 호출 최대 승리 또는 낮은 게임 가격 .

~에 이러한 값에 대해 첫 번째 플레이어는 다음과 같이 진행해야 합니다. 각 줄에서 최소 요소의 값을 쓰고 최대값을 선택합니다. 따라서 첫 번째 플레이어의 보수는 최소값 중 최대값이 됩니다. 따라서 이름 - maximin win. 이 요소의 줄 번호는 첫 번째 플레이어가 선택한 순수 전략의 번호입니다.

이제 그가 다음을 사용하는 경우 두 번째 플레이어의 손실을 결정합시다. 제이-번째 전략. 이 경우 첫 번째 플레이어는 두 번째 플레이어의 손실이 최대가 되는 자신의 순수한 전략을 사용합니다. 두 번째 플레이어는 손실이 최소화되는 순수한 전략을 선택해야 합니다. 우리가 다음과 같이 표시하는 두 번째 플레이어의 손실 V2 , 호출 최소 손실 또는 최고 게임 가격 .

~에 게임 가격에 대한 문제 해결 및 전략 결정 두 번째 플레이어에 대한 이러한 값을 결정하려면 다음과 같이 진행하십시오. 각 열에서 최대 요소의 값을 작성하고 최소값을 선택합니다. 따라서 두 번째 플레이어의 손실은 최대값 중 최소값이 됩니다. 따라서 이름 - minimax 이득. 이 요소의 열 번호는 두 번째 플레이어가 선택한 순수 전략의 번호가 됩니다. 두 번째 플레이어가 "minimax"를 사용하면 첫 번째 플레이어의 전략 선택에 관계없이 기껏해야 패배합니다. V2 단위.

예 1

행의 가장 작은 요소 중 가장 큰 것은 2입니다. 이것은 게임의 더 낮은 가격이며 첫 번째 행이 이에 해당하므로 첫 번째 플레이어의 최대 전략이 첫 번째입니다. 열의 가장 큰 요소 중 가장 작은 것은 5입니다. 이것은 게임의 상한 가격이고 두 번째 열은 이에 해당하므로 두 번째 플레이어의 미니맥스 전략은 두 번째입니다.

게임의 하한가와 상한가를 찾는 방법, 최대값과 최소값 전략을 배웠으니 이제 이러한 개념을 정식으로 지정하는 방법을 알아볼 차례입니다.

따라서 첫 번째 플레이어의 보장된 보상은 다음과 같습니다.

첫 번째 플레이어는 최소한의 보상을 최대로 제공하는 순수한 전략을 선택해야 합니다. 이 이득(maximin)은 다음과 같이 표시됩니다.

첫 번째 플레이어는 두 번째 플레이어의 손실이 최대가 되도록 순수한 전략을 사용합니다. 이 손실은 다음과 같이 정의됩니다.

두 번째 플레이어는 손실이 최소화되도록 순수한 전략을 선택해야 합니다. 이 손실(minimax)은 다음과 같이 표시됩니다.

같은 시리즈의 또 다른 예.

예 2지불 매트릭스가 있는 매트릭스 게임이 주어집니다.

첫 번째 플레이어의 최대 전략, 두 번째 플레이어의 최소 전략, 게임의 하한 및 상한 가격을 결정합니다.

해결책. 지불 행렬의 오른쪽에 행의 가장 작은 요소를 작성하고 최대 값을 표시하고 행렬의 맨 아래에서 열의 가장 큰 요소를 표시하고 최소값을 선택합니다.

행의 가장 작은 요소 중 가장 큰 것은 3이고 이것은 게임의 더 낮은 가격이고 두 번째 행은 그에 해당하므로 첫 번째 플레이어의 최대 전략은 두 번째입니다. 열의 가장 큰 요소 중 가장 작은 값은 5입니다. 이것은 게임의 상위 가격이며 첫 번째 열은 이에 해당하므로 두 번째 플레이어의 미니맥스 전략이 첫 번째입니다.

매트릭스 게임의 안장점

게임의 상한가와 하한가가 같다면 매트릭스 게임은 안장점이 있는 것으로 간주한다. 반대의 경우도 마찬가지입니다. 매트릭스 게임에 안장점이 있는 경우 매트릭스 게임의 상한가와 하한가는 동일합니다. 해당 요소는 행에서 가장 작고 열에서 가장 크며 게임 가격과 같습니다.

따라서 if , then 은 첫 번째 플레이어의 최적 순수 전략이고 는 두 번째 플레이어의 최적 순수 전략입니다. 즉, 동일한 쌍의 전략으로 동일한 게임의 낮은 가격과 높은 가격이 달성됩니다.

이 경우 매트릭스 게임에는 순수한 전략의 솔루션이 있습니다. .

예 3지불 매트릭스가 있는 매트릭스 게임이 주어집니다.

게임의 낮은 가격은 게임의 높은 가격과 동일합니다. 따라서 게임의 가격은 5입니다. 즉 . 게임의 가격은 안장점의 가치와 같습니다. 첫 번째 플레이어의 최대화 전략은 두 번째 순수 전략이고 두 번째 플레이어의 미니맥스 전략은 세 번째 순수 전략입니다. 이 매트릭스 게임에는 순수한 전략 솔루션이 있습니다.

매트릭스 게임 문제를 직접 해결한 다음 솔루션 보기

예 4지불 매트릭스가 있는 매트릭스 게임이 주어집니다.

게임의 최저 가격과 최고 가격을 찾으십시오. 이 매트릭스 게임에는 안장점이 있습니까?

최적의 혼합 전략을 갖춘 매트릭스 게임

대부분의 경우 매트릭스 게임에는 안장점이 없으므로 해당 매트릭스 게임에는 순수한 전략 솔루션이 없습니다.

그러나 최적의 혼합 전략에 솔루션이 있습니다. 이를 찾으려면 경험을 바탕으로 어떤 전략이 더 바람직한지 추측할 수 있을 만큼 게임이 충분히 반복된다고 가정해야 합니다. 따라서 의사결정은 확률과 평균(기대)의 개념과 관련이 있습니다. 최종 솔루션에는 안장 지점의 아날로그(즉, 게임의 낮은 가격과 높은 가격의 평등)와 그에 해당하는 전략의 아날로그가 모두 있습니다.

따라서 첫 번째 플레이어가 최대 평균 이득을 얻고 두 번째 플레이어가 최소 평균 손실을 갖기 위해서는 순수한 전략이 특정 확률로 사용되어야 합니다.

첫 번째 플레이어가 확률이 있는 순수한 전략을 사용하는 경우 , 그런 다음 벡터 첫 번째 플레이어의 혼합 전략이라고합니다. 즉, 순수한 전략의 "혼합물"입니다. 이러한 확률의 합은 1과 같습니다.

두 번째 플레이어가 확률이 있는 순수한 전략을 사용하는 경우 , 그런 다음 벡터 두 번째 플레이어의 혼합 전략이라고합니다. 이러한 확률의 합은 1과 같습니다.

첫 번째 플레이어가 혼합 전략을 사용하는 경우 피, 두 번째 플레이어 - 혼합 전략 큐, 그러면 말이됩니다 기대값 첫 번째 플레이어가 이깁니다(두 번째 플레이어가 집니다). 이를 찾으려면 첫 번째 플레이어의 혼합 전략 벡터(1행 행렬이 됨), 보수 행렬 및 두 번째 플레이어의 혼합 전략 벡터(1열 행렬이 됨)를 곱해야 합니다.

실시예 5지불 매트릭스가 있는 매트릭스 게임이 주어집니다.

첫 번째 플레이어의 혼합 전략이 이고 두 번째 플레이어의 혼합 전략이 이면 첫 번째 플레이어의 이득(두 번째 플레이어의 손실)에 대한 수학적 기대치를 결정합니다.

해결책. 첫 번째 플레이어의 이득(두 번째 플레이어의 손실)에 대한 수학적 기대에 대한 공식에 따르면 첫 번째 플레이어의 혼합 전략 벡터, 보수 행렬 및 두 번째 플레이어의 혼합 전략 벡터의 곱과 같습니다.

첫 번째 플레이어는 게임이 충분한 횟수만큼 반복되는 경우 최대 평균 보상을 제공하는 혼합 전략이라고 합니다.

최적의 혼합 전략 두 번째 플레이어는 게임이 충분한 횟수만큼 반복되는 경우 최소 평균 손실을 제공하는 혼합 전략이라고 합니다.

순수 전략의 경우 최대값과 최소값의 표기법과 유사하게 최적의 혼합 전략은 다음과 같이 표시됩니다(수학적 기대치, 즉 첫 번째 플레이어의 이득과 두 번째 플레이어의 손실의 평균과 연결됨).

이 경우 함수에 대해 이자형 안장점이 있다 , 평등을 의미합니다.

최적의 혼합 전략과 안장점을 찾기 위해, 즉 혼합 전략으로 매트릭스 게임을 해결 , 행렬 게임을 선형 프로그래밍 문제, 즉 최적화 문제로 줄이고 해당 선형 프로그래밍 문제를 해결해야 합니다.

행렬 게임을 선형 프로그래밍 문제로 축소

혼합 전략에서 매트릭스 게임을 풀기 위해서는 직선을 구성해야 합니다. 선형 프로그래밍 문제그리고 이중 작업. 이중 문제에서는 제약 시스템의 변수 계수, 상수 항 및 목표 함수의 변수 계수를 저장하는 Augmented Matrix를 전치합니다. 이 경우 원래 문제의 목표 함수의 최소값은 이중 문제의 최대값과 연결됩니다.

직접 선형 계획법 문제의 목표 함수:

선형 계획법의 직접적인 문제에서 제약 시스템:

이중 문제의 목표 함수:

이중 문제의 제약 시스템:

직접 선형 프로그래밍 문제의 최적 계획을 나타냅니다.

이중 문제의 최적 계획은 다음과 같이 표시됩니다.

해당 최적 설계에 대한 선형 형식은 및 로 표시됩니다.

최적 계획의 해당 좌표의 합으로 찾아야 합니다.

이전 섹션의 정의와 최적 계획의 좌표에 따라 다음과 같은 첫 번째 및 두 번째 플레이어의 혼합 전략이 유효합니다.

수학자들은 그것을 증명했습니다. 게임 가격 다음과 같이 최적 계획의 선형 형태로 표현됩니다.

즉, 최적 계획의 좌표 합계의 역수입니다.

실무자 인 우리는 혼합 전략에서 매트릭스 게임을 해결하기 위해이 공식을 사용할 수 있습니다. 좋다 최적의 혼합 전략을 찾기 위한 공식 각각 첫 번째 및 두 번째 플레이어:

여기서 두 번째 요소는 벡터입니다. 최적의 혼합 전략은 이전 단락에서 이미 정의한 대로 벡터이기도 합니다. 따라서 숫자 (게임 가격)에 벡터 (최적 계획의 좌표 포함)를 곱하면 벡터도 얻습니다.

실시예 6지불 매트릭스가 있는 매트릭스 게임이 주어집니다.

게임 가격 찾기 V및 최적의 혼합 전략 및 .

해결책. 이 행렬 게임에 해당하는 선형 계획법 문제를 구성합니다.

우리는 직접적인 문제에 대한 해결책을 얻습니다.

찾은 좌표의 합으로 최적 계획의 선형 형태를 찾습니다.

게임 이론은 갈등 상황에서 최적의 행동에 대한 수학적 이론입니다. 연구 주제는 공식화 된 갈등 모델 또는 소위 "게임"입니다. 게임 이론의 주요 임무는 참가자의 행동에 대한 최적의 전략을 결정하는 것입니다. 게임 이론의 범위는 목표의 차이와 갈등 참여자 간의 특정 결정의 자유로 인해 발생하는 관리의 복잡한 행동 측면에 주로 집중되어 있습니다.

충돌 상황 또는 "충돌"은 시스템 요소 사이의 여러 목표의 존재와 이러한 목표를 달성하기 위해 노력하는 데 있어 관심과 행동 방식 또는 전략의 관련 차이로 정의됩니다. 갈등은 두 얼굴이 쫓을 때 대립으로 나뉩니다. 상반된 이해관계이해 관계가 다르지만 반대되지 않는 경우 적대적이지 않습니다. 후자의 경우 갈등은 두 사람 간의 투쟁의 형태가 아니라 시스템 목표의 비호환성 또는 자원 사용의 다른(반대) 성격의 형태로 불확실한 요인의 참여로 표현됩니다. 게임의 "자연", 경쟁 상황 등

운영 연구 문제에서 위에서 언급한 바와 같이 우리는 항상 최적의 솔루션을 찾고 있습니다. 특정 목표를 달성하기 위한 일련의 행동으로서 우리의 "작동"은 다음을 기반으로 수행됩니다. 이론적 방법최적화는 실제 조건과 관련하여 더 나은 의미에서 "상대" 역할을 하는 이러한 조건과의 "싸움"으로 볼 수 있습니다. 이러한 공식에서 우리는 "적의"피해를 희생시키면서 성공을 달성합니다.

그러나 운영 연구는 "적"의 행동 방식이 운영 중에 변경되지 않고 우리에게 어느 정도 알려진 경우에만 이러한 문제를 해결하기 위해 착수합니다. 전략의 선택은 일반적으로 원칙에 따라 결정됩니다. 보장된 결과: 상대방이 어떤 결정을 내리든 우리에게 약간의 이득이 보장되어야 합니다. 그러나 그러한 갈등 상황은 연구 대상이 아니며 당사자의 행동이 발생하는 배경으로 간주됩니다. 수술에 대한 연구는 한쪽 입장만을 취합니다.

수학적 게임 이론은 또한 그것이 실제 상대인지 또는 상대방이 자연에 의해 대표되는지에 관계없이 전략의 선택을 연구하지만, 여기에서 양측은 동등한 파트너로 행동합니다. 게임 이론은 대결의 역학에서 양측의 행동 동기를 고려하여 갈등의 내적 본질을 연구합니다.

게임이론에서 고려하는 형식적 게임은 매우 다양하다. 운영 연구와 유사하게 개발 및 다른 방법최적의 전략을 찾습니다. 그러나이 경우 방법과 실제 상황 간의 연결이 훨씬 더 가깝고 실제로 결정됩니다. 한편으로 게임의 추상적 체계는 상황의 모델과 유사하지만 다른 한편으로는 하나 또는 다른 형식적 방법을 적용하기 위한 자료입니다.

각 게임은 세 가지 주요 질문을 다룹니다.

이 게임에서 각 플레이어의 최적 행동은 무엇입니까?

최적성에 대한 그러한 이해가 실현 가능한가? 적절한 전략이 있습니까?

최적의 전략이 존재한다면 어떻게 찾습니까?

세 가지 질문 모두에 대한 긍정적인 해결의 결과, 문제를 해결하고 해당 모델을 구축하는 방법이 결정됩니다.

게임 이론은 매우 젊은 분야이며 이론적으로 개발된 방법과 모델의 재고는 운영 연구보다 훨씬 열등합니다. 동시에 게임 이론 문제의 상당한 복잡성도 영향을 미칩니다. 알려진 복잡한 모델 전체를 자세히 고려할 수 없으므로 가장 간단한 모델 중 일부만 지적합니다.

1) 제로섬 게임. 플레이어의 모든 전략은 한 쪽의 이득이 다른 쪽의 손실과 정확히 같을 때 결과로 이어집니다. 보수 매트릭스에는 모든 양의 요소가 포함되어 있으며 가능한 모든 전략 조합에 대해 각 측에 최상의 옵션을 권장할 수 있습니다. 이 유형게임은 적대적입니다.

2) 합이 0이 아닌 게임. 게임의 일반적인 모습. 당사자 간의 연결이 없고 당사자가 연합을 형성할 수 없으면 게임은 적대적이며 그렇지 않으면 반대 이해 관계가 없는 연합 게임입니다. 대부분의 경우 이러한 게임의 분석은 특히 복잡한 시스템의 경우 어렵고 전략 선택 권장 사항은 여러 요인에 따라 달라집니다.

자동 제어 시스템의 조건에서 중요한 유형은 연합 또는 협력 게임. 이러한 게임에는 참여자가 특정 계약 의무(상금의 일부를 파트너에게 양도, 정보 교환 등)를 이행하는 것이 포함됩니다. 이것은 유리한 상황에 처한 일방이 합의를 위반하려고 할 경우 그러한 연합의 안정성에 대한 문제를 제기합니다. 따라서 잠재적인 분리주의자를 처벌하기 위해 세 번째 통제 기관을 도입하는 옵션이 발생합니다. 연합의 이익을 줄이는 비용이 필요합니다. 분명히 게임은 훨씬 더 복잡해질 것이지만 그러한 작업의 실질적인 가치는 의심의 여지가 없습니다.

목차 1 일반 정보 2 1.1 게임. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2 이동. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.3 전략. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.4 매트릭스 게임. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2 추적점. 순수 전략 7 2.1 예. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 예 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 예 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 3 혼합 전략 9 3.1 게임 2×2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 3.1.1 예. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 예 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 예 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 3.1.2 기하학적 해석. . . . . . . . . . . . . . . . . . . . 12 3.2 게임 2×n 및 m×2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 예 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1 1. 게임 이론의 일반 정보 1.1. 게임 게임 이론은 갈등 상황에 대한 수학적 이론입니다. 서로 다른 목표를 추구하는 둘 이상의 당사자의 이익이 충돌하는 상황. 게임은 갈등 상황, 규제 특정 규칙, 이는 참가자의 행동에 대한 가능한 옵션, 게임의 정량적 결과 또는 이 일련의 이동이 상대방의 행동에 대한 각 측의 정보의 양으로 이어지는 보상(승리, 손실)을 나타냅니다. 페어 게임 - 두 당사자(두 명의 플레이어)만 참여하는 게임입니다. 제로섬 페어 게임 - 지불 금액이 0인 페어 게임, 즉 한 플레이어의 손실은 다른 플레이어의 이득과 같습니다. 보수 함수의 가치에 대한 각 플레이어의 태도에 따라 짝을 이룬 게임은 다음과 같이 세분화됩니다. 한 플레이어의 손실은 다른 플레이어의 이득과 같습니다. 비대항적 게임은 플레이어가 서로 다른 목표를 추구하지만 정반대 목표는 아닌 페어 게임입니다. 2 1.2. 이동 이동 - 게임 규칙에서 제공하는 작업 중 하나 선택, 이 선택의 구현 이동에는 두 가지 유형이 있습니다. 개인 이동 - + 게임 규칙에서 제공하는 작업 중 하나를 의식적으로 선택 + 이 선택의 구현 임의 이동 - 임의 이동은 플레이어의 결정이 아니라 일부 임의 선택 메커니즘에 의해 수행되는 여러 가능성 중에서 선택하는 것입니다. 아래에서는 개인 동작만 포함하는 제로섬 페어 게임을 고려합니다. 각 측은 상대방의 행동에 대한 정보가 없습니다. 3 1.3. 전략 플레이어의 전략은 게임 중에 전개된 상황에 따라 이 플레이어의 각 개인 이동에 대한 행동 선택을 결정하는 일련의 규칙입니다. 가능한 전략의 수에 따라 게임은 유한과 무한으로 나뉩니다. 끝없는 게임플레이어 중 적어도 한 명이 무한한 수의 전략을 가지고 있는 게임입니다. 유한 게임은 각 플레이어가 한정된 수의 전략만 가지고 있는 게임입니다. 플레이어의 연속 이동 수에 따라 게임을 한 이동 및 다중 이동 또는 위치로 구분할 수 있습니다. + 원 무브 게임에서 각 플레이어는 가능한 옵션 중에서 하나만 선택한 다음 게임의 결과를 설정합니다. + 다중 이동 또는 위치 게임은 일련의 연속 단계를 나타내는 시간이 지남에 따라 발전하며 각 단계는 플레이어 중 한 명이 이동하고 해당 상황이 변경된 후에 발생합니다. 일회성 게임에서 각 플레이어는 가능한 옵션 중에서 하나만 선택한 다음 게임의 결과를 설정합니다. 플레이어의 최적 전략은 게임이 여러 번 반복될 때 주어진 플레이어에게 가능한 최대 평균 이득(또는 동등하게 가능한 최소 평균 손실)을 제공하는 전략입니다. 게임 이론에서 모든 권장 사항은 플레이어의 합리적인 행동에 대한 가정을 기반으로 합니다. 모든 갈등 상황에서 불가피한 플레이어의 오산과 실수, 게임 이론의 흥분과 위험 요소는 고려되지 않습니다. 4 1.4. 매트릭스 게임 매트릭스 게임은 일회성 유한 제로섬 게임입니다. 게임 모델상대방이 정반대의 목표를 달성하기 위해 유한한 숫자에서 하나를 선택(이동)하는 충돌 상황 가능한 방법선택한 행동 방법(전략)에 따라 달성한 결과가 결정됩니다. 예를 들어 보겠습니다. 두 명의 플레이어 A와 B가 있고 그중 한 명은 선택할 수 있습니다. i 번째 전략 m개의 가능한 전략 A1 , A2 , ...Am 중에서 두 번째 사람은 가능한 전략 B1 , B2 , ...Bm 중에서 j번째 전략을 선택합니다. 결과적으로 첫 번째 플레이어는 aij를 이기고 두 번째 플레이어는 이 값을 잃습니다. 숫자 aij 에서 행렬   a11 a11 · · · a1n  a21 a22 · · · a2n    A = (aij) = ..  .. .. ..   . . . .  am1 am2···amn 행렬 A = (aij), i = 1, m, j = 1, n을 m×n 게임의 payoff 행렬 또는 행렬이라고 한다. 이 매트릭스에서 행은 항상 이기는(최대화하는) 플레이어 A, 즉 자신의 보수를 최대화하려는 플레이어의 전략에 대한 것입니다. 열은 지는 플레이어 B, 즉 효율성 기준을 최소화하려는 플레이어의 전략을 위해 예약되어 있습니다. 게임 정규화는 Game in에 의해 위치 게임을 매트릭스 게임으로 줄이는 과정입니다. 정규형- 매트릭스 게임으로 축소된 위치 게임 위치 다중 이동 게임은 상대가 목표를 달성하기 위해 가능한 행동의 유한한 수 중에서 한 가지 선택(움직임)을 일관되게 선택(이동)하는 충돌 상황의 게임 이론적 모델임을 상기하십시오. 이 상황의 모든 발전 단계. 게임 솔루션 - 두 플레이어의 최적의 전략을 찾고 게임의 가치 결정 게임의 가치는 플레이어의 기대 이득(손실)입니다. 게임의 해결책은 순수 전략(플레이어가 하나의 단일 전략을 따라야 하는 경우) 또는 혼합 전략(플레이어가 특정 확률로 둘 이상의 순수 전략을 사용해야 하는 경우)에서 찾을 수 있습니다. 이 경우 후자를 활성이라고 합니다. 5 한 플레이어의 혼합 전략은 벡터이며 각 구성 요소는 해당 순수 전략 플레이어의 사용 빈도를 나타냅니다. Maximin 또는 더 낮은 게임 가격 - 숫자 α = 최대 최소 aij i j Maximin 전략(문자열) - 플레이어가 자신의 최소 보상을 최대화하기 위해 선택한 전략. 분명히 가장 신중한 맥시민 전략을 선택할 때 플레이어 A는 (상대방의 행동에 관계없이) 최소한 α의 보상을 보장합니다. Maximin 또는 게임의 상한 비용 - 숫자 β = min max aij j i Minimax 전략(열) - 최대 손실을 최소화하기 위해 플레이어가 선택한 전략. 분명히 가장 신중한 미니맥스 전략을 선택할 때 플레이어 B는 어떤 상황에서도 플레이어 A가 β보다 더 많이 이기도록 허용하지 않습니다. 게임의 낮은 가격은 항상 게임의 높은 가격을 초과하지 않습니다 α = 최대 최소 aij 6 최소 최대 aij = β i j j i 정리 1(행렬 게임 이론의 주요 정리). 모든 유한 게임에는 아마도 혼합 전략 영역에서 적어도 하나의 솔루션이 있습니다. 6 2. 안장점이 있는 게임. 순수 전략의 해법 안장점이 있는 게임은 α = max min aij = min max aij = β i j j i인 게임입니다. 일반적인 의미게임의 하한 및 상한 가격 α=β=ν 2.1. 예제 예제 1 행렬   8 4 7 A= 6 5 9  7 7 8에 의해 주어진 게임의 순수 전략에서 솔루션을 찾습니다. 솔루션: 게임의 상한가와 하한을 결정합니다. 이렇게 하려면 i번째 행 αi = min aij j에서 숫자 aij의 최소값과 숫자 aij의 최대값을 찾습니다. j번째 열βj = max aij i 오른쪽의 payoff 행렬 옆에 추가 열로 숫자 αi(행의 최소값)를 씁니다. 행렬 아래에 숫자 βi(열 최대값)를 추가 행으로 씁니다. αi 8 4 7 4 6 5 9 5 7 7 8 7 βj 8 7 9 7 숫자의 최대값을 찾습니다. 숫자의 최소값 βj β = min βj = 7 j α = β - 게임에 안장점이 있습니다. 플레이어에게 최적의 전략은 전략 A3이고, 플레이어 B에게는 전략 B2, 정가 게임 ν = 7 예 2 보수 행렬이 주어진다:   2 2 1 1 2  0 1 1 1 1  A=  1 1 1 1 2   1 2 1 1 2 순수한 전략. 솔루션: 2 2 1 1 2 1 0 1 1 1 1 0 1 1 1 1 2 1 1 2 1 1 2 1 βj 2 2 1 1 2 α = β = 1. 이 게임에는 6개의 안장이 있습니다. 최적의 전략은 다음과 같습니다. A1 및 B3 또는 B4 A3 및 B3 또는 B4 A4 및 B3 또는 B4 8 3. 혼합 전략의 게임 솔루션 α ̸= β에 대해. 전략을 선택할 때 두 플레이어 모두 상대방의 선택에 대한 정보가 없는 경우 게임은 혼합 전략으로 솔루션을 제공합니다. SA = (p1 , p2 , ..., pm)은 전략 A1 , A2 , ..., Am이 확률 ∑ m p1 , p2 , ..., pm , pi와 함께 적용되는 플레이어 A의 혼합 전략입니다. = 1, pi > 0, i = 1, m i=1 SB = (q1 , q2 , ..., qn)은 B1 , B2 , ..., Bm 전략이 확률로 적용되는 플레이어 B의 혼합 전략입니다. ∑ n q1 , q2 , ..., qm , qi = 1, qi > 0, i = 1, n i=1 = aij p∗i qi∗ j=1 i=1 2 × n, m × 2). 플레이어 중 한 명이 최적의 혼합 전략을 사용하는 경우 두 번째 플레이어가 최적의 전략에 포함된 전략(순수 전략 포함)을 사용할 확률에 관계없이 그의 보수는 게임 가격 ν와 같습니다. 9 3.1. 2 × 2 게임 행렬이 있는 2 × 2 게임을 고려하십시오. 최적 전략 SA∗ 및 SB∗ 를 찾아봅시다. 먼저 전략 SA∗ = (p∗1 , p∗2)를 정의합니다. 정리에 따르면 A가 전략 ν를 고수하면 B의 행동 과정에 관계없이 보수는 게임 가격 ν와 동일하게 유지됩니다. 따라서 당사자 A가 최적의 전략 SA* = (p∗1 , p∗2)을 고수한다면 당사자 B는 보수를 변경하지 않고 자신의 전략을 적용할 수 있습니다. 그런 다음 플레이어 B가 순수한 전략 B1 또는 B2를 적용하면 플레이어는 게임 가격과 동일한 평균 보상을 받게 됩니다. a11 p∗1 + a21 p∗2 = ν ← 전략 B1의 경우 ∗2 = 1: p∗1 = a2 2−a2 1 a11 +a22 −a12 −a21 p∗2 = a1 1−a1 2 a11 +a22 −a12 −a21 게임 값: a22 a11 − a12 a21 ν= a11 + a22 − a12 − a21 유사하게 플레이어 B의 최적 전략은 다음과 같습니다. SB∗ = (q1∗ , q2∗). q1∗ + q2∗ = 1: q1∗ = a2 2 − a1 2 a11 + a22 − a12 − a21 q2∗ = a1 1 − a2 1 a11 + a22 − a12 − a21 3임을 고려합니다. 1.1. 예제 예제 3 행렬 () −1 1 A= 1 −1 10을 사용하여 게임에 대한 솔루션 찾기 솔루션: α= -1, β = 1, α ̸= β이므로 게임에는 안장점이 없습니다. 우리는 혼합 전략에서 해결책을 찾고 있습니다. p∗ 및 q ∗에 대한 공식을 사용하여 p∗1 = p∗2 = 0.5 및 q1∗ = q2∗ = 0.5, ν = 0을 얻습니다. 따라서 SA∗ = (0.5, 0.5) SB∗ = (0.5, 0.5) 예 4 행렬 () 2 5 A= 6 4로 게임에 대한 해를 찾습니다. 해법: α= 4, β = 5, α ̸= β이므로 게임에는 안장점이 없습니다. 우리는 혼합 전략에서 해결책을 찾고 있습니다. p*와 q의 공식으로 0.8) 11 3.1.2. 기하학적 해석 2×2 게임은 간단한 기하학적 해석을 할 수 있습니다. 가로축의 단위 섹션을 가져 와서 각 지점에 혼합 전략을 연결합니다. S = (p1 , p2) = (p1 , 1 − p1) p2 , 전략 A2 - 왼쪽 끝까지의 거리. .y .I .I I .B1′ .N .B1 .a21 .a11 .I I .I .* .x .P2 .SA* .P1* 섹션의 오른쪽 끝(x = 1) - 전략 A2 끝에서 섹션의 가로축에 대한 두 개의 수직선이 복원됩니다. 축 I - I - 전략 A1로 보수가 연기됨 축 II - II - 전략 A2로 보수가 연기됨 플레이어 B가 전략 B1을 적용하도록 합니다. 축 I - I 및 II - II에 각각 세로 좌표가 a11 및 a21인 점을 제공합니다. 이 점들을 지나 B1 − B1′ 선을 그립니다. 혼합 전략 SA = (p1 , p2)의 경우 플레이어의 보수는 p2: p1에 대해 세그먼트를 나누는 x축의 점 SA에 해당하는 선 B1 − B1′의 점 N에 의해 결정됩니다. 분명히, 전략 B2에 대한 보수를 결정하는 직선 B2 − B2'는 정확히 같은 방식으로 구성될 수 있습니다. 12 .y .I .I I .B2 .N .a21 .B2′ a . 22 .I I .I .* .x .P2 .SA* .P1* 최적의 전략 SA*를 찾는 것이 필요합니다. 플레이어 A의 최소 보수(플레이어 B의 최악의 행동 포함)가 최대가 되도록 합니다. 이를 위해 플레이어 A의 보수에 대한 하한은 전략 B1, B2, 즉 파선 B1 N B2' ;. 이 경계에는 혼합 전략에 대한 플레이어 A의 최소 보수, 이 보수가 최대에 도달하고 게임의 솔루션과 가격을 결정하는 지점 N이 있습니다. .y .I .I I .B2 .B1′ .N .B1 .B2′ .I I .I .∗ .x .P2 . A* S . 1∗ P 점 N의 세로 좌표는 게임 ν의 값일 뿐이고 가로 좌표는 ∗2 이며 세그먼트의 오른쪽 끝까지의 거리는 ∗1 입니다. 점 SA*에서 세그먼트 끝까지의 거리는 플레이어 A의 최적 혼합 전략의 전략 A2 및 A1의 확률 ∗2 및 ∗1과 같습니다. 이 경우 게임의 솔루션은 다음과 같이 결정됩니다. 전략 B1과 B2의 교차점 . 아래는 플레이어의 최적 전략이 순수 전략 A2인 경우를 보여줍니다. 여기서 전략 A2(상대의 모든 전략에 대해)는 전략 A1, 13 .y .y .I .I I .I I. I .B2′보다 수익성이 더 높습니다. 1′ B .B1′ B . 2 .B2' 나. 2 .B1 .v = a21 .B1 .v = a21 I. I I. I .I . .x .I . .엑스 2* P . A* S = A2 . 2* P . A* S = A2 오른쪽은 플레이어 B가 고의적으로 이익을 내지 못하는 전략을 가지고 있는 경우입니다. 기하학적 해석을 통해 게임의 낮은 가격 α와 높은 가격 β .y .I .I I .B2도 시각화할 수 있습니다. .B1′ .N .B1 .B2′ .β = a21 .α = a22 .I I .I .∗ .x .P2 . A* S . 1* P 동일한 그래프에서 플레이어 B의 최적 전략에 대한 기하학적 해석도 제공할 수 있습니다. 최적의 혼합 전략 SB∗ = (q1∗ , q2∗)의 전략 B1의 점유율 q1∗은 세그먼트 길이의 합에 대한 세그먼트 KB2의 길이의 비율과 같다는 것을 쉽게 알 수 있습니다. I − I 축의 KB1 및 KB2: .y .I .I I .B2 .B1 .N .K .L .B1 .B2 .I I .I .∗ .x .P2 . A* S . 1* P 14 KB2 q1* = KB2 + KB1 또는 LB2′ q1* = LB2′ + LB1′ 보수의 하한의 최대값은 상한의 최소값을 고려합니다. .y .I .I I .A2 .A′1 .N .A1 .A′2 .I I .I . .x .q2* . B* S .q1* 15 3.2. 2 × n 및 m × 2 게임 2 × n 및 m × 2 게임의 솔루션은 다음 정리를 기반으로 합니다. 정리 3. 모든 유한 게임 m × n에는 각 측면의 활성 전략 수가 m과 n 중 가장 작은 값을 초과하지 않는 솔루션이 있습니다. 이 정리에 따르면 2 × n 게임에는 항상 각 플레이어가 최대 2개의 활성 전략을 갖는 솔루션이 있습니다. 이러한 전략을 찾기만 하면 2×n 게임이 2×2 게임으로 바뀌어 기본적으로 해결된다. 활성 전략 찾기는 그래픽으로 수행할 수 있습니다. 1) 그래픽 해석이 구축됩니다. 2) 게인의 하한이 결정됩니다. 3) 두 번째 플레이어의 두 가지 전략은 최대 세로 좌표가 있는 지점에서 교차하는 두 개의 선에 해당하는 하위 지불 경계에서 구별됩니다(두 개 이상의 선이 교차하는 경우 임의의 쌍을 취함). 이 전략은 활성 상태입니다. 플레이어 B의 전략. 따라서 2 × n 게임은 2 × 2 게임으로 축소됩니다. m × 2 게임도 해결될 수 있습니다. 최소값을 추구합니다. 예 5 게임에 대한 솔루션 찾기 () 7 9 8 A= 10 6 9 솔루션: 기하학적 방법을 사용하여 활성 전략을 선택합니다. 라인 B1 - B1' , B2 - B2' 및 B3 - B3'는 전략 B1 , B2 , B3 에 해당합니다. 파선 B1 N B2는 플레이어 보수의 하한선입니다. 게임에는 솔루션 S∗A = (23 , 31)이 있습니다. S*B = (0.5; 0.5; 0); v = 8.16 .y .I .I I . 1′ BB . 2 .B3′ .N .B3 .B1 .B2′ .I I .I . .엑스 2* P . A* S . 1* P 17 인덱스 게임, 2 이동, 3 2 × 2, 10 개인, 3 2 × 2, 9 랜덤, 3 기하학, 12 순수 게임 값, 7 예, 10 2 × n, 9, 16 m × 2, 9 , 16 무한, 4 정규형, 5 유한, 4 다방향, 4 단방향, 4 행렬, 5 이중, 2 제로섬, 2 길항근, 2 비길항근, 2 솔루션, 5 혼합 전략, 5, 9 순수한 전략 .5 게임 이론, 2 18