게임 이론 솔루션의 예. 매트릭스 게임의 안장점

15.08.2019

목차 1 일반 정보 2 1.1 게임. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2 이동. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.3 전략. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.4 매트릭스 게임. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2 트레일 포인트. 순수 전략 7 2.1 예. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 예시 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 예시 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 3 혼합 전략 9 3.1 게임 2×2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 3.1.1 예시. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 예시 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 예시 4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 3.1.2 기하학적 해석. . . . . . . . . . . . . . . . . . . . 12 3.2 게임 2×n 및 m×2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 예시 5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1 1. 게임이론의 일반정보 1.1. 게임 게임 이론은 갈등 상황에 대한 수학적 이론입니다. 서로 다른 목표를 추구하는 둘 이상의 당사자의 이해관계가 충돌하는 상황. 게임은 갈등 상황, 다음을 나타내야 하는 특정 규칙에 의해 규제됩니다: 참가자의 행동에 대한 가능한 옵션 게임의 정량적 결과 또는 주어진 이동 세트로 이어지는 지불(승리, 패배); 상대방의 행동. 복식 게임은 두 명의 파티(두 명의 선수)만이 참가하는 게임입니다. 제로섬 짝 게임은 지불 합계가 0인 짝 게임입니다. 한 플레이어의 손실은 두 번째 플레이어의 이득과 동일합니다. 지불 기능의 가치에 대한 각 플레이어의 태도에 따라 쌍을 이루는 게임은 다음과 같이 세분화됩니다. 제로섬 쌍 게임(적대) - 지불 금액이 0인 쌍 게임, 즉 한 플레이어의 손실은 두 번째 플레이어의 이득과 동일합니다. 비적대적 게임 - 복식 게임플레이어는 서로 다르지만 직접적으로 반대되는 목표는 아닙니다. 2 1.2. 이동 이동 - 게임 규칙에 따라 제공되는 작업 중 하나 선택, 이 선택의 구현 이동에는 두 가지 유형이 있습니다: 개인 이동 - + 의식적인 선택게임 규칙에 따라 제공되는 작업 중 하나 + 이 선택의 구현 무작위 이동 - 무작위 이동은 플레이어의 결정이 아닌 임의 선택 메커니즘에 의해 수행되는 여러 가능성 중에서 선택하는 것입니다. 아래에서는 개인적인 움직임만 포함하는 제로섬 짝 게임을 고려합니다. 양측에는 상대방의 행동에 대한 정보가 부족합니다. 3 1.3. 전략 플레이어의 전략은 게임 중에 발생하는 상황에 따라 이 플레이어의 각 개인 움직임에 대한 행동 선택을 결정하는 일련의 규칙입니다. 가능한 전략의 수에 따라 게임은 유한과 무한으로 구분됩니다. 끝없는 게임- 플레이어 중 적어도 한 명이 무한한 전략을 가지고 있는 게임입니다. 유한 게임은 각 플레이어가 유한한 수의 전략만 가지고 있는 게임입니다. 모든 플레이어의 연속 이동 횟수에 따라 게임이 단일 이동, 다중 이동 또는 위치 지정으로 구분됩니다. + 1턴 게임에서는 각 플레이어가 가능한 옵션 중에서 하나만 선택하고 게임의 결과를 결정합니다. + 다중 이동 또는 위치 게임은 시간이 지남에 따라 개발되어 일련의 연속 단계를 나타내며 각 단계는 플레이어 중 한 사람의 이동과 이에 따른 상황 변화 후에 발생합니다. 1턴 게임에서는 각 플레이어가 다음 중에서 하나만 선택할 수 있습니다. 가능한 옵션그리고 게임의 결과를 결정합니다. 플레이어의 최적 전략은 게임이 여러 번 반복될 때 해당 플레이어에게 가능한 최대 평균 승리(또는 동일한 의미로 최소 평균 손실)를 제공하는 전략입니다. 게임 이론에서 모든 권장 사항은 플레이어의 합리적인 행동을 가정하여 이루어집니다. 모든 갈등 상황에서 불가피한 플레이어의 오산과 실수, 흥분과 위험 요소는 게임 이론에서 고려되지 않습니다. 4 1.4. 매트릭스 게임 매트릭스 게임은 1회 이동 유한 제로섬 게임입니다. 매트릭스 게임은 이론적인 게임입니다. 게임 모델정반대의 목표를 달성하기 위해 상대방이 유한한 수 중에서 하나를 선택(이동)하는 갈등 상황 가능한 방법행동 선택한 행동 방법(전략)에 따라 달성된 결과가 결정됩니다. 예를 살펴보겠습니다. 두 명의 플레이어 A와 B가 있다고 가정합니다. 그 중 한 명은 m개의 가능한 전략 A1, A2, ...Am 중에서 i번째 전략을 선택할 수 있고 두 번째는 선택합니다. j번째 전략가능한 전략 B1, B2, ...Bm에서. 결과적으로 첫 번째 플레이어는 aij 값을 획득하고 두 번째 플레이어는 이 값을 잃습니다. 숫자 aij로부터 우리는 행렬   a11 a11 · · · a1n  a21 a22 · · · a2n    A = (aij) =  .. .. ..   를 생성합니다. . . .  am1 am2 · · · amn 행렬 A = (aij), i = 1, m, j = 1, n을 보수 행렬 또는 m × n 게임 행렬이라고 합니다. 이 행렬에서 행은 항상 승리한(최대화하는) 플레이어 A, 즉 자신의 승리를 극대화하기 위해 노력하는 플레이어의 전략에 대한 것입니다. 패배한 플레이어 B, 즉 효율성 기준을 최소화하려고 노력하는 플레이어의 전략에 대해 열이 할당됩니다. 게임 정규화는 위치 게임을 게임에 의해 매트릭스 게임으로 줄이는 과정입니다. 정상적인 형태- 매트릭스 게임으로 축소된 위치 게임 위치 다중 이동 게임은 상대방이 목표를 달성하기 위해 순차적으로 하나의 선택(이동)을 내리는 갈등 상황에 대한 게임 이론 모델이라는 점을 기억합시다. 이 상황이 전개되는 모든 단계에서 가능한 행동 방침은 유한합니다. 게임의 해결책은 두 플레이어의 최적의 전략을 찾아 게임의 가격을 결정하는 것이며, 게임의 가격은 플레이어의 예상 이익(손실)입니다. 게임에 대한 해결책은 순수 전략(플레이어가 하나의 단일 전략을 따라야 하는 경우) 또는 혼합 전략(플레이어가 특정 확률로 두 개 이상의 순수 전략을 사용해야 하는 경우)에서 찾을 수 있습니다. 이 경우 후자를 활성이라고 합니다. 5 한 플레이어의 혼합 전략은 벡터이며, 각 구성 요소는 해당 순수 전략 플레이어의 사용 빈도를 나타냅니다. 게임의 최대값 또는 낮은 가격 - 숫자 α = 최대 min aij i j 최대값 전략(라인) - 플레이어가 최소 상금을 최대화하기 위해 선택한 전략입니다. 분명히 가장 신중한 최대화 전략을 선택할 때 플레이어 A는 (상대방의 행동에 관계없이) 최소 α의 보상을 보장받습니다. Maximin 또는 게임의 최고 가격 - 숫자 β = min max aij j i Minimax 전략(열) - 플레이어가 최대 손실을 최소화하기 위해 선택한 전략입니다. 분명히 가장 신중한 미니맥스 전략을 선택할 때 플레이어 B는 어떤 상황에서도 플레이어 A가 β보다 더 많은 승리를 거두는 것을 허용하지 않습니다. 게임의 낮은 가격은 항상 게임의 높은 가격을 초과하지 않습니다. α = max min aij 6 min max aij = β i j j i 정리 1(매트릭스 게임 이론의 주요 정리) 모든 유한 게임에는 혼합 전략 영역에서 적어도 하나의 솔루션이 있습니다. 6 2. 안장 포인트가 있는 게임. 순수 전략의 해법 안장점이 있는 게임은 다음과 같은 게임입니다. α = max min aij = min max aij = β i j j i 안장점이 있는 게임의 경우, 해결책을 찾는 것은 최적의 최대화 및 최소최대화 전략을 선택하는 것으로 구성됩니다. 게임의 순수 비용 - 일반적인 의미게임의 낮은 가격과 높은 가격 α=β=ν 2.1. 예 예 1 행렬   8 4 7 A= 6 5 9  7 7 8 해결책: 게임의 상한 가격과 하한 가격을 결정하는 게임의 순수 전략에서 해결책을 찾습니다. 이를 위해 우리는 숫자 aij의 최소값을 찾습니다. i번째 줄αi = min aij j 및 j번째 열에 있는 숫자 aij의 최대값 βj = max aij i 추가 열 형태로 오른쪽 결제 매트릭스 옆에 숫자 αi(행 최소값)를 작성하겠습니다. 추가 라인 형태로 행렬 아래에 숫자 βi(열 최대값)를 씁니다. αi 8 4 7 4 6 5 9 5 7 7 8 7 βj 8 7 9 7 숫자의 최대값 αi α = max αi = 7 i 및 최소 숫자 βj β = min βj = 7 j α = β - 게임에는 안장 지점이 있습니다. 플레이어의 최적 전략은 전략 A3이고, 플레이어 B의 최적 전략은 전략 B2입니다. 게임의 순 비용 ν = 7 예시 2 주어진 결제 매트릭스 :   2 2 1 1 2  0 1 1 1 1  A=  1 1 1 1 2   1 2 1 1 2 순수 전략으로 게임의 해결책을 찾습니다. 풀이: 2 2 1 1 2 1 0 1 1 1 1 0 1 1 1 1 2 1 1 2 1 1 2 1 βj 2 2 1 1 2 α = β = 1. 게임에는 6개의 안장 점이 있습니다. 최적의 전략은 다음과 같습니다: A1 및 B3 또는 B4 A3 및 B3 또는 B4 A4 및 B3 또는 B4 8 3. 혼합 전략의 게임 솔루션 α = β일 때. 전략을 선택할 때 두 플레이어 모두 상대방의 선택에 대한 정보가 없는 경우 게임에는 혼합 전략의 솔루션이 있습니다. SA = (p1, p2, ..., pm) - 플레이어 A의 혼합 전략, 전략 A1, A2, ..., Am에 확률 ∑ m p1, p2, ..., pm, pi = 1, pi > 0, i = 1, m i=1 SB = (q1, q2, ..., qn) - 플레이어 B의 혼합 전략으로, 전략 B1, B2, ..., Bm에 확률 ∑가 적용됩니다. n q1, q2 , ..., qm , qi = 1, qi > 0, i = 1, n i=1 If: SA*가 플레이어 A의 최적 전략이고, SB*가 플레이어 B의 최적 전략이면, 게임 비용은 ∑ n ∑ m ν = aij · p*i · qi* j=1 i=1 다음 정리는 2 × 2, 2 × n, m × 게임에 대한 해를 구하는 방법에 대한 질문에 답합니다. 2 정리 2(2 × 2, 2 × n, m × 2 게임에 대한 해를 찾는 방법). 플레이어 중 한 명이 최적의 혼합 전략을 사용하는 경우 두 번째 플레이어가 최적의 혼합 전략(순수 전략 포함)에 포함된 전략을 사용할 확률에 관계없이 그의 보상은 게임 비용 ν와 같습니다. 9 3.1. 게임 2 × 2 다음 행렬을 사용하는 2 × 2 게임을 생각해 보십시오. () a11 a21 a21 a22 게임에 순수 전략에는 해결책이 없습니다. 최적의 전략 SA*와 SB*를 찾아보겠습니다. 먼저, SA* = (p*1, p*2) 전략을 정의합니다. 정리에 따르면, 당사자 A가 전략 ν를 고수한다면 당사자 B의 행동 과정에 관계없이 보상은 ν 플레이 비용과 동일하게 유지됩니다. 결과적으로, A 측이 최적의 전략 SA* = (p*1, p*2)을 고수한다면 B 측은 보상을 변경하지 않고 모든 전략을 적용할 수 있습니다. 그런 다음 플레이어 B가 순수 전략 B1 또는 B2를 사용하면 플레이어는 게임 비용과 동일한 평균 보상을 받게 됩니다. a11 p*1 + a21 p*2 = ν ← 전략 B1의 경우 a12 p*1 + a22 p* 2 = ν ← 전략 B2의 경우 p*1 + p*2 = 1이라는 점을 고려하면: p*1 = a2 2−a2 1 a11 +a22 −a12 −a21 p*2 = a1 1−a1 2 a11 +a22 −a12 −a21 게임 가격: a22 a11 − a12 a21 ν= a11 + a22 − a12 − a21 플레이어 B의 최적 전략은 유사하게 발견됩니다: SB* = (q1* , q2*). q1* + q2* = 1이라는 점을 고려하면: q1* = a2 2−a1 2 a11 +a22 −a12 −a21 q2* = a1 1−a2 1 a11 +a22 −a12 −a21 3. 1.1. 예 예 3 행렬 () −1 1 A= 1 −1 10 을 사용하여 게임에 대한 해를 구합니다. 해법: α= -1, β = 1, α ̸= β이므로 게임에 새들 포인트가 없습니다. 우리는 혼합 전략에서 해결책을 찾고 있습니다. p*와 q*에 대한 공식을 사용하여 p*1 = p*2 = 0.5 및 q1* = q2* = 0.5, ν = 0을 얻습니다. 따라서 SA* = (0.5, 0.5) SB* = (0.5, 0.5 ) 예 4 행렬 () 2 5 A= 6 4로 게임에 대한 해를 구합니다. 해법: α= 4, β = 5, α ̸= β이므로 게임에 새들 포인트가 없습니다. 우리는 혼합 전략에서 해결책을 찾고 있습니다. p*와 q*에 대한 공식을 사용하여 p*1 = 0.4, p*2 = 0.6 및 q1* = 0.2를 얻습니다. q2* = 0.8, ν = 4.4 따라서 SA* = (0.4, 0.6) SB* = ( 0.2, 0.8) 11 3.1.2. 기하학적 해석 2×2 게임은 간단한 기하학적 해석을 제공할 수 있습니다. 가로축의 단일 섹션을 취하고 각 지점을 일부 혼합 전략 S = (p1, p2) = (p1, 1 − p1)과 연관시키고 전략 A1의 확률 p1은 다음과 같습니다. SA가 섹션의 오른쪽 끝을 가리키고 확률 p2, 전략 A2 - 왼쪽 끝까지의 거리입니다. .y .I .I I .B1′ .N .B1 .a21 .a11 .I I .I .* .x .P2 .SA* .P1* 특히 섹션의 왼쪽 끝(가로좌표 = 0인 지점)이 해당됩니다. 전략 A1, 세그먼트 오른쪽 끝(x = 1) - 전략 A2 세그먼트 끝에서 x축에 수직인 두 개의 수직선이 복원됩니다: 축 I − I - 전략 A1에 대한 보상이 연기됩니다. 축 II − II - 전략 A2에 대한 보상이 연기되고 플레이어 B가 전략 B1을 적용하도록 합니다. 축 I − I 및 II − II에 각각 좌표 a11 및 a21이 있는 점을 제공합니다. 이 점들을 지나 직선 B1 − B1'을 그립니다. 어떠한 것도 혼합 전략 SA = (p1, p2) 플레이어의 상금은 p2:p1 비율로 세그먼트를 나누는 x축의 SA 점에 해당하는 직선 B1 − B1' 위의 점 N에 의해 결정됩니다. 분명히, 전략 B2의 보수를 결정하는 직선 B2 − B2'는 정확히 같은 방식으로 구성될 수 있습니다. 12 .y .I .I I .B2 .N .a21 .B2′ a . 22 .I I .I .* .x .P2 .SA* .P1* 최적의 전략 SA*를 찾는 것이 필요합니다. 즉, 플레이어 A의 최소 보상(플레이어 B가 그에게 최악의 행동을 제공한 경우)이 최대값으로 바뀔 것입니다. 이를 위해 전략 B1, B2에 대해 플레이어 A의 보수에 대한 하한을 구성합니다. 파선 B1 N B2' ;. 이 경계에는 혼합 전략에 대한 플레이어 A의 최소 보수, 즉 이 보수가 최대에 도달하고 게임의 결정과 가격을 결정하는 지점 N이 있습니다. .y .I .I I .B2 .B1′ .N .B1 .B2′ .I I .I .* .x .P2 . A* S . 1* P 점 N의 세로 좌표는 게임 비용 ν에 불과하고 가로 좌표는 *2와 같으며 세그먼트 오른쪽 끝까지의 거리는 *1과 같습니다. 점 SA*에서 세그먼트 끝까지의 거리는 플레이어 A의 최적 혼합 전략의 전략 A2 및 A1의 확률 *2 및 *1과 같습니다. 이 경우 게임의 해결책은 교차점에 의해 결정됩니다. 전략 B1과 B2의 포인트. 아래는 플레이어의 최적 전략이 순수 전략 A2인 경우입니다. 여기서 전략 A2(모든 적 전략에 대해)는 전략 A1보다 수익성이 더 높습니다. 13 .y .y .I .I I .I I. I .B2′ . 1′ B .B1′ B . 2 .B2′ B . 2 .B1 .ν = a21 .B1 .ν = a21 I. I I. I .I . .x .I . .엑스. 2* P . A*S = A2. 2* P . A* S = A2 오른쪽은 플레이어 B가 명백히 수익성이 없는 전략을 가지고 있는 경우를 보여줍니다. 기하학적 해석을 통해 게임의 낮은 가격 α와 높은 가격 β .y .I .I I .B2를 시각화할 수도 있습니다. .B1′ .N .B1 . B2′ .β = a21 .α = a22 .I I .I .* .x .P2 . A* S . 1* P 동일한 그래프에서 플레이어 B의 최적 전략에 대한 기하학적 해석도 제공할 수 있습니다. 최적의 혼합 전략 SB* = (q1*, q2*)의 전략 B1의 점유율 q1*이 세그먼트 KB1 길이의 합에 대한 세그먼트 KB2 길이의 비율과 동일하다는 것을 쉽게 확인할 수 있습니다. I − I 축의 KB2: .y .I .I I .B2 . B1′ .N .K .L .B1 .B2′ .I I .I .* .x .P2 . A* S . 1* P 14 KB2 q1* = KB2 + KB1 또는 LB2′ q1* = LB2′ + LB1′ 최적의 전략 SB* = (q1* , q2*)는 선수 B와 B를 교체하면 다른 방법으로 찾을 수 있습니다. 상금 하한의 최대 대신 상한의 최소를 고려하십시오. .y .I .I I .A2 .A'1 .N .A1 .A'2 .I I .I . .x .q2* . B* S.q1* 15 3.2. 2 × n 및 m × 2 게임 2 × n 및 m × 2 게임의 해법은 다음 정리에 기초합니다. 정리 3. 모든 유한 게임 m × n은 각 측의 활성 전략 수가 m과 n 중 가장 작은 숫자를 초과하지 않는 해를 가집니다. 이 정리에 따르면 2×n 게임에는 항상 각 플레이어가 최대 2개의 활성 전략을 갖는 솔루션이 있습니다. 이러한 전략을 찾으면 2×n 게임은 2×2 게임으로 바뀌며, 이는 초보적인 방법으로 해결할 수 있습니다. 활성 전략을 찾는 것은 그래픽으로 수행할 수 있습니다. 1) 그래픽 해석이 구성됩니다. 2) 상금의 하한선이 결정됩니다. 3) 두 번째 플레이어의 두 가지 전략은 보상 하한에서 식별되며, 이는 최대 세로 좌표 지점에서 교차하는 두 개의 선에 해당합니다(이 지점에서 두 개 이상의 선이 교차하는 경우 임의의 쌍이 선택됩니다). 는 플레이어 B의 활성 전략을 나타냅니다. 따라서 2 × n 게임은 2 × 2 게임으로 축소됩니다. m × 2 게임도 풀 수 있지만, 보상의 하한이 아니라 상한이 다음과 같습니다. 구성되어 있으며 최대 값은 아니지만 최소값을 추구합니다. 예 5 게임에 대한 해결책 찾기 () 7 9 8 A= 10 6 9 해결책: 기하학적 방법을 사용하여 활성 전략을 선택합니다. 직선 B1 − B1', B2 − B2' 및 B3 − B3'은 전략 B1, B2, B3에 해당합니다. 점선 B1 N B2는 플레이어의 상금 하한선입니다. 게임에는 S*A = (23, 31)이라는 솔루션이 있습니다. S*B = (0.5; 0.5; 0); v = 8. 16 .y .I .I I . 1′ BB . 2 .B3′ .N .B3 .B1 .B2′ .I I .I . .엑스. 2* P . A* S . 1* P 17 인덱스 게임, 2 이동, 3 2 × 2, 10 개인, 3 2 × 2, 9 무작위, 3 기하학, 12 순 게임 가격, 7 예, 10 2 × n, 9, 16 m × 2, 9 , 16개 무한, 4개 정규형, 5개 유한, 4개 다중 이동, 4개 단일 이동, 4개 행렬, 5개 쌍, 2개 제로섬, 2개 길항, 2개 비길항, 2해, 5개 혼합 전략, 5 , 순수 전략 9개, 안장점 포함 5개, 가격 7개, 상위 5개, 하위 6개, 순수 6개, 최대값 7개, 게임 매트릭스 6개, 보수 5개, 미니맥스 5개, 게임 정규화 5개, 전략 5개, 최대값 4개, 미니맥스 6개, 6개 최적, 4 혼합, 5 게임 이론, 2 18

혼합 플레이어 전략. 플레이어의 혼합 전략을 찾으십시오.

게임 이론으로 게임 회로를 모델링합니다. 기업은 계절 제품 P 1, P 2, P 3의 생산량을 독립적으로 계획할 수 있는 능력이 있습니다.

그래픽 방법을 사용하여 매트릭스 게임 해결

선형 프로그래밍 방법을 사용하여 매트릭스 게임 해결

매트릭스 게임. 심플렉스 방법을 사용합니다. 우리는 게임의 낮은 가격 a = max(ai) = 2에 의해 결정되는 보장된 보상을 찾았으며 이는 최대 순수 전략 A 1 을 나타냅니다.
선형 프로그래밍 방법을 사용하여 매트릭스 게임을 해결하는 예입니다. 선형 프로그래밍을 사용하여 매트릭스 게임을 해결합니다.

그래픽 표현을 제공하고 정규 형식으로 축소하여 위치 게임의 정확한 솔루션을 찾습니다. 다음 기능상금:
플레이어 A가 첫 번째 이동을 합니다. 그는 두 숫자 세트에서 숫자 x를 선택합니다.
두 번째 이동은 플레이어 B가 수행합니다. 첫 번째 이동에서 플레이어 A의 선택을 모르고 그는 두 숫자 세트에서 숫자 y를 선택합니다.
세 번째 이동은 플레이어 A가 수행합니다. 그는 두 번째 이동에서 플레이어 B가 선택한 y 값을 알고 있지만 기억하지 못하는 두 숫자 집합에서 숫자 z를 선택합니다. 자신의 선택 x 첫 번째 이동에.

자연과 함께하는 게임

통계 게임
농업 기업은 다음과 같은 일부 제품을 판매할 수 있습니다.
A1) 청소 직후;
A2) 겨울철;
A3) 봄철에.
이익은 일정 기간의 판매 가격, 보관 비용 및 손실 가능성. 전체 구현 기간 동안 다양한 국가의 소득 및 비용 비율(S1, S2 및 S3)에 대해 계산된 이익 금액은 매트릭스(백만 루블) 형식으로 표시됩니다.
회사는 드레스와 양복을 생산하며, 판매는 기상 조건에 따라 달라집니다. 4~5월 회사의 생산 단위당 비용은 다음과 같습니다.
원자재 매장량 문제를 해결합니다. 기업에서 일정 기간 동안 원자재 소비량은 품질에 따라 1, 2, 3, 4입니다.
극단적 비관주의, 극단적 낙관주의, 낙관-비관주의 전략

바이매트릭스 게임

게임 이론의 의사결정 트리(문제 해결의 예)

게임 이론의 솔루션 모음(매트릭스 게임 해결), EMM의 일반적인 문제( 선형 프로그래밍, 게임 이론).

이 도시에는 3개의 텔레비전 회사가 운영되고 있습니다. ABC, СВS그리고 NBC. 이들 회사는 저녁 뉴스 프로그램을 6시 30분이나 7시에 시작할 수 있습니다. TV 시청자의 60%는 저녁 뉴스를 6시 30분에 시청하는 것을 선호하고, 40%는 저녁 뉴스를 7시에 시청하는 것을 선호합니다. 회사의 가장 인기 있는 저녁 뉴스 프로그램 알파벳, 가장 인기가 없는 것은 회사에서 준비한 뉴스입니다. NBC. 저녁 TV 시청자 비율 뉴스 프로그램표에 제시됨 (NBC, СВS, АВС)

알파벳: 6.30
N해		북동쪽에스



알파벳: 7.00
NB와 함께		북동쪽에스

뉴스 프로그램 시기에 맞는 최적의 회사 전략 찾기

해결 방법 힌트: 게임에는 지배적인 전략이 있습니다.

→

강의 11: 게임이론과 의사결정

게임이론의 주제와 과제

시스템 분석의 고전적인 문제는 다음과 같습니다. 게임 작업위험과 불확실성이 있는 상황에서 결정을 내립니다.

작전의 목표, 작전 수행 조건, 작전의 성공 여부를 좌우하는 상대방이나 다른 사람의 의식적인 행동 모두 불확실할 수 있습니다.

특별한 수학적 방법, 위험과 불확실성이 있는 상황에서 결정을 정당화하도록 설계되었습니다. 가장 간단한 경우 중 일부에서는 이러한 방법을 사용하여 실제로 검색하고 선택할 수 있습니다. 최적의 솔루션. 더 복잡한 경우에는 이러한 방법이 더 깊은 이해를 가능하게 하는 보조 자료를 제공합니다. 어려운 상황각각을 평가하고 가능한 해결책다양한 관점에서 보고 이를 고려하여 결정을 내리세요. 가능한 결과. 다음 중 하나 중요한 조건이 경우 의사결정은 위험을 최소화하는 것입니다.

시리즈를 풀 때 실질적인 문제운영 연구(생태학, 생명 안전 분야 등)는 두 개 이상의 전쟁 당사자가 서로 다른 목표를 추구하면서 충돌하는 상황을 분석해야 하며, 각 당사자의 행동 결과는 어떤 행동 과정에 따라 달라집니다. 적을 선택합니다. 우리는 다음과 같은 상황을 분류할 수 있습니다. 갈등 상황.

게임이론은 수학적 이론갈등 상황의 도움으로 갈등 당사자의 합리적인 행동 과정에 대한 권장 사항을 개발할 수 있습니다. 2차 요인을 고려하지 않고 상황에 대한 수학적 분석을 가능하게 하기 위해 상황에 대한 단순화되고 도식화된 모델이 구축됩니다. 게임. 게임은 다음에 따라 진행됩니다. 특정 규칙, 이는 플레이어의 행동에 대해 가능한 옵션을 규제하는 조건 시스템으로 이해됩니다. 각 당사자가 상대방의 행동에 관해 갖고 있는 정보의 양; 주어진 각 동작 세트로 이어지는 게임의 결과입니다.

게임의 결과(승패)가 항상 정량적으로 표현되는 것은 아니지만, 일반적으로 적어도 조건에 따라 수치로 표현하는 것은 가능합니다.

이동은 게임 규칙과 구현에 따라 제공되는 작업 중 하나를 선택하는 것입니다. 동작은 개인 동작과 무작위 동작으로 구분됩니다. 개인적인 움직임은 플레이어가 가능한 행동 옵션 중 하나와 그 구현을 의식적으로 선택하는 것입니다. 무작위 이동은 플레이어의 결정이 아니라 무작위 선택 메커니즘(동전 던지기, 섞인 덱에서 카드 선택 등)을 통해 수행되는 다양한 가능성 중에서 선택하는 것입니다. 각 무작위 이동에 대해 게임 규칙에 따라 가능한 결과의 확률 분포가 결정됩니다. 게임은 개인 동작만으로 구성되거나 무작위 동작으로만 구성되거나 둘의 조합으로 구성될 수 있습니다. 게임이론의 다음 주요 개념은 전략의 개념이다. 전략은 플레이어가 선험적으로 채택한 결정 시스템("if-then" 유형)으로, 게임을 플레이하는 동안 고수하며 알고리즘의 형태로 제시되고 자동으로 실행될 수 있습니다.

게임 이론의 목표는 갈등 상황에서 플레이어의 합리적인 행동에 대한 권장 사항을 개발하는 것입니다. 즉, 각 플레이어에 대한 "최적의 전략"을 결정하는 것입니다. 하나의 지표에 최적인 전략이 다른 지표에도 반드시 최적인 것은 아닙니다. 이러한 한계를 인식하고 게임 방법으로 얻은 권장 사항을 맹목적으로 고수하지 않고도 게임 이론의 수학적 장치를 현명하게 사용하여 최적은 아니지만 적어도 "수용 가능한" 전략을 개발할 수 있습니다.

계략플레이어 수, 전략 수, 플레이어 간 상호 작용 성격, 승리 성격, 이동 횟수, 정보 상태 등에 따라 분류할 수 있습니다. .

플레이어 수에 따라 2인과 n인 플레이어의 게임이 있습니다. 그 중 첫 번째가 가장 많이 연구되었습니다. 3인 이상의 플레이어가 참여하는 게임은 근본적인 어려움으로 인해 덜 연구되었으며, 기술적 능력결정을 얻는 것.

가능한 전략의 수에 따라 게임은 " 결정적인" 그리고 " 끝없는».

각 플레이어가 유한한 수의 전략만 가지고 있으면 게임을 유한이라고 하고, 플레이어 중 적어도 한 명이 무한한 수의 전략을 가지고 있으면 무한하다고 합니다.

상호작용의 성격상게임은 비연합 게임으로 구분됩니다. 플레이어는 계약을 체결하거나 연합을 형성할 권리가 없습니다. 연합(협동) - 연합에 가입할 수 있습니다.

협동 게임에서는 연합이 미리 결정됩니다.

상금의 성격에 따라게임은 제로섬 게임(모든 플레이어의 총 자본은 변하지 않지만 플레이어 간에 재분배됩니다. 모든 플레이어의 승리 합계는 0임)과 넌제로섬 게임으로 나뉩니다.

보상 함수 유형별게임은 매트릭스, 바이매트릭스, 연속, 볼록 등으로 구분됩니다.

행렬이 게임은 두 명의 플레이어가 참여하는 유한 제로섬 게임으로, 플레이어 1의 보상은 매트릭스 형태로 제공됩니다(매트릭스의 행은 플레이어 1이 적용한 전략의 수에 해당하고, 열은 - 플레이어의 적용된 전략 수; 매트릭스의 행과 열의 교차점에는 적용된 전략에 해당하는 플레이어 1의 보수가 있습니다.

매트릭스 게임의 경우, 그 중 어떤 것이든 해결책이 있다는 것이 입증되었으며 게임을 선형 프로그래밍 문제로 축소하면 쉽게 찾을 수 있습니다.

바이매트릭스이 게임은 합이 0이 아닌 두 플레이어의 유한 게임으로, 각 플레이어의 보수는 해당 플레이어에 대해 별도로 행렬로 지정됩니다(각 행렬에서 행은 플레이어 1의 전략에 해당하고 열은 첫 번째 매트릭스의 행과 열의 교차점에 있는 플레이어 2의 전략은 두 번째 매트릭스에서 플레이어 1의 보수(플레이어의 상금)입니다.

마디 없는게임은 각 플레이어의 보상함수가 연속적인 게임으로 간주됩니다. 이 클래스의 게임에는 솔루션이 있다는 것이 입증되었지만 이를 찾는 데 실질적으로 허용되는 방법은 개발되지 않았습니다.

보수 함수가 볼록형인 경우 이러한 게임을 호출합니다. 볼록한. 한 플레이어에 대한 순수 최적 전략(특정 숫자)을 찾는 것과 다른 플레이어의 순수 최적 전략을 사용할 확률로 구성된 허용 가능한 솔루션 방법이 개발되었습니다. 이 문제는 비교적 쉽게 해결됩니다.

매트릭스 게임을 보수 매트릭스로 작성하기

첫 번째 플레이어 A가 m개의 전략을 가지고 있고 두 번째 플레이어가 Bn개의 전략을 가지고 있는 유한한 게임을 생각해 보세요. 이 게임을 m×n 게임이라고 합니다. 전략 A 1 , A 2 , ..., A m 을 표시해 보겠습니다. 및 B1, B2, ..., Bn. 양측이 A i 또는 B j라는 특정 전략을 선택했다고 가정해 보겠습니다. 게임이 개인적인 움직임으로만 구성된 경우 전략의 선택에 따라 게임의 결과, 즉 당사자 a ij 중 하나의 승리가 고유하게 결정됩니다. 게임에 개인적인 무작위 이동 외에도 한 쌍의 전략 A i 및 B에 대한 보수는 모든 무작위 이동의 결과에 따라 달라지는 무작위 변수입니다. 이 경우 기대 이득의 자연적 추정치는 무작위 이득의 수학적 기대값이며, 이는 ij로도 표시됩니다.

각 전략 쌍에 대한 ij 값을 알고 있다고 가정해 보겠습니다. 이 값은 직사각형 테이블(행렬)의 형태로 작성될 수 있으며, 그 행은 전략 A i 에 해당하고 열은 전략 B j 에 해당합니다.

그러면 일반적으로 매트릭스 게임은 다음과 같은 보수 매트릭스로 작성될 수 있습니다.

	비 1	비 2	...	대
A 1	11	12	...	1n
A 2	21	22	...	2n
...	...	...	...	...
오전	m1	m2	...	백만

표 - 매트릭스 게임의 결제 매트릭스에 대한 일반적인 보기

여기서 A i는 플레이어 1의 전략 이름이고, B j는 플레이어 2의 전략 이름이며, a ij는 플레이어 1이 i번째 전략을 선택할 때의 보상 가치이고, 플레이어 2는 - j번째 전략. 왜냐하면 이 게임제로섬 게임인 경우, 플레이어 2의 보수 가치는 플레이어 1의 보수 가치와 반대 부호입니다.

게임의 낮은 가격과 높은 가격의 개념입니다. 순수 전략으로 게임을 해결하다

각 플레이어는 상대 플레이어의 행동을 고려하여 승리를 극대화하기 위해 노력합니다. 따라서 플레이어 1의 경우 각 전략에서 최소 보상 값을 결정한 다음 이 값의 최대값을 구하는 것, 즉 값을 결정하는 것이 필요합니다.

Vn = 최대 i 최소 j a ij

또는 결제 매트릭스의 각 행에 대한 최소값을 찾은 다음 이 값의 최대값을 결정합니다. 값 Vn이 호출됩니다. 최대화행렬 또는 게임 최저가. 최대값 Vn에 해당하는 플레이어의 전략을 최대값 전략이라고 합니다.

분명히 우리가 최대화 전략을 고수한다면 적의 행동에 관계없이 V n 이상의 승리가 보장됩니다. 따라서 Vn의 가치는 우리가 가장 신중한 전략을 고수함으로써 스스로 제공할 수 있는 보장된 최소값입니다.

매트릭스 게임의 정의에 따르면 플레이어 1의 이득 값은 플레이어의 손실 금액과 동일하므로 플레이어 2의 경우 값을 결정해야 합니다.

V in = 최소 j 최대 i a ij

또는 결제 매트릭스의 각 열에 대한 최대값을 찾은 다음 이러한 값의 최소값을 결정합니다. V in 값이 호출됩니다. 미니맥스행렬, 게임의 최고 가격또는 미니맥스 상금. 상대방의 승리 전략을 미니맥스 전략이라고 합니다. 가장 신중한 미니맥스 전략을 고수함으로써 상대방은 어떤 경우에도 V 세기를 넘지 않을 것임을 보장합니다.

Vn과 Vin의 값이 일치하지 않으면 게임의 규칙(계수 aij)을 장기적으로 유지하면서도 각 플레이어의 전략 선택이 불안정해지는 것으로 나타난다. V n = V c = V 일 때만 안정성을 얻습니다. 이 경우 게임이 다음과 같이 말합니다. 순수 전략의 솔루션, V를 달성하는 전략은 다음과 같습니다. 최적의 순수 전략. 수량 V라고 불린다. 순수한 게임 가격으로 .

예를 들어 행렬에서는 다음과 같습니다.

	비 1	비 2	비 3	비 4	최소 j
A 1	17	16	15	14	14
A 2	11	18	12	13	11
A 3	18	11	13	12	11
맥스 아이	18	18	15	14

표 - 순수 전략에 솔루션이 있는 결제 매트릭스

순수 전략에 해결책이 있습니다. 이 경우, 플레이어 1의 경우 최적의 순수 전략은 전략 A 1 이고, 플레이어 2의 경우 전략 B 4 입니다.

매트릭스에서는 전략 A 1에서 게임의 낮은 가격이 달성되고 그 가치가 12인 반면, 전략 B 4에서 게임의 높은 가격이 달성되고 그 가치는 13이기 때문에 순수 전략에는 해결책이 없습니다.

	비 1	비 2	비 3	비 4	최소 j
A 1	17	16	15	12	12
A 2	11	18	12	13	11
A 3	18	11	13	12	11
맥스 아이	18	18	15	13

표 - 순수 전략에는 해결책이 없는 결제 매트릭스

보수 행렬의 차수 줄이기

보수 매트릭스의 순서(행과 열의 수)는 지배 전략과 중복 전략을 제거하여 줄일 수 있습니다.

전략 K*가 호출됩니다. 지배적전략 K**, 상대 플레이어의 행동 변형에 대해 관계가 충족되는 경우

A k*< A k** ,

여기서 A k* 및 A k**는 플레이어가 각각 K* 및 K** 전략을 선택할 때의 보상 값입니다.

관계가 만족된다면

전략 K*는 전략 K**에 대해 중복이라고 합니다.

예를 들어, 지배 및 중복 전략이 있는 매트릭스에서 전략 A 1은 전략 A 2에 의해 지배되고, 전략 B 6은 전략 B 3, B 4 및 B 5에 의해 지배되고, 전략 B 5는 전략 B 4에 의해 중복됩니다.

	비 1	비 2	비 3	비 4	비5	비 6
A 1	1	2	3	4	4	7
A 2	7	6	5	4	4	8
A 3	1	8	2	3	3	6
에이 4	8	1	3	2	2	5

표 - 지배적 전략과 중복 전략이 포함된 지불 매트릭스

이러한 전략은 분명히 손실이기 때문에 플레이어가 선택하지 않을 것이며 지불 매트릭스에서 이러한 전략을 제거해도 이 매트릭스에 설명된 게임의 하한 가격과 상한 가격 결정에 영향을 미치지 않습니다.

결제 매트릭스의 차원을 축소한 후 얻은 비지배 전략 집합을 파레토 집합이라고도 합니다.

게임의 예

1. 게임 "치킨"

치킨 게임에서는 플레이어가 상호 작용에 참여하여 한 플레이어가 게임을 종료할 때까지 각 플레이어가 심각한 피해를 입게 됩니다. 이 게임의 사용 예는 차량의 상호 작용입니다. 예를 들어 두 대의 차량이 서로를 향해 가고 있고 먼저 방향을 바꾸는 차량이 "약한" 또는 "닭"으로 간주되는 상황입니다. 게임의 요점은 플레이어를 제거하는 긴장감을 조성하는 것입니다. 비슷한 상황종종 위험이 덜하기는 하지만 십대나 공격적인 젊은이들 사이에서 자주 발생합니다. 이 게임의 또 다른 응용은 두 가지 상황입니다. 정당얻을 것이 아무것도 없는 접촉에 이르게 되고, 오직 자존심만이 그들을 반대를 유지하도록 강요합니다. 당사자들은 최종 지점에 도달할 때까지 양보를 주저합니다. 그에 따른 심리적 긴장으로 인해 플레이어 중 한 명이 잘못된 행동 전략을 취하게 될 수 있습니다. 플레이어 중 누구도 굴복하지 않으면 충돌과 치명적인 결과가 불가피합니다.

게임의 결제 매트릭스는 다음과 같습니다.

	포기하다	포기하지 마세요
포기하다	0, 0	-1, +1
포기하지 마세요	+1, -1	-100, -100

2. 게임 “연과 비둘기”

"연과 비둘기" 게임은 게임의 생물학적 예입니다. 이 버전에서는 무제한의 자원을 가진 두 명의 플레이어가 두 가지 전략 중 하나를 선택합니다. 첫 번째("비둘기")는 플레이어가 상대를 위협하여 자신의 힘을 보여주는 것과 관련되고, 두 번째("연")는 플레이어가 상대를 물리적으로 공격하는 것과 관련됩니다. 두 플레이어 모두 "연" 전략을 선택하면 싸우며 서로 부상을 입힙니다. 플레이어 중 한 명이 "연" 전략을 선택하고 두 번째 "비둘기"를 선택하면 첫 번째가 두 번째 전략을 패배시킵니다. 두 플레이어가 모두 "비둘기"인 경우, 상대방은 타협에 이르게 되며, 이 게임의 보수 매트릭스에서 다음과 같이 "연"이 "비둘기"를 물리친 보수보다 적은 보수를 받게 됩니다.

여기서 V는 합의 가격, C는 갈등 가격, V는

연과 비둘기 게임에는 세 가지 내쉬 균형점이 있습니다.

첫 번째 플레이어는 "연"을 선택하고 두 번째 플레이어는 "비둘기"를 선택합니다.
첫 번째 플레이어는 "비둘기"를 선택하고 두 번째 플레이어는 "연"을 선택합니다.
두 플레이어 모두 확률 p로 "연"을 선택하고 확률 1-p로 "비둘기"를 선택하는 혼합 전략을 선택합니다.

3. 죄수의 딜레마

죄수의 딜레마는 게임 이론에서 고려되는 가장 일반적인 갈등 상황 중 하나입니다.

전형적인 죄수의 딜레마는 다음과 같습니다. 두 명의 용의자 A와 B가 서로 다른 감방에 있습니다. 수사관은 그들을 개별적으로 방문하여 다음과 같은 거래를 제안합니다. 둘 중 한 사람이 다른 사람에 대해 증언하고 두 번째 사람이 침묵하면 첫 번째 수감자는 석방되고 두 번째 수감자는 10 년형을 선고받습니다. 둘 다 침묵하면 6개월간 복역하게 된다. 둘 다 서로 배신하면 각각 2년의 형을 받게 된다. 각 수감자는 공범을 배신할지, 아니면 다른 사람이 어떤 결정을 내렸는지 알지 못한 채 침묵을 지킬지 결정을 내려야 합니다. 딜레마: 죄수들은 어떤 결정을 내릴 것인가?

게임 결제 매트릭스:

이 경우 결과는 각 수감자의 결정에 따라 결정됩니다. 플레이어의 상황은 상대방이 어떤 결정을 내렸는지 알지 못하고, 서로를 신뢰하지 않는다는 사실로 인해 복잡해집니다.

플레이어를 위한 최선의 전략은 협력이며, 둘 다 침묵을 지키고 최대 보상(짧은 기간)을 받으며, 서로의 솔루션은 윈윈이 적습니다.

명확성을 위해 표준 형식의 지불 매트릭스로 이동하여 "죄수의 딜레마"를 분석해 보겠습니다.

—	협력	협력 거부
협력	3, 3	0, 5
협력 거부	5, 0	1, 1

이 매트릭스에 따르면 상호 협력 거부 비용(S)은 각 플레이어마다 1점, 협력 비용(R)은 3점, 상대방을 배신하려는 유혹 비용(T)은 5점입니다. 다음과 같은 부등식을 쓸 수 있습니다: T > R > S. 게임을 여러 번 반복할 때 배신하고 최대 승리를 얻으려는 유혹보다 협력을 선택하는 것이 더 중요합니다: 2 R > T + S.

내쉬 균형.

내쉬 균형은 다른 플레이어(다른 회사)의 전략에 따라 어떤 플레이어도 자신의 전략을 변경할 인센티브가 없어 플레이어가 타협 솔루션에 도달할 수 있는 상황입니다.

내쉬균형의 정의와 그 존재는 다음과 같이 정의된다.

(S, f)를 S가 전략 집합이고 f가 보수 집합인 게임이라고 가정합니다. 각 플레이어 i ∈ (1, ..., n)이 x i &isin S 전략을 선택할 때(x = (x 1 , ..., x n)) 플레이어 i는 보상 f i (x)를 받습니다. 승리는 모든 플레이어가 선택한 전략에 따라 달라집니다. 전략 x* ∈ S는 한 플레이어의 이탈이 그에게 이익을 가져다주지 않으면 내쉬 균형입니다. 즉, 모든 i에 대해 다음과 같은 불평등이 유지됩니다.

f i (x*) ≥ f i (x i , x* -i)

예를 들어, 죄수의 딜레마 게임에는 두 죄수가 서로 배신하는 상황인 하나의 내쉬 균형이 있습니다.

내쉬 균형을 결정하는 가장 쉬운 방법은 보수 매트릭스를 사용하는 것입니다. 특히 게임에 두 가지 이상의 전략을 가진 두 명의 플레이어가 관련된 경우에는 더욱 그렇습니다. 이 경우 공식적인 분석은 매우 복잡하므로 다음과 같은 니모닉 규칙이 적용됩니다. 지불 매트릭스의 셀은 첫 번째 숫자가 제시된 모든 값 중 최대값인 경우 내쉬 균형을 나타냅니다. 열에서 두 번째 숫자는 셀에 서 있는 모든 줄 중 최대 숫자입니다.

예를 들어 다음 규칙을 3x3 행렬에 적용해 보겠습니다.

	ㅏ	비	씨
ㅏ	0, 0	25, 40	5, 10
비	40, 25	0, 0	5, 15
씨	10, 5	15, 5	10, 10

내쉬 평형점: (B,A), (A,B) 및 (C,C). 실제로 셀 (B,A)의 경우 40부터 — 최대값첫 번째 열에서 25는 두 번째 행의 최대값입니다. 셀 (A, B)의 경우 25는 두 번째 열의 최대값이고, 40은 두 번째 행의 최대값입니다. 셀 (C,C)에도 동일하게 적용됩니다.

오염 게임의 예를 살펴보겠습니다( 환경). 여기서 우리가 주목해야 할 대상은 오염과 같은 생산 부작용 유형입니다. 기업이 누구에게도 무엇을 해야 할지 묻지 않는다면, 어느 기업이든 값비싼 정수기를 설치하는 것보다 오염을 일으키는 편이 나을 것입니다. 어떤 회사가 유해한 배출을 줄이기로 결정하면 비용이 증가하고 결과적으로 제품 가격이 상승하고 수요가 감소할 것입니다. 이 회사는 단순히 파산할 가능성이 높습니다. 거주 잔인한 세상자연 선택에 따라 기업은 처리 시설과 기술에 돈을 쓸 필요가 없는 내쉬 균형(셀 D)에 머무르는 것이 좋습니다. 어떤 기업도 오염을 줄임으로써 이윤을 늘릴 수는 없습니다.

	회사 1
회사 2	낮은 오염	높은 수준의 오염
낮은 오염	ㅏ 100,100	안에 -30,120
높은 수준의 오염	와 함께 120,-30	디 100,100

표 - 환경 오염 게임의 지불 매트릭스.

가입함으로써 경제 게임, 규제되지 않고 이익을 극대화하는 모든 철강 회사는 수질 및 대기 오염을 발생시킬 것입니다. 어느 기업이든 배출량을 정화하려고 하면 가격이 인상되고 손실을 입을 수밖에 없습니다. 비협조적인 행동은 높은 배출 조건에서 내쉬 균형을 확립합니다. 정부는 평형이 셀 A로 이동하도록 조치를 취할 수 있습니다. 이 상황에서 오염은 미미할 것이지만 이익은 동일하게 유지됩니다.

오염 게임은 '보이지 않는 손'의 메커니즘이 작동하지 않는 경우 중 하나입니다. 이는 내쉬 균형이 비효율적인 상황입니다. 때로는 이러한 통제되지 않은 게임이 위험해지고 정부가 개입할 수도 있습니다. 정부는 배출 벌금 및 배출 할당량 시스템을 구축함으로써 기업이 다음에 해당하는 결과 A를 선택하도록 유도할 수 있습니다. 낮은 수준오염. 기업은 배출량이 많아도 이전과 똑같은 수익을 올리고 세상은 어느 정도 더 깨끗해집니다.

순수 전략으로 매트릭스 게임을 해결한 예

두 기업이 지역 제품 시장을 놓고 싸우는 상황에서 실물 경제에서 순수 전략으로 매트릭스 게임을 해결하는 예를 생각해 보겠습니다.

일.

두 기업이 제품을 생산하여 지역 시장에 공급합니다. 이들은 해당 지역에 제품을 공급하는 유일한 공급업체이므로 해당 지역의 해당 제품에 대한 시장을 완전히 결정합니다.

각 기업은 세 가지 기술 중 하나를 사용하여 제품을 생산할 수 있습니다. 환경친화성에 따라 기술적 과정각 기술을 사용하여 생산된 제품의 품질에 따라 기업은 단가를 10, 6, 2로 설정할 수 있습니다. 화폐 단위각기. 동시에 기업은 생산 단위당 비용이 다릅니다.

표 - 해당 지역 기업에서 생산되는 제품 단위당 비용(단위).

지역 제품 시장에 대한 마케팅 조사 결과, 제품에 대한 수요 함수가 결정되었습니다.

Y = 6 - 0.5⋅X,

여기서 Y는 해당 지역 인구가 구매할 제품 수량(천 단위)이고 X는 기업 제품의 평균 가격(단위 단위)입니다.

판매 가격에 따른 제품 수요 데이터는 표에 나와 있습니다.

판매 가격 1개. 제품, 예:		1개 단위의 평균 판매 가격입니다. 제품, 예:	제품 수요, 천개
기업 1	엔터프라이즈 2	1개 단위의 평균 판매 가격입니다. 제품, 예:	제품 수요, 천개
10	10	10	1
10	6	8	2
10	2	6	3
6	10	8	2
6	6	6	3
6	2	4	4
2	10	6	3
2	6	4	4
2	2	2	5

표 - 해당 지역의 제품 수요, 천 단위.

인구가 구매하는 기업 1 제품의 점유율 값은 기업 1 제품과 기업 제품의 가격 비율에 따라 달라지며, 마케팅 조사 결과 이러한 종속성이 확립되고 값이 계산되었습니다. :

표 - 제품 가격 비율에 따라 인구가 구매하는 기업 1 제품의 점유율

문제에 따르면 지역 시장에서 활동하는 기업은 2개뿐입니다. 따라서 인구가 구매하는 두 번째 기업의 제품 비율은 제품 가격 비율에 따라 1에서 첫 번째 기업의 비율을 뺀 것으로 정의할 수 있습니다.

이 문제에 대한 기업의 전략은 생산 기술에 관한 결정입니다. 이러한 결정에 따라 생산 단위당 비용과 판매 가격이 결정됩니다. 작업에서는 다음을 결정해야 합니다.

두 기업 모두를 위해 생산 기술을 선택할 때 이 문제에 균형 상황이 있습니까?
기업이 수익성이 낮아 선택하지 않을 기술이 분명히 있습니까?
균형 상황에서 생산량은 얼마나 될까요? 어느 회사가 유리한 위치에 있게 될까요?

문제의 해결

문제의 지불 매트릭스에서 승리 계수의 경제적 의미를 결정해 보겠습니다. 모든 기업은 생산을 통해 이익을 극대화하려고 노력합니다. 그러나 이 경우 기업들은 지역의 제품 시장을 위해 싸우고 있습니다. 이 경우 한 기업의 이익은 다른 기업의 손실을 의미합니다. 이러한 문제는 제로섬 매트릭스 게임으로 축소될 수 있습니다. 이 경우, 승리 계수는 기업 1과 기업 2가 생산을 통해 얻는 이익의 차이가 됩니다. 이 차이가 양수이면 기업 1이 승리하고, 음수이면 기업 2가 승리합니다.
지불 매트릭스의 승리 계수를 계산해 보겠습니다. 이를 위해서는 생산을 통해 기업 1과 기업 2의 이익 가치를 결정해야 합니다.

이 문제에서 기업의 이익은 다음에 달려 있습니다.

가격과 생산 비용;
지역 인구가 구매한 제품의 양;
기업에서 인구가 구매한 제품의 비율에서.

따라서 지불 매트릭스의 계수에 해당하는 기업 이익의 차이 값은 다음 공식을 사용하여 결정되어야 합니다.

D = p⋅(S⋅R1 - S⋅C1) - (1 - p)⋅(S⋅R2 - S⋅C2),

여기서 D는 기업 1과 기업 제품의 생산으로 인한 이익의 차이입니다.

p는 지역 인구가 구매한 기업 1 제품의 비율입니다.

S는 지역 인구가 구매한 제품의 양입니다.

R1 및 R2 - 기업 1 및 기업의 생산 단위당 판매 가격

C1 및 C2 - 기업 1에서 생산된 생산 단위의 총 비용

지불 매트릭스의 계수 중 하나를 계산해 보겠습니다.

예를 들어 기업 1이 기술 III에 따라 제품을 생산하기로 결정하고 기업 2가 기술 II에 따라 제품을 생산하기로 결정했다고 가정해 보겠습니다. 그 다음에는 단위당 판매 가격입니다. 기업 1의 제품은 2개 단위가 됩니다. 단위 비용으로. 제품 1.5개 기업 2의 경우 단위당 판매 가격입니다. 제품은 6개 단위가 됩니다. 4.00의 비용으로.

해당 지역의 인구가 구매할 제품의 양 평균 가격 4단위는 4,000단위와 같습니다. (1 번 테이블). 인구가 기업 1에서 구매하는 제품의 비율은 0.85이고 기업 2에서는 0.15입니다(표 1.3). 다음 공식을 사용하여 지불 매트릭스 a 32의 계수를 계산해 보겠습니다.

a 32 = 0.85⋅(4⋅2 - 4×1.5) - 0.15⋅(4⋅6 - 4⋅4) = 0.5천 단위.

여기서 i=3은 첫 번째 기업의 기술번호이고, j=2는 두 번째 기업의 기술번호이다.

마찬가지로 지불 매트릭스의 모든 계수를 계산합니다. 지불 매트릭스에서 전략 A 1 - A 3 - 기업 1의 생산 기술에 대한 결정, 전략 B 1 - B 3 - 기업 2의 생산 기술 결정, 승리 계수 - 기업 1과 기업의 이익 차이를 나타냅니다.

	비 1	비 2	비 3	최소 j
A 1	0,17	0,62	0,24	0,17
A 2	0,3	-1,5	-0,8	-1
A 3	0,9	0,5	0,4	0,4
맥스 아이	3	0,62	0,4

표 - "두 기업 간의 투쟁" 게임의 지불 매트릭스.

이 매트릭스에는 지배적이거나 중복되는 전략이 없습니다. 이는 두 기업 모두 명백히 수익성이 없는 생산 기술이 없음을 의미합니다. 행렬 행의 최소 요소를 결정해 보겠습니다. 기업 1의 경우 이러한 각 요소는 적절한 전략을 선택할 때 최소 보장 이득 값을 갖습니다. 행별 행렬의 최소 요소 값은 0.17, -1.5, 0.4입니다.

행렬 열의 최대 요소를 결정해 보겠습니다. 기업 2의 경우 이러한 각 요소는 적절한 전략을 선택할 때 최소 보장 이득 값도 갖습니다. 열별 최대 행렬 요소의 값은 3, 0.62, 0.4입니다.

매트릭스에서 게임의 최저 가격은 0.4입니다. 게임의 최고 가격도 0.4입니다. 따라서 매트릭스에서 게임의 하한 가격과 상한 가격은 동일합니다. 이는 주어진 작업 조건에서 두 기업 모두에게 최적인 제품을 생산하는 기술이 있음을 의미합니다. 이것이 기업 1의 전략 A3와 기업의 B 3에 해당하는 기술 III입니다. 이 문제에서는 전략 A 3과 B 3이 순수 최적 전략입니다.

순수 최적 전략을 선택할 때 기업 1과 기업 2의 이익 차이는 긍정적입니다. 이는 기업 1이 이 게임에서 승리한다는 것을 의미합니다. 기업 1의 이익은 0.4천이 될 것입니다. 동시에 5,000개가 시장에 판매될 예정이다. 제품(판매량은 제품 수요와 동일, 표 1) 두 기업 모두 생산 단위당 가격을 2.00으로 설정합니다. 이 경우 첫 번째 기업의 경우 생산 단위당 총 비용은 1.5단위이고 두 번째 기업의 경우 1단위입니다. 기업 1은 인구가 구매할 제품의 비율이 높기 때문에 이익을 얻습니다.

결정 기준

의사결정자는 문제 해결 과정에서 실행하는 목표 설정에 따라 가장 수익성이 높은 전략을 결정합니다. 의사결정자는 다음 중 하나에 따라 문제 해결 결과를 결정합니다. 결정 기준. 명확하고 가능하다면 가장 수익성이 높은 솔루션을 얻으려면 평가(목표) 기능을 도입해야 합니다. 이 경우 각 의사결정자 전략(Ai)에는 이 결정의 모든 결과를 특징으로 하는 특정 결과 Wi가 할당됩니다. 일련의 의사결정 결과 중에서 의사결정자는 요소 W를 선택합니다. 가장 좋은 방법그의 행동 동기를 반영합니다.

조건에 따라 외부 환경의사결정자의 정보 정도에 따라 의사결정 업무는 다음과 같이 분류됩니다.

위험 상황에서;
불확실한 상황에서;
갈등이나 반대 상황(활성 적).

위험 상황에서의 의사결정.

1. 기대가치 기준.

기대가치 기준의 사용은 기대 이익을 최대화(또는 예상 비용을 최소화)하려는 욕구에 의해 주도됩니다. 기대값을 사용한다는 것은 충분히 정확한 계산 공식을 얻을 때까지 동일한 문제를 반복적으로 풀 수 있다는 가능성을 의미합니다. 수학적으로는 다음과 같습니다. X를 수학적 기대값 MX와 분산 DX를 갖는 확률 변수로 둡니다. x 1 , x 2 , ..., x n이 확률 변수(r.v.) X의 값인 경우 해당 (표본 평균) 값의 산술 평균은 x^=(x 1 +x 2 +)입니다. ..+x n)/ n은 DX/n의 분산을 갖습니다. 따라서, n→무엇이 DX/n→무엇이고 X→MX일 때.

즉, 표본 크기가 충분히 크면 산술 평균과 수학적 기대값의 차이가 0이 되는 경향이 있습니다(소위 확률 이론의 한계 정리). 결과적으로 기대값 기준의 사용은 동일한 솔루션을 충분히 많은 횟수에 적용해야 하는 경우에만 유효합니다. 그 반대도 마찬가지입니다. 기대에 집중하면 몇 번만 내려야 하는 결정에 대해 잘못된 결과가 나올 수 있습니다.

실시예 1. 오작동으로 인한 손실을 최소화하기 위해서는 PC의 예방적 수리가 언제 필요한지 결정해야 합니다. 수리를 너무 자주 수행하면 우발적인 고장으로 인해 손실이 적고 유지 관리 비용이 높아집니다.

언제 오작동이 발생할지 미리 예측하는 것은 불가능하므로, t 기간 내에 PC가 고장날 확률을 구하는 것이 필요합니다. 이것이 "위험"의 요소입니다.

수학적으로 보면 다음과 같습니다. PC가 고장으로 인해 정지되면 개별적으로 수리됩니다. T 시간 간격으로 n개의 PC 모두에 대해 예방적 수리가 수행됩니다. 결함이 있는 PC를 수리하고 1회 간격으로 예방수리를 수행하는 데 드는 총 비용이 최소화되는 최적의 m 값을 결정하는 것이 필요합니다.

p t 를 시간 t에 하나의 PC가 고장날 확률이라고 하고, n t를 동시에 고장난 모든 PC의 수와 동일한 확률 변수로 둡니다. 또한 C1은 결함이 있는 PC를 수리하는 비용이고 C2는 한 기계의 예방 수리 비용이라고 가정해 보겠습니다.

이 경우 기대값 기준의 사용은 PC가 장기간 작동하는 경우 정당화됩니다. 이 경우 한 간격의 예상 비용은 다음과 같습니다.

OZ = (C1∑M(nt)+C1n)/T,

여기서 M(n t)는 시간 t에서 고장난 PC 수에 대한 수학적 기대값입니다. n t는 모수 (n, p t)를 갖는 이항 분포를 가지므로 M(n t) = np t입니다. 따라서

OZ = n(C 1 ∑p t +C 2)/T.

최적성 T *에 필요한 조건은 다음과 같은 형식을 갖습니다.

OZ (T * -1) ≥ OZ (T *),

HP (T * +1) ≥ HP (T *).

따라서 작은 T 값부터 시작하여 OP(

T) 필요한 최적 조건이 만족될 때까지.

C1 = 100이라고 가정합니다. C2=10; n = 50. 값 p t의 형식은 다음과 같습니다.

티	태평양 표준시	∑р t	오즈(티)
1	0.05	0	50(100⋅0+10)/1=500
2	0.07	0.05	375
3	0.10	0.12	366.7
4	0.13	02	400
5	0.18	0.35	450

T* →3, OZ(T*)→366.7

따라서 예방정비는 T*=3회 간격으로 실시해야 합니다.

"기대값 - 분산" 기준.

기대값 기준은 거의 발생하지 않는 상황에 적용할 수 있도록 수정될 수 있습니다.

x - c인 경우. V. 분산 DX를 사용하면 산술 평균 x^은 분산 DX/n을 갖습니다. 여기서 n은 x^에 있는 항의 개수입니다. 따라서 DX가 감소하면 x^가 MX에 가까울 확률이 증가합니다. 따라서 이익의 기대가치를 극대화하고 분산을 최소화하는 기준을 도입하는 것이 바람직하다.

실시예 2. 예 1의 "기대 값 - 분산" 기준을 적용해 보겠습니다. 이를 위해서는 한 시간 간격에 대한 비용의 분산을 찾아야 합니다. 분산

з Т =(C 1 ∑n t +C 2 n)/T

왜냐하면 n t , t = (1, T-1)은 r.v.이고, s T도 r.v입니다. S.v. n t는 M(n t) = np t 및 D(n t) = np t (1–p t)인 이항 분포를 갖습니다. 따라서,

D(з Т) = D((C 1 ∑n t +C 2 n)/T) = (C 1 /T) 2 D(∑n t) =

= (C 1 /T) 2 ∑Dn t = (C 1 /T) 2 ∑np t (1-p t) = (C 1 /T) 2 (∑p t - ∑p t 2 ),

여기서 C 2 n = const입니다.

예제 1에서 다음과 같습니다.

M(zT) = M(z(T)).

따라서 필요한 기준은 표현의 최소값이 될 것입니다.

M(z(T)) + D(z T)로.

논평. 상수 "k"는 레벨로 간주될 수 있습니다. 위험 회피, 왜냐하면 "k"는 수학적 기대와 관련하여 분산 D(z T)의 "가능성 정도"를 결정합니다. 예를 들어, 기업가가 M(z(T))에서 이익의 큰 음의 편차에 특히 예리하게 반응하는 경우 그는 1보다 훨씬 큰 "k"를 선택할 수 있습니다. 이는 분산에 더 많은 가중치를 부여하고 다음과 같은 결정으로 이어집니다. 큰 이익 손실 가능성을 줄입니다.

k=1이면 문제가 발생합니다.

M(z(T))+D(z(T)) = n ( (C 1 /T+C 1 2 /T 2)∑p t - C 1 2 /T 2 ∑p t 2 + C 2 /T )

예제 1의 데이터를 사용하여 다음 테이블을 만들 수 있습니다.

티	태평양 표준시	2시	∑p t	∑2페이지	M(z(티))+D(z(티))
1	0,05	0,0025	0	0	500.00
2	0,07	0,0049	0,05	0,0025	6312,50
3	0,10	0,0100	0,12	0,0074	6622,22
4	0,13	0,0169	0,2	0,0174	6731,25
5	0,18	0,0324	0,35	0,0343	6764,00

표는 T * =1 간격마다 예방 유지보수가 수행되어야 함을 보여줍니다.

3. 한도기준

상한 기준은 예를 들어 이익을 최대화하거나 비용을 최소화하는 최적의 솔루션을 제공하지 않습니다. 오히려 정의에 해당합니다. 받아들일 수 있는행동 방식.

실시예 3. 일부 제품에 대한 단위 시간당 수요량 x(수요 강도)가 연속 분포 함수 f(x)로 제공된다고 가정해 보겠습니다. 처음에 재고가 적으면 나중에 상품이 부족할 수 있습니다. 그렇지 않으면 검토 기간이 끝날 때까지 판매되지 않은 상품의 재고가 매우 커질 수 있습니다. 두 경우 모두 손실이 가능합니다.

왜냐하면 부족으로 인한 손실을 결정하는 것은 매우 어렵습니다. 의사 결정자는 재고 가치가 유지되는 방식으로 필요한 재고 수준을 설정할 수 있습니다. 예상되는적자는 A 1 단위를 초과하지 않았으며 그 가치는 예상되는잉여분은 A 2 단위를 초과하지 않았습니다. 즉, I를 원하는 재고 수준이라고 하자. 그 다음에

예상 적자 = ∫(x-I)f(x)dx ≤ A 1 ,

기대 잉여 = ∫(I-x)f(x)dx ≤ A 2 .

A1과 A2를 임의로 선택하면 이러한 조건은 모순되는 것으로 판명될 수 있습니다. 이 경우 허용 가능성을 보장하려면 제한 사항 중 하나를 완화해야 합니다.

예를 들어,

f(x) = 20/x 2, 10≤x≤20,

f(x) = 0, x≤10 및 x≥20.

∫(x-I)f(x)dx = ∫(x-I)(20/x 2)dx = 20(ln(20/I) + I/20 – 1)

∫(I-x)f(x)dx = ∫(I-x)(20/x 2)dx = 20(ln(10/I) + I/10 – 1)

한계 수준 기준을 적용하면 불평등이 발생합니다.

ln(I) - I/20 ≥ ln(20) – A 1 /20 – 1 = 1.996 - A 1 /20

ln(I) - I/10 ≥ ln(10) – A 2 /20 – 1 = 1.302 - A 2 /20

한계값 A1과 A2는 적어도 하나의 I 값에 대해 두 부등식이 모두 충족되도록 선택해야 합니다.

예를 들어, A 1 = 2이고 A 2 = 4인 경우 불평등은 다음과 같은 형식을 취합니다.

ln(I) - I/20 ≥ 1.896

ln(I) - I/10 ≥ 1.102

I의 값은 10에서 20 사이여야 합니다. 변화를 요구하는 것은 이러한 한계 내입니다. 표는 구간 (13,17)에서 I에 대해 두 조건이 모두 충족됨을 보여줍니다.

나	10	11	12	13	14	15	16	17	18	19	20
ln(I) - I/20	1,8	1,84	1,88	1,91	1,94	1,96	1,97	1,98	1,99	1,99	1,99
ln(I) - I/10	1,3	19	18	16	14	11	1,17	1,13	1,09	1,04	0,99

이러한 값은 모두 문제의 조건을 충족합니다.

불확실한 상황에서의 의사결정

우리는 의사결정자가 직면하지 않는다고 가정할 것입니다. 합리적인적.

불확실성 하에서 결정을 내리는 데 필요한 데이터는 일반적으로 행렬 형태로 제공되며, 행은 가능한 조치에 해당하고 열은 시스템의 가능한 상태에 해당합니다.

예를 들어, 수용 가능한 비용으로 내구성을 확인할 수 없는 일부 재료로 제품을 만들어야 한다고 가정해 보겠습니다. 하중은 알려진 것으로 가정됩니다. 이 재료로 만든 제품의 치수를 결정해야 합니다.

가능한 해결책은 다음과 같습니다.

E 1 - 최대 내구성을 위한 크기 선택;

E m - 최소 내구성을 이유로 크기 선택;

E i는 중간 솔루션입니다.

고려해야 할 조건은 다음과 같습니다.

F 1 - 최대 내구성을 보장하는 조건

F n - 최소 내구성을 보장하는 조건;

F i는 중간 조건입니다.

여기서 e ij = e(E i ; F j) 결정의 결과는 옵션 E i 및 조건 F j에 해당하고 이익, 효용 또는 신뢰성을 특징짓는 평가로 이해될 수 있습니다. 일반적으로 우리는 이 결과를 호출합니다. 솔루션의 유용성.

그러면 해의 계열(행렬) ||e ij || 형식은 다음과 같습니다.

	F 1	F 2	...	Fn
전자 1	전자 11	전자 12	...	전자 1n
전자 2	전자 21	전자 22	...	전자 2n
...	...	...	...	...
엠	전자 m1	전자 m2	...	전자

명확하고 가능하다면 가장 수익성이 높은 솔루션을 찾으려면 평가(목표) 기능을 도입해야 합니다. 이 경우 결정 행렬 ||e ij || 한 열로 축소되었습니다. 각 옵션 E i에는 일반적으로 이 결정의 모든 결과를 특징으로 하는 특정 결과 e ir이 할당됩니다. 이 결과를 동일한 기호 e ir로 더 표시하겠습니다.

고전적인 결정 기준

1. 최소최대 기준.

최소최대 기준(MM 기준)에 따라 솔루션을 선택하는 규칙은 다음과 같이 해석될 수 있습니다.

결정 행렬에는 각 행의 가장 작은 결과 e ir에서 하나 이상의 열이 추가됩니다. 이 열의 e ir 값이 가장 높은 행에서 해당 옵션을 선택해야 합니다.

에 선택되었습니다. 옵션은 위험을 완전히 제거합니다. 이는 의사결정자가 자신이 목표로 삼는 것보다 더 나쁜 결과에 직면할 수 없다는 것을 의미합니다. 이 속성을 통해 우리는 MM 기준을 기본 기준 중 하나로 간주할 수 있습니다.

결정이 내려지는 상황이 다음과 같은 경우 MM 기준의 사용이 정당화됩니다.

외부 상태 Fj가 나타날 가능성에 대해서는 알려진 바가 없습니다.
우리는 다양한 외부 상태 Fj의 출현을 고려해야 합니다.
솔루션은 한 번만 구현됩니다.
모든 위험을 제거해야 합니다.

2. 베이즈-라플라스 기준.

외부 상태 Fj가 나타날 확률을 qi로 표시하겠습니다.

해당 선택 규칙은 다음과 같이 해석될 수 있습니다.

결정 행렬에는 각 행의 값에 대한 수학적 기대치를 포함하는 다른 열이 추가됩니다. 이 열의 가장 큰 값 e ir이 포함된 행의 옵션이 선택됩니다.

결정이 내려지는 상황은 다음과 같은 상황이 특징이라고 가정합니다.

상태 Fj가 나타날 확률은 알려져 있으며 시간에 의존하지 않습니다.
솔루션은 (이론적으로) 무한히 여러 번 구현됩니다.
소수의 솔루션 구현의 경우 어느 정도의 위험은 허용됩니다.

충분할 때 대량구현에 따라 평균값은 점차 안정화됩니다. 따라서 전체(무한) 구현을 통해 모든 위험이 실질적으로 제거됩니다.

저것. Bayes-Laplace 기준(B-L 기준)은 minimax 기준보다 더 낙관적이지만 더 큰 인식과 상당히 긴 구현 기간이 필요합니다.

3. 야만적인 기준.

a ij:= 최대 i (e ij) - e ij

e ir:= 최대 i(a ij) = 최대 j(최대 i(e ij) - e ij)

값 a ij는 상태 F j에서 옵션 E i 대신에 이 외부 상태에 최적인 다른 옵션을 선택할 경우 달성되는 최대 추가 이득으로 해석될 수 있습니다. a ij 값은 상태 F j에 대한 최적 옵션을 옵션 E i로 대체할 때 상태 F j에서 발생하는 손실(벌금)로 해석될 수도 있습니다. 후자의 경우 e ir은 옵션 E i를 선택한 경우 가능한 최대 손실(모든 외부 상태 F j, j = (1,n)에 걸쳐)을 나타냅니다.

Savage의 기준에 해당하는 선택 규칙은 이제 다음과 같이 해석됩니다.

결정 행렬의 각 요소 ||e ij || 해당 열의 가장 큰 결과 max(e ij)에서 을 뺍니다.
차이 a ij는 잔여 행렬 ||e ij ||를 형성합니다. 이 행렬에는 가장 큰 차이가 있는 열이 보충됩니다. e ir . 행에 이 열에 대한 가장 작은 값이 포함된 옵션을 선택하십시오.

결정이 내려지는 상황에 대한 요구사항은 MM 기준에 대한 요구사항과 일치합니다.

4. 예와 결론.

고려된 기준에 대한 요구 사항에서 엄격한 시작 위치로 인해 이상화된 경우에만 적용 가능하다는 것이 분명해졌습니다. 실용적인 솔루션. 너무 강한 이상화가 가능한 경우에는 서로 다른 기준을 동시에 적용할 수 있습니다. 그 후, 의사결정자는 여러 가지 옵션 중에서 의지적 방법을 사용하여 최종 결정을 선택합니다. 이 접근 방식을 사용하면 첫째로 의사 결정 문제의 모든 내부 연결을 더 잘 관통할 수 있으며 둘째로 주관적 요인의 영향을 약화시킬 수 있습니다.

예. 컴퓨터를 사용할 때에는 주기적으로 정보 처리를 일시 중지하고 컴퓨터 바이러스 검사를 실시해야 합니다. 정보 처리가 중단되면 특정 경제적 비용이 발생합니다. 바이러스가 제때에 감지되지 않으면 일부 정보가 손실될 수 있으며 이로 인해 더 큰 손실이 발생할 수 있습니다.

가능한 해결책은 다음과 같습니다.

E 1 - 전체 점검;

E 2 - 최소 점검;

E 3 - 확인 거부.

컴퓨터는 다음과 같은 상태일 수 있습니다.

F 1 - 바이러스 없음;

F 2 - 바이러스가 있지만 정보를 손상시킬 시간이 없었습니다.

F 3 - 복원해야 할 파일이 있습니다.

바이러스 검색 및 제거 비용과 정보 복구 관련 비용을 포함한 결과는 다음과 같은 형식을 갖습니다.

	F 1	F 2	여 3	MM 기준		기준 B~L
	F 1	F 2	여 3	e ir = 최소 j (e ij)	최대 i (e ir)	e ir = ∑e ij	최대 i (e ir)
전자 1	-20,0	-20	-25,0	-25,0	-25,0	-22,33
전자 2	-14,0	-23,0	-31,0	-31,0		-22,67
마 3	0	-24.0	-40.0	-40.0		-21.33	-21.33

MM 기준에 따라 전체 점검을 수행해야 합니다. Bayes-Laplace 기준은 기계의 모든 상태가 동일할 가능성이 있다는 가정하에 이루어집니다.

	F 1	F 2	여 3	야만적인 기준
	F 1	F 2	여 3	e ir = 최소 j (a ij)	최소 j(e ir)
전자 1	+20,0	0	0	+20,0
전자 2	+14,0	+1,0	+6,0	+14,0	+14,0
마 3	0	+2,0	+15,0	+15,0

이 예는 각 기준이 새로운 솔루션을 제공하도록 특별히 선택되었습니다. 수표를 통해 컴퓨터가 발견한 상태의 불확실성은 어떤 기준을 따라야 하는지에 대한 불확실성으로 변합니다.

기준이 다르기 때문에 다른 조건, 결정이 내려지면 특정 기준의 권장 사항에 대한 비교 평가를 얻는 가장 좋은 방법은 다음을 얻는 것입니다. 추가 정보상황 자체에 대해. 특히, 동일한 매개변수를 가진 수백 대의 기계에 대한 결정을 내리는 경우 Bayes-Laplace 기준을 사용하는 것이 좋습니다. 기계 수가 많지 않은 경우 minimax 또는 Savage 기준을 사용하는 것이 좋습니다.

파생된 기준.

1. 허위츠 기준.

가장 균형 잡힌 입장을 취하기 위해 Hurwitz는 극단적인 낙관주의와 극단적인 비관주의의 관점 사이 어딘가에 해당하는 평가 기능을 제안했습니다.

최대 i (e ir) = ( C⋅min j (e ij) + (1-C)⋅max j (e ij) ),

여기서 C는 가중치입니다.

Hurwitz 기준에 따른 선택 규칙은 다음과 같이 구성됩니다.

결정 매트릭스 ||e ij || 각 행에 대한 최소 및 최대 결과의 가중 평균을 포함하는 열로 보완됩니다. 행에 이 열의 가장 큰 요소 e e ir이 포함된 옵션만 선택됩니다.

C=1에서 Hurwitz 기준은 MM 기준으로 변경됩니다. C = 0이면 "도박꾼" 기준으로 전환됩니다.

최대 i(e ir) = 최대 i(최대 j(e ij)),

저것들. 우리는 최고의 기회가 "올라올" 것이라고 베팅하는 도박꾼의 관점을 취합니다.

기술적 응용에서는 가중치 C를 선택하기가 어렵습니다. 결정을 내릴 때 존재하는 낙관론과 비관론의 양적 특성을 찾는 것은 어렵습니다. 따라서 대부분 C: = 1/2입니다.

Hurwitz 기준은 다음과 같은 경우에 적용됩니다.

상태 Fj의 발생 확률에 대해서는 알려진 바가 없습니다.
상태 Fj의 모양이 고려되어야 합니다.
소수의 솔루션만 구현됩니다.
약간의 위험은 허용됩니다.

2. Hodge-Lehman 기준.

이 기준은 MM 기준과 Bayes-Laplace 기준을 동시에 기반으로 합니다. 매개변수 n은 사용된 확률 분포의 신뢰도를 나타냅니다. 신뢰도가 높으면 Bayes-Laplace 기준이 우세하고, 그렇지 않으면 MM 기준이 우세합니다. 우리는 ~을 찾고있다

최대 i (e ir) = 최대 i (v⋅∑e ij ⋅q i + (1-v) min j (e ir)), 0 ≤ n ≤ 1.

Hodge-Lehman 기준에 해당하는 선택 규칙은 다음과 같이 구성됩니다.

결정 매트릭스 ||e ij || 가중 평균(가중치 v=const 사용) 수학적 기대치와 각 라인의 가장 작은 결과(*)로 구성된 열로 보완됩니다. 이 열에서 가장 큰 값을 갖는 행의 솔루션 옵션이 선택됩니다.

v = 1에서는 Hodge-Lehman 기준이 Bayes-Laplace 기준이 되고, v = 0에서는 최소최대 기준이 됩니다.

v의 선택은 주관적입니다. 왜냐하면 모든 분포 함수의 신뢰성 정도가 불분명하기 때문입니다.

Hodge-Lehman 기준을 적용하려면 의사결정이 이루어지는 상황이 다음 속성을 만족하는 것이 바람직합니다.

상태 Fj의 발생 확률은 알려져 있지 않지만 확률 분포에 대한 일부 가정은 가능합니다.
채택된 솔루션은 이론적으로 무한히 많은 구현을 허용합니다.
판매량이 적기 때문에 어느 정도의 위험은 허용됩니다.

3. Germeier 기준.

이 기준은 손실 금액에 중점을 둡니다. ~에 음수 값모두 ij . 여기서

최대 i (e ir) = 최대 i (최소 j (e ij)q j) .

왜냐하면 경제 문제에서는 주로 가격과 비용을 다룬다.<0 обычно выполняется. В случае же, когда среди величин e ij встречаются и положительные значения, можно перейти к строго отрицательным значениям с помощью преобразования e ij -a при подходящем образом подобранном a>0. 동시에 최선의 선택결정은 a에 달려 있습니다.

Germeyer 기준에 따른 선택 규칙은 다음과 같이 공식화됩니다.

결정 매트릭스 ||e ij || 각 행에 사용 가능한 결과의 가장 작은 곱과 해당 상태 F j 의 확률을 포함하는 다른 열이 추가됩니다. 해당 옵션은 이 열의 가장 큰 값 e e ij 가 발견된 행에서 선택됩니다.

어떤 의미에서 Germeyer 기준은 MM 기준을 일반화합니다. 균일 분포 q j = 1/n, j=(1,n)의 경우 두 기준은 동일해집니다.

적용 가능 조건은 다음과 같습니다.

특정 조건의 출현을 개별적으로 또는 조합하여 고려해야 합니다.
어느 정도의 위험은 허용됩니다.
솔루션은 한 번 이상 구현할 수 있습니다.

분포 함수가 매우 확실하게 알려져 있지 않고 실현 수가 작은 경우 Germeyer 기준에 따르면 일반적으로 말해서 불합리하게 큰 위험을 얻게 됩니다.

4. Bayes-Laplace 기준과 minimax 기준을 결합했습니다.

지금까지 고려한 모든 기준보다 기존 상황에 더 잘 적응할 수 있는 기준을 얻으려는 욕구가 소위 복합 기준을 구축하게 되었습니다. 일례로 Bayes-Laplace 기준과 Minimax 기준(BL(MM) 기준)을 결합하여 얻은 기준을 생각해 보겠습니다.

이 기준에 대한 선택 규칙은 다음과 같이 공식화됩니다.

결정 매트릭스 ||e ij || 세 개의 열이 더 추가됩니다. 첫 번째에는 각 라인의 수학적 기대치가 기록되고 두 번째에는 기준 값의 차이가 기록됩니다.

e i 0 j 0 = 최대 i (최대 j (e ij))

그리고 가장 작은 값

해당 라인. 세 번째 열에는 가장 큰 값 간의 차이가 포함됩니다.

각 행과 e i 0 j 0 값이 위치한 행의 가장 큰 값 max j (ei 0 j)입니다. 해당 옵션은 행(아래 두 번째 열과 세 번째 열의 요소 사이에 제공된 관계에 따라)이 가장 큰 수학적 기대치를 제공하는 것으로 선택됩니다. 즉, 해당 값은

e i 0 j 0 - 최대 j (e ij)

두 번째 열의 값은 미리 결정된 위험 수준 E add와 같거나 같아야 합니다. 세 번째 열의 값은 두 번째 열의 값보다 커야 합니다.

이 기준의 적용은 결정이 내려지는 상황의 다음과 같은 특성에 기인합니다.

상태 Fj의 발생 확률은 알려져 있지 않지만 특정 분포를 선호하는 선험적 정보가 있습니다.
개별적으로나 조합하여 다양한 조건의 출현을 고려할 필요가 있습니다.
제한된 위험은 허용됩니다.
내린 결정은 한 번 또는 반복적으로 실행됩니다.

BL(MM) 기준은 주로 기술 분야에서 실용적인 솔루션을 구축하는 데 매우 적합하며 상당히 신뢰할 수 있는 것으로 간주될 수 있습니다. 그러나 주어진 위험 E 추가 제한 및 그에 따른 위험 평가 E i는 솔루션의 적용 횟수나 기타 유사한 정보를 고려하지 않습니다. 주관적 요인의 영향은 약화되었지만 완전히 배제되지는 않습니다.

최대 j(e ij)-최대 j(e i 0 j)≥E i

솔루션이 한 번만 구현되거나 횟수가 적은 경우에는 필수적입니다. 이러한 조건에서는 불리한 외부 조건과 평균값에만 관련된 위험에만 초점을 맞추는 것만으로는 충분하지 않습니다. 그러나 이로 인해 성공 시 약간의 손실을 입을 수 있습니다. 외부 상태. ~에 큰 숫자구현에서는 이 조건이 더 이상 중요하지 않습니다. 심지어 합리적인 대안도 허용합니다. 그러나 이 조건을 생략해야 하는 경우에 대한 명확한 정량적 지표는 없습니다.

5. 저작물의 기준.

최대 i (e ir):= 최대 i (∏e ij)

이 경우의 선택 규칙은 다음과 같이 공식화됩니다.

결정 행렬 ||e ij || 각 행의 모든 결과의 곱을 포함하는 새 열로 보완됩니다. 이 열의 행에 가장 큰 값이 포함된 옵션이 선택됩니다.

이 기준이 적용되는 이유는 다음과 같습니다.

상태 Fj의 발생 확률은 알려져 있지 않습니다.
각 상태 Fj의 모양은 개별적으로 고려되어야 합니다.
이 기준은 소수의 솔루션 구현에도 적용 가능합니다.
약간의 위험은 허용됩니다.

제품 기준은 주로 모든 eij가 양수인 경우에 적용됩니다. 양성 조건을 위반하면 a>|min ij (e ij)| 상수를 사용하여 e ij +a 이동을 수행해야 합니다. 결과는 자연스럽게 a에 따라 달라집니다. 실제로는 가장 자주

a:= |최소 ij (e ij)|+1.

어떤 상수도 의미가 있다고 인식될 수 없다면, 제품 기준은 적용되지 않습니다.

예.

이전과 동일한 예를 살펴보겠습니다(위 참조).

Hurwitz 기준에 따른 수표 결정 매트릭스에 대한 최적 솔루션의 구성은 다음과 같은 형식을 갖습니다(C = 0, in 10 3).

\|\|에이 ij \|\|			С⋅min j (e ij)	(1-С)⋅최대 j (e ij)	전자	최대 i (e ir)
-20,0	-22,0	-25,0	-12,5	-10.0	-22,5
-14,0	-23.0	-31.0	-15,5	-7.0	-22,5
0	-24.0	-40.0	-20.0	0	-20.0	-20.0

이 예에서 솔루션은 가중치 C와 관련된 전환점을 갖습니다. 최대 C = 0.57에서는 E 3이 최적으로 선택됩니다. 큰 값- E 1.

Hodge-Lehman 기준 적용(q=0.33, v=0, 10 3):

∑e ij ⋅q j	최소 j(e ij)	v⋅∑e ij ⋅q j	(1-v)⋅∑e ij ⋅q j	전자	최대 i (e ir)
-22,33	-25,0	-11,17	-12,5	-23,67	-23,67
-22,67	-31,0	-11,34	-15,5	-26,84
-21,33	-40,0	-10,67	-20,0	-30,76

Hodge-Lehman 기준은 MM 기준과 마찬가지로 옵션 E 1(완전 검증)을 권장합니다. 권장 옵션은 v=0.94에서만 변경됩니다. 따라서 해당 기계의 상태의 균일한 분포는 매우 높은 확률로 인식되어야 더 높은 수학적 기대치를 기반으로 선택할 수 있습니다. 이 경우 솔루션 구현 수는 항상 임의적으로 유지됩니다.

q j = 0.33에서 Germeyer 기준은 다음과 같은 결과를 제공합니다(10 3에서):

\|\|에이 ij \|\|			\|\|e ij q j \|\|			e ir = 최소 j (e ij q j)	최대 i (e ir)
-20,0	-22,0	-25,0	-6,67	-7,33	-8,33	-8,33	-8,33
-14,0	-23,0	-31,.0	-4,67	-7,67	-10,33	-10,33
0	-24,0	-40,0	0	-8,0	-13,33	-13,33

옵션 E 1이 최적으로 선택되었습니다. e ir 값을 사용한 옵션 비교는 Germeier 기준이 작동하는 방식이 MM 기준보다 훨씬 더 유연하다는 것을 보여줍니다.

아래 표에서는 q 1 =q 2 =q 3 =1/2(10 3의 데이터)에서 BL(MM) 기준에 따라 해가 선택됩니다.

\|\|에이 ij \|\|			∑e ij q j	e i 0 j 0 - 최소 j (e ij)	최대 j(e ij)	최대 j(e ij) - 최대 j(e i 0 j)
-20,0	-22,0	-25,0	-23,33	0	-20,0	0
-14,0	-23,0	-31,0	-22,67	+6,0	-14,0	+6,0
0	-24,0	-40,0	-21,33	+15,0	0	+20,0

옵션 E 3(검증 거부)은 위험이 Epossible = 15⋅10 3 에 접근하는 경우에만 이 기준에 의해 허용됩니다. 그렇지 않으면 E1이 최적인 것으로 판명됩니다. 많은 기술 및 비즈니스 문제에서 허용 가능한 위험은 훨씬 낮으며 일반적으로 총 비용의 작은 비율에 해당합니다. 안에 유사한 사례다음과 같은 경우 특히 가치가 있습니다. 부정확한 값확률 분포는 그다지 큰 영향을 미치지 않습니다. 어떤 결정을 내리든 관계없이 허용 가능한 위험 E를 추가로 미리 설정하는 것이 불가능한 것으로 판명된 경우 가능한 예상 위험 E를 계산하는 것이 도움이 될 수 있습니다. 그러면 그러한 위험이 정당한지 여부를 고려하는 것이 가능해집니다. 그러한 연구는 일반적으로 더 쉽습니다.

a = 41⋅10 3 및 a = 200⋅10 3에 대한 곱 기준을 적용한 결과는 다음과 같은 형식을 갖습니다.

ㅏ	\|\|e ij + a\|\|			e ir = ∏ j e ij	최대 나는 ir
41	+21	+19	+16	6384	6384
	+27	+18	+10	4860
	+41	+17	+1	697
200	+180	+178	+175	5607
	+186	+177	+169	5563
	+200	+176	+160	5632	5632

이 행렬에서는 조건 e ij > 0이 충족되지 않습니다. 따라서 먼저 a = 41⋅10 3 과 a = 200⋅10 3 이 (외부 임의성에 의해) 행렬의 요소에 추가됩니다.

a = 41⋅10 3의 경우 옵션 E 1이 최적인 것으로 판명되고, a = 200⋅10 3의 경우 옵션 E 3이 최적인 것으로 판명되므로 a에 대한 최적 옵션의 의존성은 명백합니다.

알아채다!특정 문제에 대한 해결책은 아래 제시된 모든 표, 설명 텍스트 및 그림을 포함하여 이 예와 유사해 보이지만 초기 데이터를 고려하면...

일:
매트릭스 게임은 다음과 같은 보수 매트릭스로 제공됩니다.

전략 "B"

전략 "A"

비 1

비 2

A 1

A 2

3

2

매트릭스 게임에 대한 해결책을 찾으십시오. 즉,
- 게임의 최고 가격을 찾아보세요.
- 게임 가격이 저렴합니다.
- 정가계략;
- 플레이어의 최적 전략을 나타냅니다.
- 필요한 경우 그래픽 솔루션(기하학적 해석)을 제공합니다.

1 단계

게임의 낮은 가격을 결정합시다 - α

최저 게임 가격α는 게임 전체에서 단 하나의 전략(이 전략을 "순수"라고 함)을 사용하는 경우 합리적인 상대와의 게임에서 우리가 보장할 수 있는 최대 승리입니다.

결제 매트릭스의 각 행에서 찾아보겠습니다. 최저한의요소를 추가 열에 작성합니다(선택됨). 노란색표 1 참조).

그럼 우리가 찾아볼게 최고추가 열의 요소(별표로 표시)는 게임의 더 낮은 가격이 됩니다.

1 번 테이블

전략 "B"

전략 "A"

비 1

비 2

행 최소값

A 1

3 *

A 2

3

2

3

2

우리의 경우 게임의 최저 가격은 다음과 같습니다. α = 3, 3보다 나쁘지 않은 승리를 보장하려면 전략 A 1을 고수해야 합니다.

2 단계

게임의 최고 가격을 결정합시다 - β

최고 게임 가격β는 플레이어 B가 게임 내내 단 하나의 전략만 사용하는 경우 합리적인 상대와의 게임에서 자신이 보장할 수 있는 최소 손실입니다.

결제 매트릭스의 각 열에서 찾아보겠습니다. 최고요소를 선택하고 아래 추가 줄에 작성합니다(노란색으로 강조 표시됨, 표 2 참조).

그럼 우리가 찾아볼게 최저한의추가 라인의 요소(더하기로 표시)가 게임의 최고 가격이 됩니다.

표 2

전략 "B"

전략 "A"

비 1

비 2

행 최소값

A 1

3 *

A 2

3

2

우리의 경우 게임의 최고 가격은 다음과 같습니다. β = 5, 그리고 5보다 나쁘지 않은 손실을 보장하려면 상대(플레이어 "B")는 전략 B 2를 준수해야 합니다.

단계:3
바닥을 비교해 볼까요? 최고 가격게임, 이 작업에서는 서로 다릅니다. α ≠ β, 보수 행렬에는 안장점이 포함되어 있지 않습니다. 이는 게임이 순수한 미니맥스 전략에는 해결책이 없지만 혼합 전략에는 항상 해결책이 있다는 것을 의미합니다.

혼합 전략, 이는 특정 확률(빈도)을 사용하여 무작위로 교대하는 순수 전략입니다.

플레이어 "A"의 혼합 전략을 나타냅니다.

에스 A=

여기서 B 1, B 2 는 플레이어 B의 전략이고 q 1 , q 2 는 각각 이러한 전략이 적용될 확률이며 q 1 + q 2 = 1입니다.

플레이어 "A"를 위한 최적의 혼합 전략은 그에게 최대 보상을 제공하는 전략입니다. 따라서 "B"의 경우 최소 손실이 발생합니다. 이러한 전략은 지정됩니다. 에스 A* 및 에스 B* 각각. 한 쌍의 최적 전략이 게임에 대한 솔루션을 형성합니다.

일반적으로 플레이어의 최적 전략에는 모든 초기 전략이 포함되지 않고 일부만 포함될 수 있습니다. 그러한 전략을 소위 적극적인 전략.

단계:4

어디: 피 1 , 피 2 - 전략 A 1 및 A 2가 각각 적용되는 확률(빈도)

게임 이론에 따르면 플레이어 "A"가 최적의 전략을 사용하고 플레이어 "B"가 활성 전략의 틀 내에 머무르면 평균 보상은 변경되지 않고 게임 비용과 동일하다고 알려져 있습니다. V플레이어 "B"가 자신의 활성 전략을 어떻게 사용하는지에 관계없이. 그리고 우리의 경우에는 두 전략이 모두 활성화되어 있습니다. 그렇지 않으면 게임은 순수 전략에 대한 솔루션을 갖게 됩니다. 따라서 플레이어 "B"가 순수 전략 B 1을 사용한다고 가정하면 평균 보상은 다음과 같습니다. V될거야:

케이 11 피 1 + 케이 21 피 2 = v (1)

어디: 케이 ij - 지불 매트릭스의 요소입니다.

반면에 플레이어 "B"가 순수 전략 B 2를 사용한다고 가정하면 평균 보상은 다음과 같습니다.

케이 12 피 1 + 케이 22 피 2 = v (2)

방정식 (1)과 (2)의 왼쪽을 동일시하면 다음을 얻습니다.

k11p1 + k21p2 = k12p1 + k22p2

그리고 그 사실을 고려하면 피 1 + 피 2 = 1 우리는:

k 11 p 1 + k 21 (1 - p 1 ) = k 12 p 1 + k 22 (1 - p 1 )

전략 A 1의 최적 빈도를 쉽게 찾을 수 있는 경우:

피 1 =

케이 22 - 케이 21

케이 11 + 케이 22 - 케이 12 - 케이 21

(3)

이 작업에서는 다음을 수행합니다.

피 1 =

개연성 아르 자형 2 뺄셈으로 찾기 아르 자형 1 유닛에서:

피 2 = 1 - 피 1 =

어디: 큐 1 , 큐 2 - 전략 B 1 및 B 2가 각각 적용되는 확률(빈도)

게임 이론에 따르면 플레이어 "B"가 최적의 전략을 사용하고 플레이어 "A"가 활성 전략의 틀 내에 남아 있으면 평균 보상은 변경되지 않고 게임 비용과 동일하다고 알려져 있습니다. V플레이어 A가 자신의 활성 전략을 어떻게 사용하는지에 관계없이. 따라서 플레이어 "A"가 순수 전략 A 1을 사용한다고 가정하면 평균 보상은 다음과 같습니다. V될거야:

케이 11 q 1 + 케이 12 q 2 = v (4)

게임 가격부터 V 우리는 이미 그것을 알고 있고 그것을 고려하고 있습니다 큐 1 + 큐 2 = 1 , 전략 B 1의 최적 빈도는 다음과 같이 찾을 수 있습니다.

큐 1 =

V - 케이 12

케이 11 - 케이 12

(5)

이 작업에서는 다음을 수행합니다.

큐 1 =

개연성 큐 2 뺄셈으로 찾기 큐 1 유닛에서:

큐 2 = 1 - 큐 1 =

답변:

최저 게임 가격:

α =

최고 게임 가격:

β =

게임 가격:

V =

플레이어 A의 최적 전략:

에스 A*=

A 1

A 2

플레이어 "B"를 위한 최적의 전략:

에스 B*=

비 1

비 2

기하학적 해석(그래픽 솔루션):

고려된 게임에 기하학적 해석을 해보자. 단위 길이의 가로축의 단면을 취하고 그 양끝을 지나는 수직 직선을 그립니다. ㅏ 1 그리고 ㅏ 2 우리의 전략 A 1 및 A 2 에 해당합니다. 이제 플레이어 "B"가 전략 B 1을 순수한 형태로 사용할 것이라고 가정해 보겠습니다. 그런 다음 우리(플레이어 "A")가 순수 전략 A 1을 사용하면 보상은 3이 됩니다. 축에 해당 지점을 표시해 보겠습니다. ㅏ 1 .
순수 전략 A 2를 사용하면 보수는 6이 됩니다. 축에 해당 지점을 표시해 보겠습니다. ㅏ 2
(그림 1 참조). 분명히 A 1과 A 2 전략을 서로 다른 비율로 혼합하여 적용하면 좌표가 (0, 3)과 (1, 6)인 점을 통과하는 직선을 따라 승리가 변경됩니다. 이를 전략 B의 라인이라고 부르겠습니다. 1 (그림 .1에서 빨간색으로 표시). 주어진 선에 있는 임의의 점의 가로좌표는 확률과 같습니다. 피 2 (빈도) 전략 A 2를 적용하고 세로 좌표 - 결과 이득 케이 (그림 1 참조).

그림 1.
보수 그래프 케이 주파수에서 2페이지 , 적이 전략을 사용할 때 비 1.

이제 플레이어 "B"가 순수한 형태로 전략 B 2를 사용할 것이라고 가정해 보겠습니다. 그런 다음 우리(플레이어 "A")가 순수 전략 A 1을 사용하면 보수는 5가 됩니다. 순수 전략 A 2를 사용하면 보수는 3/2이 됩니다(그림 2 참조). 마찬가지로 전략 A 1과 A 2를 서로 다른 비율로 혼합하면 좌표 (0, 5)와 (1, 3/2)가 있는 점을 통과하는 직선을 따라 승리가 변경됩니다. 이를 전략 라인이라고 부르겠습니다. ㄴ 2. 이전 사례에서와 마찬가지로 이 선의 임의 지점의 가로 좌표는 전략 A 2를 적용하는 확률과 동일하며 세로 좌표는 결과 이득이지만 전략 B 2에만 해당됩니다(그림 2 참조).

그림 2.
V 그리고 최적의 빈도 2페이지 플레이어를 위해 "ㅏ".

안에 실제 게임, 합리적인 플레이어 "B"가 자신의 모든 전략을 사용하면 우리의 승리는 그림 2에 빨간색으로 표시된 파선을 따라 변경됩니다. 이 줄은 소위를 정의합니다 상금 하한선. 분명 가장 최고점이 파선은 우리의 최적 전략에 해당합니다. 이 경우 이는 전략 B1과 B2의 선이 교차하는 지점입니다. 주파수를 선택하는 경우 피 2 가로좌표와 같으면 이득은 변경되지 않고 동일하게 유지됩니다. V 또한 플레이어 "B"의 모든 전략에 대해 이는 우리가 보장할 수 있는 최대값이 됩니다. 빈도(확률) 피 2 , 이 경우 최적의 혼합 전략에 해당하는 빈도입니다. 그런데 그림 2에서 주파수를 볼 수 있습니다. 피 1 최적의 혼합 전략인 는 세그먼트의 길이입니다. 피 2 ; 1] x 축에. (왜냐하면 피 1 + 피 2 = 1 )

완전히 유사한 추론을 사용하여 그림 3에 표시된 것처럼 플레이어 "B"에 대한 최적의 전략 빈도를 찾을 수 있습니다.

그림 3.
게임 가격의 그래픽 결정 V 최적의 주파수 q 2 플레이어를 위해 "안에".

그에게만 소위 손실의 상한(빨간색 파선) 그 위에서 가장 낮은 지점을 찾으세요. 왜냐하면 플레이어 "B"의 목표는 손실을 최소화하는 것입니다. 동일한 주파수 값 큐 1 , 이것은 세그먼트의 길이입니다 [ 큐 2 ; 1] x 축에.

게임 이론은 갈등 상황에서 최적의 행동에 대한 수학적 이론입니다. 연구 주제는 공식화된 갈등 모델 또는 소위 "게임"입니다. 게임 이론의 주요 임무는 참가자의 최적의 행동 전략을 결정하는 것입니다. 게임 이론의 적용 분야는 주로 목표의 차이와 갈등 참가자 간의 특정 결정 자유의 존재로 인해 발생하는 관리의 복잡한 행동 측면에 중점을 둡니다.

갈등 상황 또는 "충돌"은 시스템의 요소들 사이에 여러 가지 목표가 존재하고 이러한 목표를 달성하기 위한 이해관계, 행동 과정 또는 전략의 관련 차이로 정의됩니다. 갈등은 두 사람이 추구하는 대립으로 나누어진다. 반대 이익그리고 비적대적, 이해관계가 다르지만 반대가 아닌 경우. 후자의 경우 갈등은 두 개인 간의 투쟁 형태가 아니라 시스템 목표의 비호환성 또는 자원 사용의 다른 (반대) 성격의 형태로 표현되며, " 게임 내, 경쟁 상황 등에서 자연'을 의미합니다.

위에서 언급한 것처럼 운영 연구 문제에 있어서 우리는 항상 최적의 솔루션을 찾고 있습니다. 특정 목표를 달성하기 위한 일련의 조치로서 당사의 "운영"은 다음을 기반으로 수행됩니다. 이론적 방법실제 조건과 관련하여 가장 좋은 의미에서 최적화는 "적"으로 작용하는 이러한 조건과의 "투쟁"으로 간주될 수 있습니다. 이 환경에서 우리는 마치 "적"의 피해를 희생하는 것처럼 성공을 달성합니다.

그러나 작전 연구는 작전 중 "적"의 행동 방식이 변하지 않고 우리에게 어느 정도 알려진 경우에만 이러한 문제를 해결하기 위해 노력합니다. 전략의 선택은 일반적으로 원칙에 기초합니다. 보장된 결과: 적이 어떤 결정을 내리더라도 우리에게는 어느 정도의 이득이 보장되어야 합니다. 그러나 이러한 갈등 상황은 연구 대상이 아니며 당사자의 행동이 이루어지는 배경으로 간주됩니다. 운영연구는 한쪽의 입장만 취한다.

수학적 게임 이론은 또한 우리가 실제 상대에 대해 이야기하고 있는지 아니면 상대방이 자연으로 대표되는지에 관계없이 전략 선택을 연구하지만 여기서는 양쪽이 동등한 파트너로 행동합니다. 게임 이론은 대결의 역학에서 양 당사자의 행동 동기를 고려하여 갈등의 내부 본질을 연구합니다.

게임이론에서 고려되는 정식 게임은 매우 다양하다. 운영 연구와 유사합니다. 다양한 방법최적의 전략을 찾고 있습니다. 그러나 이 경우 방법과 실제 상황 사이의 연결이 훨씬 더 가까워 본질적으로 결정됩니다. 게임의 추상적 구성은 한편으로는 상황의 모델과 유사하지만, 다른 한편으로는 하나 또는 다른 형식적 방법을 적용하기 위한 자료입니다.

각 게임은 세 가지 주요 문제를 다룹니다.

이 게임에서 각 플레이어의 최적의 행동은 무엇입니까?

최적성에 대한 이러한 이해가 실현 가능합니까? 적절한 전략이 있는가?

최적의 전략이 존재한다면 어떻게 찾을 수 있습니까?

세 가지 질문 모두에 대한 긍정적인 해결 결과, 문제 해결 및 해당 모델 구축의 경로가 결정됩니다.

게임 이론은 매우 젊은 분야이며 이론적으로 개발된 방법과 모델의 재고가 운영 연구를 왜소하게 만듭니다. 이는 게임 이론 문제의 상당한 복잡성에도 반영됩니다. 알려진 전체 모델 복합체를 자세히 고려할 기회가 없으면 가장 간단한 모델 중 일부만 지적하겠습니다.

1) 제로섬 게임. 플레이어의 모든 전략은 한쪽의 이득이 다른 쪽의 손실과 정확히 같을 때 결과로 이어집니다. 보상 매트릭스에는 모든 긍정적인 요소가 있으며 가능한 모든 전략 조합에 대해 각 측면에 최적의 옵션이 권장될 수 있습니다. 이 유형게임은 적대적입니다.

2) 넌제로섬 게임. 게임의 전반적인 모습입니다. 정당들 사이에 연관성이 없고 정당들이 연합을 형성할 수 없는 경우 게임은 적대적 게임이고, 그렇지 않으면 이해관계가 반대되지 않는 연합 게임입니다. 이러한 게임의 분석은 대부분의 경우 특히 복잡한 시스템의 경우 어렵고 전략 선택에 대한 권장 사항은 여러 요인에 따라 달라집니다.

자동화 제어 시스템의 중요한 유형은 연합 또는 협동 게임. 이러한 게임에서는 참가자가 특정 계약상의 의무(상금의 일부를 파트너에게 양도, 정보 교환 등)를 이행해야 합니다. 이는 유리한 상황에 있는 한 당사자가 합의를 위반하려고 시도하는 경우 그러한 연합의 안정성에 대한 의문을 제기합니다. 이로 인해 분리주의자를 처벌할 수 있는 제3의 통제 기관을 도입할 가능성이 높아졌습니다. 연합의 이익을 줄이는 비용이 필요합니다. 분명히 게임은 훨씬 더 복잡해지겠지만, 그러한 작업의 실질적인 가치는 의심할 여지가 없습니다.