게임이론 분야에 대한 강의. 게임이론 강의

강의 11: 게임이론과 의사결정

게임이론의 주제와 과제

시스템 분석의 고전적인 문제는 위험과 불확실성이 존재하는 게임 기반 의사 결정 문제입니다.

작전의 목표, 작전 수행 조건, 작전의 성공 여부를 좌우하는 상대방이나 다른 사람의 의식적인 행동 모두 불확실할 수 있습니다.

위험과 불확실성이 있는 상황에서 결정을 정당화하기 위해 특별한 수학적 방법이 개발되었습니다. 가장 간단한 경우 중 일부에서는 이러한 방법을 사용하여 실제로 검색하고 선택할 수 있습니다. 최적의 솔루션. 더 복잡한 경우 이러한 방법은 복잡한 상황을 더 잘 이해하고 다양한 관점에서 가능한 각 솔루션을 평가하고 이를 고려하여 결정을 내릴 수 있는 보조 자료를 제공합니다. 가능한 결과. 이 경우 의사결정을 위한 중요한 조건 중 하나는 위험 최소화입니다.

운영 연구(생태 분야, 생명 안전 보장 등)의 여러 실질적인 문제를 해결하려면 두 개 이상의 전쟁 당사자가 충돌하여 서로 다른 목표를 추구하는 상황과 결과를 분석해야 합니다. 각 당사자의 모든 행동은 적이 어떤 행동을 선택할 것인지에 따라 달라집니다. 우리는 다음과 같은 상황을 분류할 수 있습니다. 갈등 상황.

게임 이론은 갈등 상황에 대한 수학적 이론으로, 이를 통해 갈등 참가자의 합리적인 행동 과정에 대한 권장 사항을 개발할 수 있습니다. 2차 요인을 고려하지 않고 상황에 대한 수학적 분석을 가능하게 하기 위해 상황에 대한 단순화되고 도식화된 모델이 구축됩니다. 게임. 게임은 다음에 따라 진행됩니다. 특정 규칙, 이는 플레이어의 행동에 대해 가능한 옵션을 규제하는 조건 시스템으로 이해됩니다. 각 당사자가 상대방의 행동에 대해 갖고 있는 정보의 양; 주어진 각 동작 세트로 이어지는 게임의 결과입니다.

게임의 결과(승패)가 항상 정량적으로 표현되는 것은 아니지만, 일반적으로 적어도 조건에 따라 수치로 표현하는 것은 가능합니다.

이동은 게임 규칙과 구현에 따라 제공되는 작업 중 하나를 선택하는 것입니다. 동작은 개인 동작과 무작위 동작으로 구분됩니다. 개인적인 움직임은 플레이어가 가능한 행동 옵션 중 하나와 그 구현을 의식적으로 선택하는 것입니다. 무작위 이동은 플레이어의 결정이 아니라 무작위 선택 메커니즘(동전 던지기, 섞인 덱에서 카드 선택 등)을 통해 수행되는 다양한 가능성 중에서 선택하는 것입니다. 각 무작위 이동에 대해 게임 규칙에 따라 가능한 결과의 확률 분포가 결정됩니다. 게임은 개인 동작만으로 구성되거나 무작위 동작으로만 구성되거나 둘의 조합으로 구성될 수 있습니다. 게임이론의 다음 주요 개념은 전략의 개념이다. 전략은 플레이어가 선험적으로 채택한 결정 시스템("if-then" 유형)으로, 게임을 플레이하는 동안 고수하며 알고리즘의 형태로 제시되고 자동으로 실행될 수 있습니다.

게임 이론의 목표는 갈등 상황에서 플레이어의 합리적인 행동에 대한 권장 사항을 개발하는 것입니다. 즉, 각 플레이어에 대한 "최적의 전략"을 결정하는 것입니다. 하나의 지표에 최적인 전략이 다른 지표에도 반드시 최적인 것은 아닙니다. 이러한 한계를 인식하고 게임 방법으로 얻은 권장 사항을 맹목적으로 고수하지 않고도 게임 이론의 수학적 장치를 현명하게 사용하여 최적은 아니지만 적어도 "수용 가능한" 전략을 개발할 수 있습니다.

계략플레이어 수, 전략 수, 플레이어 간 상호 작용 성격, 승리 성격, 이동 횟수, 정보 상태 등에 따라 분류할 수 있습니다. .

플레이어 수에 따라 2인과 n인 플레이어의 게임이 있습니다. 그 중 첫 번째가 가장 많이 연구되었습니다. 3명 이상의 플레이어가 참여하는 게임은 근본적인 어려움과 해결책을 얻을 수 있는 기술적 가능성으로 인해 덜 연구되었습니다.

가능한 전략의 수에 따라 게임은 " 결정적인" 그리고 " 끝없는».

각 플레이어가 유한한 수의 전략만 가지고 있으면 게임을 유한이라고 하고, 플레이어 중 적어도 한 명이 무한한 수의 전략을 가지고 있으면 무한하다고 합니다.

상호작용의 성격상게임은 비연합 게임으로 구분됩니다. 플레이어는 계약을 체결하거나 연합을 형성할 권리가 없습니다. 연합(협동) - 연합에 가입할 수 있습니다.

협동 게임에서는 연합이 미리 결정됩니다.

상금의 성격에 따라게임은 제로섬 게임(모든 플레이어의 총 자본은 변하지 않지만 플레이어 간에 재분배됩니다. 모든 플레이어의 승리 합계는 0임)과 넌제로섬 게임으로 나뉩니다.

보상 함수 유형별게임은 매트릭스, 바이매트릭스, 연속, 볼록 등으로 구분됩니다.

행렬이 게임은 제로섬을 사용하는 두 명의 플레이어로 구성된 유한 게임으로, 플레이어 1의 보상은 행렬 형태로 제공됩니다(행렬의 행은 플레이어 1의 적용된 전략의 수에 해당하고 열은 - 플레이어가 적용된 전략의 수; 매트릭스의 행과 열의 교차점에는 적용된 전략에 해당하는 플레이어 1의 보수가 있습니다.

매트릭스 게임의 경우 어떤 게임이든 해결책이 있다는 것이 입증되었으며 게임을 문제로 축소하면 쉽게 찾을 수 있습니다. 선형 프로그래밍.

바이매트릭스이 게임은 합이 0이 아닌 두 플레이어의 유한 게임으로, 각 플레이어의 보수는 해당 플레이어에 대해 별도로 행렬로 지정됩니다(각 행렬에서 행은 플레이어 1의 전략에 해당하고 열은 첫 번째 매트릭스의 행과 열의 교차점에 있는 플레이어 2의 전략은 두 번째 매트릭스에서 플레이어 1의 보수(플레이어의 상금)입니다.

마디 없는게임은 각 플레이어의 보상함수가 연속적인 게임으로 간주됩니다. 이 클래스의 게임에는 솔루션이 있다는 것이 입증되었지만 이를 찾는 데 실질적으로 허용되는 방법은 개발되지 않았습니다.

보수 함수가 볼록형인 경우 이러한 게임을 호출합니다. 볼록한. 한 플레이어에 대한 순수 최적 전략(특정 숫자)을 찾는 것과 다른 플레이어의 순수 최적 전략을 사용할 확률로 구성된 허용 가능한 솔루션 방법이 개발되었습니다. 이 문제는 비교적 쉽게 해결됩니다.

매트릭스 게임을 보수 매트릭스로 작성하기

첫 번째 플레이어 A가 m개의 전략을 가지고 있고 두 번째 플레이어가 Bn개의 전략을 가지고 있는 유한한 게임을 생각해 보세요. 이 게임을 m×n 게임이라고 합니다. 전략 A 1 , A 2 , ..., A m 을 표시해 보겠습니다. 및 B1, B2, ..., Bn. 양측이 A i 또는 B j라는 특정 전략을 선택했다고 가정해 보겠습니다. 게임이 개인적인 움직임으로만 구성된 경우 전략의 선택에 따라 게임의 결과, 즉 당사자 a ij 중 하나의 승리가 고유하게 결정됩니다. 게임에 개인적인 무작위 이동 외에도 한 쌍의 전략 A i 및 B에 대한 보수는 모든 무작위 이동의 결과에 따라 달라지는 무작위 변수입니다. 이 경우 기대 이득의 자연적 추정치는 무작위 이득의 수학적 기대값이며, 이는 ij로도 표시됩니다.

각 전략 쌍에 대한 ij 값을 알고 있다고 가정해 보겠습니다. 이 값은 직사각형 테이블(행렬)의 형태로 작성될 수 있으며, 그 행은 전략 A i 에 해당하고 열은 전략 B j 에 해당합니다.

그러면 일반적으로 매트릭스 게임은 다음과 같은 보수 매트릭스로 작성될 수 있습니다.

비 1 비 2 ...
A 1 11 12 ... 1n
A 2 21 22 ... 2n
... ... ... ... ...
오전 m1 m2 ... 백만

테이블 - 일반 형태지불 매트릭스 매트릭스 게임

여기서 A i는 플레이어 1의 전략 이름이고, B j는 플레이어 2의 전략 이름이며, a ij는 플레이어 1이 i번째 전략을 선택할 때, 플레이어 2가 j번째 전략을 선택할 때의 보수 가치입니다. 전략. 이 게임은 제로섬 게임이므로 플레이어 2의 보수 가치는 플레이어 1의 보수 가치와 반대 부호입니다.

게임의 낮은 가격과 높은 가격의 개념입니다. 순수 전략으로 게임을 해결하다

각 플레이어는 상대 플레이어의 행동을 고려하여 승리를 극대화하기 위해 노력합니다. 따라서 플레이어 1의 경우 각 전략에서 최소 보상 값을 결정한 다음 이 값의 최대값을 구하는 것, 즉 값을 결정하는 것이 필요합니다.

Vn = 최대 i 최소 j a ij

또는 결제 매트릭스의 각 행에 대한 최소값을 찾은 다음 이 값의 최대값을 결정합니다. 값 Vn이 호출됩니다. 최대화행렬 또는 게임의 최저 가격. 최대값 Vn에 해당하는 플레이어의 전략을 최대값 전략이라고 합니다.

분명히 우리가 최대화 전략을 고수한다면 적의 행동에 관계없이 V n 이상의 승리가 보장됩니다. 따라서 Vn의 가치는 우리가 가장 신중한 전략을 고수함으로써 스스로 제공할 수 있는 보장된 최소값입니다.

매트릭스 게임의 정의에 따르면 플레이어 1의 이득 값은 플레이어의 손실 금액과 동일하므로 플레이어 2의 경우 값을 결정해야 합니다.

V in = 최소 j 최대 i a ij

또는 결제 매트릭스의 각 열에 대한 최대값을 찾은 다음 이러한 값의 최소값을 결정합니다. V in 값이 호출됩니다. 미니맥스행렬, 게임의 최고 가격또는 미니맥스 상금. 상대방의 승리 전략을 미니맥스 전략이라고 합니다. 가장 신중한 미니맥스 전략을 고수함으로써 상대방은 어떤 경우에도 V 세기를 넘지 않을 것임을 보장합니다.

Vn과 Vin의 값이 일치하지 않으면 게임의 규칙(계수 aij)을 장기적으로 유지하면서도 각 플레이어의 전략 선택이 불안정해지는 것으로 나타난다. V n = V c = V 일 때만 안정성을 얻습니다. 이 경우 게임이 다음과 같이 말합니다. 순수 전략의 솔루션, V를 달성하는 전략은 다음과 같습니다. 최적의 순수 전략. 수량 V라고 불린다. 순수한 게임 가격으로 .

예를 들어 행렬에서는 다음과 같습니다.

비 1 비 2 비 3 비 4 최소 j
A 1 17 16 15 14 14
A 2 11 18 12 13 11
A 3 18 11 13 12 11
맥스 아이 18 18 15 14

표 - 순수 전략에 솔루션이 있는 결제 매트릭스

순수 전략에 해결책이 있습니다. 이 경우, 플레이어 1의 경우 최적의 순수 전략은 전략 A 1 이고, 플레이어 2의 경우 전략 B 4 입니다.

매트릭스에서는 전략 A 1에서 게임의 낮은 가격이 달성되고 그 가치가 12인 반면, 전략 B 4에서 게임의 높은 가격이 달성되고 그 가치는 13이기 때문에 순수 전략에는 해결책이 없습니다.

비 1 비 2 비 3 비 4 최소 j
A 1 17 16 15 12 12
A 2 11 18 12 13 11
A 3 18 11 13 12 11
맥스 아이 18 18 15 13

표 - 순수 전략에는 해결책이 없는 결제 매트릭스

보수 행렬의 차수 줄이기

보수 매트릭스의 순서(행과 열의 수)는 지배 전략과 중복 전략을 제거하여 줄일 수 있습니다.

전략 K*가 호출됩니다. 지배적전략 K**, 상대 플레이어의 행동 변형에 대해 관계가 충족되는 경우

ㅋ*< A k** ,

여기서 A k* 및 A k**는 플레이어가 각각 K* 및 K** 전략을 선택할 때의 보상 값입니다.

관계가 만족된다면

전략 K*는 전략 K**에 대해 중복이라고 합니다.

예를 들어, 지배 및 중복 전략이 있는 매트릭스에서 전략 A 1은 전략 A 2에 의해 지배되고, 전략 B 6은 전략 B 3, B 4 및 B 5에 의해 지배되고, 전략 B 5는 전략 B 4에 의해 중복됩니다.

비 1 비 2 비 3 비 4 비 5 비 6
A 1 1 2 3 4 4 7
A 2 7 6 5 4 4 8
A 3 1 8 2 3 3 6
에이 4 8 1 3 2 2 5

표 - 지배적 전략과 중복 전략이 포함된 지불 매트릭스

이러한 전략은 분명히 손실이기 때문에 플레이어가 선택하지 않을 것이며 지불 매트릭스에서 이러한 전략을 제거해도 이 매트릭스에 설명된 게임의 하한 가격과 상한 가격 결정에 영향을 미치지 않습니다.

결제 매트릭스의 차원을 축소한 후 얻은 비지배 전략 집합을 파레토 집합이라고도 합니다.

게임의 예

1. 게임 "치킨"

치킨 게임에서는 플레이어가 상호 작용에 참여하여 한 플레이어가 게임을 종료할 때까지 각 플레이어가 심각한 피해를 입게 됩니다. 이 게임의 사용 예는 차량의 상호 작용입니다. 예를 들어 두 대의 차량이 서로를 향해 가고 있고 먼저 방향을 바꾸는 차량이 "약한" 또는 "닭"으로 간주되는 상황입니다. 게임의 요점은 플레이어를 제거하는 긴장감을 조성하는 것입니다. 이러한 상황은 십대나 공격적인 젊은이들 사이에서 흔히 발견되지만 때로는 위험이 덜합니다. 이 게임의 또 다른 응용은 두 정당이 서로 접촉하여 얻을 것이 없고 오직 자존심만이 반대 입장을 유지하도록 강요하는 상황입니다. 당사자들은 최종 지점에 도달할 때까지 양보를 주저합니다. 그에 따른 심리적 긴장으로 인해 플레이어 중 한 명이 잘못된 행동 전략을 취하게 될 수 있습니다. 플레이어 중 누구도 굴복하지 않으면 충돌과 치명적인 결과가 불가피합니다.

게임의 결제 매트릭스는 다음과 같습니다.

포기하다 포기하지 마세요
포기하다 0, 0 -1, +1
포기하지 마세요 +1, -1 -100, -100

2. 게임 “연과 비둘기”

"연과 비둘기" 게임은 게임의 생물학적 예입니다. 이 버전에서는 무제한의 자원을 가진 두 명의 플레이어가 두 가지 전략 중 하나를 선택합니다. 첫 번째("비둘기")는 플레이어가 상대를 위협하여 자신의 힘을 보여주는 것과 관련되고, 두 번째("연")는 플레이어가 상대를 물리적으로 공격하는 것과 관련됩니다. 두 플레이어 모두 "연" 전략을 선택하면 싸우며 서로 부상을 입힙니다. 플레이어 중 한 명이 "연" 전략을 선택하고 두 번째 "비둘기"를 선택하면 첫 번째가 두 번째 전략을 패배시킵니다. 두 플레이어가 모두 "비둘기"인 경우, 상대방은 타협에 이르게 되며, 이 게임의 보수 매트릭스에서 다음과 같이 "연"이 "비둘기"를 물리친 보수보다 적은 보수를 받게 됩니다.

여기서 V는 합의 가격, C는 갈등 가격, V는

연과 비둘기 게임에는 세 가지 내쉬 균형점이 있습니다.

  1. 첫 번째 플레이어는 "연"을 선택하고 두 번째 플레이어는 "비둘기"를 선택합니다.
  2. 첫 번째 플레이어는 "비둘기"를 선택하고 두 번째 플레이어는 "연"을 선택합니다.
  3. 두 플레이어 모두 확률 p로 "연"을 선택하고 확률 1-p로 "비둘기"를 선택하는 혼합 전략을 선택합니다.

3. 죄수의 딜레마

죄수의 딜레마는 게임 이론에서 고려되는 가장 일반적인 갈등 상황 중 하나입니다.

전형적인 죄수의 딜레마는 다음과 같습니다. 두 명의 용의자 A와 B가 서로 다른 감방에 있습니다. 수사관은 그들을 개별적으로 방문하여 다음과 같은 거래를 제안합니다. 둘 중 한 사람이 다른 사람에 대해 증언하고 두 번째 사람이 침묵하면 첫 번째 수감자는 석방되고 두 번째 수감자는 10 년형을 선고받습니다. 둘 다 침묵하면 6개월간 복역하게 된다. 둘 다 서로 배신하면 각각 2년의 형을 받게 된다. 각 수감자는 공범을 배신할지, 아니면 다른 사람이 어떤 결정을 내렸는지 알지 못한 채 침묵을 지킬지 결정을 내려야 합니다. 딜레마: 죄수들은 어떤 결정을 내릴 것인가?

게임 결제 매트릭스:

이 경우 결과는 각 수감자의 결정에 따라 결정됩니다. 플레이어의 상황은 상대방이 어떤 결정을 내렸는지 알지 못하고, 서로를 신뢰하지 않는다는 사실로 인해 복잡해집니다.

플레이어를 위한 최선의 전략은 협력이며, 둘 다 침묵을 지키고 최대 보상(짧은 기간)을 받으며, 서로의 솔루션은 윈윈이 적습니다.

명확성을 위해 표준 형식의 지불 매트릭스로 이동하여 "죄수의 딜레마"를 분석해 보겠습니다.

협력 협력 거부
협력 3, 3 0, 5
협력 거부 5, 0 1, 1

이 매트릭스에 따르면 상호 협력 거부 비용(S)은 각 플레이어마다 1점, 협력 비용(R)은 3점, 상대방을 배신하려는 유혹 비용(T)은 5점입니다. 다음과 같은 부등식을 쓸 수 있습니다: T > R > S. 게임을 여러 번 반복할 때 배신하고 최대 승리를 얻으려는 유혹보다 협력을 선택하는 것이 더 중요합니다: 2 R > T + S.

내쉬 균형.

내쉬 균형은 다른 플레이어(다른 회사)의 전략에 따라 어떤 플레이어도 자신의 전략을 변경할 인센티브가 없어 플레이어가 타협 솔루션에 도달할 수 있는 상황입니다.

내쉬균형의 정의와 그 존재는 다음과 같이 정의된다.

(S, f)를 S가 전략 집합이고 f가 보수 집합인 게임이라고 가정합니다. 각 플레이어 i ∈ (1, ..., n)이 x i &isin S 전략을 선택할 때(x = (x 1 , ..., x n)) 플레이어 i는 보상 f i (x)를 받습니다. 승리는 모든 플레이어가 선택한 전략에 따라 달라집니다. 전략 x* ∈ S는 한 플레이어의 이탈이 그에게 이익을 가져다주지 않으면 내쉬 균형입니다. 즉, 모든 i에 대해 다음과 같은 불평등이 유지됩니다.

f i (x*) ≥ f i (x i , x* -i)

예를 들어, 죄수의 딜레마 게임에는 두 죄수가 서로 배신하는 상황인 하나의 내쉬 균형이 있습니다.

내쉬 균형을 결정하는 가장 쉬운 방법은 보수 매트릭스를 사용하는 것입니다. 특히 게임에 두 가지 이상의 전략을 가진 두 명의 플레이어가 관련된 경우에는 더욱 그렇습니다. 이 경우 공식적인 분석은 매우 복잡하므로 다음과 같은 니모닉 규칙이 적용됩니다. 지불 매트릭스의 셀은 첫 번째 숫자가 제시된 모든 값 중 최대값인 경우 내쉬 균형을 나타냅니다. 열에서 두 번째 숫자는 셀에 서 있는 모든 줄 중 최대 숫자입니다.

예를 들어 다음 규칙을 3x3 행렬에 적용해 보겠습니다.

0, 0 25, 40 5, 10
40, 25 0, 0 5, 15
10, 5 15, 5 10, 10

내쉬 평형점: (B,A), (A,B) 및 (C,C). 실제로 셀 (B,A)의 경우 첫 번째 열의 최대값은 40이므로 두 번째 행의 최대값은 25입니다. 셀 (A, B)의 경우 25는 두 번째 열의 최대값이고, 40은 두 번째 행의 최대값입니다. 셀 (C,C)에도 동일하게 적용됩니다.

오염 게임의 예를 살펴보겠습니다( 환경). 여기서 우리가 주목해야 할 대상은 오염과 같은 생산 부작용 유형입니다. 기업이 누구에게도 무엇을 해야 할지 묻지 않는다면, 어느 기업이든 값비싼 정수기를 설치하는 것보다 오염을 일으키는 편이 나을 것입니다. 어떤 회사가 유해한 배출을 줄이기로 결정하면 비용이 증가하고 결과적으로 제품 가격이 상승하고 수요가 감소할 것입니다. 이 회사는 단순히 파산할 가능성이 높습니다. 잔인한 자연 선택의 세계에 살고 있는 기업은 처리 시설과 기술에 돈을 쓸 필요가 없는 내쉬 균형(셀 D)에 머무르는 것을 선호합니다. 어떤 기업도 오염을 줄임으로써 이윤을 늘릴 수는 없습니다.

회사 1
회사 2 낮은 오염 높은 수준의 오염
낮은 오염
100,100
안에
-30,120
높은 수준의 오염 와 함께
120,-30

100,100

표 - 환경 오염 게임의 지불 매트릭스.

경제 게임에 들어가면 규제되지 않고 이익을 극대화하는 모든 철강 회사는 수질과 대기 오염을 발생시킬 것입니다. 어느 기업이든 배출량을 정화하려고 하면 가격이 인상되고 손실을 입을 수밖에 없습니다. 비협조적인 행동은 높은 배출 조건에서 내쉬 균형을 확립합니다. 정부는 평형이 셀 A로 이동하도록 조치를 취할 수 있습니다. 이 상황에서 오염은 미미할 것이지만 이익은 동일하게 유지됩니다.

오염 게임은 '보이지 않는 손'의 메커니즘이 작동하지 않는 경우 중 하나입니다. 이는 내쉬 균형이 비효율적인 상황입니다. 때로는 이러한 통제되지 않은 게임이 위험해지고 정부가 개입할 수도 있습니다. 정부는 배출 벌금 및 배출 할당량 시스템을 구축함으로써 기업이 다음에 해당하는 결과 A를 선택하도록 유도할 수 있습니다. 낮은 수준오염. 기업은 배출량이 많아도 이전과 똑같은 수익을 올리고 세상은 어느 정도 더 깨끗해집니다.

순수 전략으로 매트릭스 게임을 해결한 예

두 기업이 지역 제품 시장을 놓고 싸우는 상황에서 실물 경제에서 순수 전략으로 매트릭스 게임을 해결하는 예를 생각해 보겠습니다.

일.

두 기업이 제품을 생산하여 지역 시장에 공급합니다. 이들은 해당 지역에 제품을 공급하는 유일한 공급업체이므로 해당 지역의 해당 제품에 대한 시장을 완전히 결정합니다.

각 기업은 세 가지 기술 중 하나를 사용하여 제품을 생산할 수 있습니다. 기술 프로세스의 환경 친화성과 각 기술로 생산된 제품의 품질에 따라 기업은 각각 10, 6, 2 화폐 단위로 단가를 설정할 수 있습니다. 동시에 기업은 생산 단위당 비용이 다릅니다.

표 - 해당 지역 기업에서 생산되는 제품 단위당 비용(단위).

지역 제품 시장에 대한 마케팅 조사 결과, 제품에 대한 수요 함수가 결정되었습니다.

Y = 6 - 0.5⋅X,

여기서 Y는 해당 지역 인구가 구매할 제품 수량(천 단위)이고 X는 기업 제품의 평균 가격(단위 단위)입니다.

판매 가격에 따른 제품 수요 데이터는 표에 나와 있습니다.

판매 가격 1개. 제품, 예:

1개 단위의 평균 판매 가격입니다. 제품, 예:

제품 수요, 천개

기업 1 엔터프라이즈 2
10 10 10 1
10 6 8 2
10 2 6 3
6 10 8 2
6 6 6 3
6 2 4 4
2 10 6 3
2 6 4 4
2 2 2 5

표 - 해당 지역의 제품 수요, 천 단위.

인구가 구매하는 기업 1 제품의 점유율 값은 기업 1 제품과 기업 제품의 가격 비율에 따라 달라지며, 마케팅 조사 결과 이러한 종속성이 확립되고 값이 계산되었습니다. :

표 - 제품 가격 비율에 따라 인구가 구매하는 기업 1 제품의 점유율

문제에 따르면 지역 시장에서 활동하는 기업은 2개뿐입니다. 따라서 인구가 구매하는 두 번째 기업의 제품 비율은 제품 가격 비율에 따라 1에서 첫 번째 기업의 비율을 뺀 것으로 정의할 수 있습니다.

이 문제에 대한 기업의 전략은 생산 기술에 관한 결정입니다. 이러한 결정에 따라 생산 단위당 비용과 판매 가격이 결정됩니다. 작업에서는 다음을 결정해야 합니다.

  1. 두 기업 모두를 위해 생산 기술을 선택할 때 이 문제에 균형 상황이 있습니까?
  2. 기업이 수익성이 낮아 선택하지 않을 기술이 분명히 있습니까?
  3. 균형 상황에서 생산량은 얼마나 될까요? 어느 회사가 유리한 위치에 있게 될까요?

문제의 해결

  1. 문제의 지불 매트릭스에서 승리 계수의 경제적 의미를 결정해 보겠습니다. 모든 기업은 생산을 통해 이익을 극대화하려고 노력합니다. 그러나 이 경우 기업들은 지역의 제품 시장을 위해 싸우고 있습니다. 이 경우 한 기업의 이익은 다른 기업의 손실을 의미합니다. 이러한 문제는 제로섬 매트릭스 게임으로 축소될 수 있습니다. 이 경우, 승리 계수는 기업 1과 기업 2가 생산을 통해 얻는 이익의 차이가 됩니다. 이 차이가 양수이면 기업 1이 승리하고, 음수이면 기업 2가 승리합니다.
  2. 지불 매트릭스의 승리 계수를 계산해 보겠습니다. 이를 위해서는 생산을 통해 기업 1과 기업 2의 이익 가치를 결정해야 합니다.

이 문제에서 기업의 이익은 다음에 달려 있습니다.

  • 가격과 생산 비용;
  • 지역 인구가 구매한 제품의 양;
  • 기업에서 인구가 구매한 제품의 비율에서.

따라서 지불 매트릭스의 계수에 해당하는 기업 이익의 차이 값은 다음 공식을 사용하여 결정되어야 합니다.

D = p⋅(S⋅R1 - S⋅C1) - (1 - p)⋅(S⋅R2 - S⋅C2),

여기서 D는 기업 1과 기업 제품의 생산으로 인한 이익의 차이입니다.

p는 지역 인구가 구매한 기업 1 제품의 비율입니다.

S는 지역 인구가 구매한 제품의 양입니다.

R1 및 R2 - 기업 1 및 기업의 생산 단위당 판매 가격

C1 및 C2 - 기업 1에서 생산된 생산 단위의 총 비용

지불 매트릭스의 계수 중 하나를 계산해 보겠습니다.

예를 들어 기업 1이 기술 III에 따라 제품을 생산하기로 결정하고 기업 2가 기술 II에 따라 제품을 생산하기로 결정했다고 가정해 보겠습니다. 그 다음에는 단위당 판매 가격입니다. 기업 1의 제품은 2개 단위가 됩니다. 단위 비용으로. 제품 1.5개 기업 2의 경우 단위당 판매 가격입니다. 제품은 6개 단위가 됩니다. 4.00의 비용으로.

해당 지역의 인구가 평균 4개 단위의 가격으로 구매하는 제품의 수량은 4,000개와 같습니다. (1 번 테이블). 인구가 기업 1에서 구매하는 제품의 비율은 0.85이고 기업 2에서는 0.15입니다(표 1.3). 다음 공식을 사용하여 지불 매트릭스 a 32의 계수를 계산해 보겠습니다.

a 32 = 0.85⋅(4⋅2 - 4×1.5) - 0.15⋅(4⋅6 - 4⋅4) = 0.5천 단위.

여기서 i=3은 첫 번째 기업의 기술번호이고, j=2는 두 번째 기업의 기술번호이다.

마찬가지로 지불 매트릭스의 모든 계수를 계산합니다. 지불 매트릭스에서 전략 A 1 - A 3 - 기업 1의 생산 기술에 대한 결정, 전략 B 1 - B 3 - 기업 2의 생산 기술 결정, 승리 계수 - 기업 1과 기업 간의 이익 차이를 나타냅니다.

비 1 비 2 비 3 최소 j
A 1 0,17 0,62 0,24 0,17
A 2 0,3 -1,5 -0,8 -1
A 3 0,9 0,5 0,4 0,4
맥스 아이 3 0,62 0,4

표 - "두 기업 간의 투쟁" 게임의 지불 매트릭스.

이 매트릭스에는 지배적이거나 중복되는 전략이 없습니다. 이는 두 기업 모두 명백히 수익성이 없는 생산 기술이 없음을 의미합니다. 행렬 행의 최소 요소를 결정해 보겠습니다. 기업 1의 경우 이러한 각 요소는 적절한 전략을 선택할 때 최소 보장 이득 값을 갖습니다. 행별 행렬의 최소 요소 값은 0.17, -1.5, 0.4입니다.

행렬 열의 최대 요소를 결정해 보겠습니다. 기업 2의 경우 이러한 각 요소는 적절한 전략을 선택할 때 최소 보장 이득 값도 갖습니다. 열별 최대 행렬 요소의 값은 3, 0.62, 0.4입니다.

매트릭스에서 게임의 최저 가격은 0.4입니다. 게임의 최고 가격도 0.4입니다. 따라서 매트릭스에서 게임의 하한 가격과 상한 가격은 동일합니다. 이는 주어진 작업 조건에서 두 기업 모두에게 최적인 제품을 생산하는 기술이 있음을 의미합니다. 이것이 기업 1의 전략 A3와 기업의 B 3에 해당하는 기술 III입니다. 이 문제에서는 전략 A 3과 B 3이 순수 최적 전략입니다.

순수 최적 전략을 선택할 때 기업 1과 기업 2의 이익 차이는 긍정적입니다. 이는 기업 1이 이 게임에서 승리한다는 것을 의미합니다. 기업 1의 이익은 0.4천이 될 것입니다. 동시에 5,000개가 시장에 판매될 예정이다. 제품(판매량은 제품 수요와 동일, 표 1) 두 기업 모두 생산 단위당 가격을 2.00으로 설정합니다. 이 경우 첫 번째 기업의 경우 생산 단위당 총 비용은 1.5단위이고 두 번째 기업의 경우 1단위입니다. 기업 1은 인구가 구매할 제품의 비율이 높기 때문에 이익을 얻습니다.

결정 기준

의사결정자는 문제 해결 과정에서 실행하는 목표 설정에 따라 가장 수익성이 높은 전략을 결정합니다. 의사결정자는 다음 중 하나에 따라 문제 해결 결과를 결정합니다. 결정 기준. 명확하고 가능하다면 가장 수익성이 높은 솔루션을 얻으려면 평가(목표) 기능을 도입해야 합니다. 이 경우 각 의사결정자 전략(Ai)에는 이 결정의 모든 결과를 특징으로 하는 특정 결과 Wi가 할당됩니다. 일련의 의사결정 결과 중에서 의사결정자는 자신의 행동 동기를 가장 잘 반영하는 요소 W를 선택합니다.

조건에 따라 외부 환경의사결정자의 정보성 정도에 따라 의사결정 업무는 다음과 같이 분류됩니다.

  • 위험 상황에서;
  • 불확실한 상황에서;
  • 갈등이나 반대 상황(활성 적).

위험 상황에서의 의사결정.

1. 기대가치 기준.

기대가치 기준의 사용은 기대 이익을 최대화(또는 예상 비용을 최소화)하려는 욕구에 의해 주도됩니다. 기대값을 사용한다는 것은 충분히 정확한 계산 공식을 얻을 때까지 동일한 문제를 반복적으로 풀 수 있다는 가능성을 의미합니다. 수학적으로는 다음과 같습니다. X를 수학적 기대값 MX와 분산 DX를 갖는 확률 변수로 둡니다. x 1, x 2, ..., x n이 값인 경우 무작위 변수(s.v.) X이면 해당 (샘플 평균) 값의 산술 평균 x^=(x 1 +x 2 +...+x n)/n은 분산 DX/n을 갖습니다. 따라서, n→무엇이 DX/n→무엇이고 X→MX일 때.

즉, 표본 크기가 충분히 크면 산술 평균과 수학적 기대값의 차이가 0이 되는 경향이 있습니다(소위 확률 이론의 한계 정리). 결과적으로 기대값 기준의 사용은 동일한 솔루션을 충분히 많은 횟수에 적용해야 하는 경우에만 유효합니다. 그 반대도 마찬가지입니다. 기대에 집중하면 몇 번만 내려야 하는 결정에 대해 잘못된 결과가 나올 수 있습니다.

실시예 1. 오작동으로 인한 손실을 최소화하기 위해서는 PC의 예방적 수리를 언제 수행해야 하는지에 대한 결정이 필요합니다. 수리를 너무 자주 수행하면 우발적인 고장으로 인해 손실이 적고 유지 관리 비용이 높아집니다.

언제 오작동이 발생할지 미리 예측하는 것은 불가능하므로, t 기간 내에 PC가 고장날 확률을 구하는 것이 필요합니다. 이것이 "위험"의 요소입니다.

수학적으로 보면 다음과 같습니다. PC가 고장으로 인해 정지되면 개별적으로 수리됩니다. T 시간 간격으로 n개의 PC 모두에 대해 예방적 수리가 수행됩니다. 결함이 있는 PC를 수리하고 1회당 예방수리를 수행하는 데 드는 총 비용이 최소화되는 최적의 m 값을 결정하는 것이 필요합니다.

p t를 시간 t에서 한 대의 PC가 고장날 확률, n t를 확률 변수로 두고, 숫자와 같다동시에 실패한 모든 PC. 또한 C1은 결함이 있는 PC를 수리하는 비용이고 C2는 한 기계의 예방 수리 비용이라고 가정해 보겠습니다.

이 경우 기대값 기준의 사용은 PC가 장기간 작동하는 경우 정당화됩니다. 이 경우 한 간격의 예상 비용은 다음과 같습니다.

OZ = (C1∑M(nt)+C1n)/T,

여기서 M(n t)는 시간 t에서 고장난 PC 수에 대한 수학적 기대값입니다. n t는 모수 (n, p t)를 갖는 이항 분포를 가지므로 M(n t) = np t입니다. 따라서

OZ = n(C 1 ∑p t +C 2)/T.

최적성 T *에 필요한 조건은 다음과 같은 형식을 갖습니다.

OZ (T * -1) ≥ OZ (T *),

HP (T * +1) ≥ HP (T *).

따라서 작은 T 값부터 시작하여 OP(

T) 필요한 최적 조건이 만족될 때까지.

C1 = 100이라고 가정합니다. C2=10; n = 50. 값 p t의 형식은 다음과 같습니다.

태평양 표준시 ∑р t 오즈(티)
1 0.05 0 50(100⋅0+10)/1=500
2 0.07 0.05 375
3 0.10 0.12 366.7
4 0.13 02 400
5 0.18 0.35 450

T* →3, OZ(T*)→366.7

따라서 예방정비는 T*=3회 간격으로 실시해야 합니다.

"기대값 - 분산" 기준.

기대값 기준은 거의 발생하지 않는 상황에 적용할 수 있도록 수정될 수 있습니다.

x - c인 경우. V. 분산 DX를 사용하면 산술 평균 x^은 분산 DX/n을 갖습니다. 여기서 n은 x^에 있는 항의 개수입니다. 따라서 DX가 감소하면 x^가 MX에 가까울 확률이 증가합니다. 따라서 이익의 기대가치를 극대화하고 분산을 최소화하는 기준을 도입하는 것이 바람직하다.

실시예 2. 예 1의 "기대 값 - 분산" 기준을 적용해 보겠습니다. 이를 위해서는 한 시간 간격에 대한 비용의 분산을 찾아야 합니다. 분산

з Т =(C 1 ∑n t +C 2 n)/T

왜냐하면 n t , t = (1, T-1)은 r.v.이고, s T도 r.v입니다. S.v. n t는 M(n t) = np t 및 D(n t) = np t (1–p t)인 이항 분포를 갖습니다. 따라서,

D(з Т) = D((C 1 ∑n t +C 2 n)/T) = (C 1 /T) 2 D(∑n t) =

= (C 1 /T) 2 ∑Dn t = (C 1 /T) 2 ∑np t (1-p t) = (C 1 /T) 2 (∑p t - ∑p t 2 ),

여기서 C 2 n = const입니다.

예제 1에서 다음과 같습니다.

M(zT) = M(z(T)).

따라서 필요한 기준은 표현의 최소값이 될 것입니다.

M(z(T)) + D(z T)로.

논평. 상수 "k"는 레벨로 간주될 수 있습니다. 위험을 싫어, 왜냐하면 "k"는 수학적 기대와 관련하여 분산 D(z T)의 "가능성 정도"를 결정합니다. 예를 들어, 기업가가 M(z(T))에서 이익의 큰 음의 편차에 특히 예리하게 반응하는 경우 그는 1보다 훨씬 큰 "k"를 선택할 수 있습니다. 이는 분산에 더 많은 가중치를 부여하고 다음과 같은 결정으로 이어집니다. 큰 이익 손실 가능성을 줄입니다.

k=1이면 문제가 발생합니다.

M(z(T))+D(z(T)) = n ( (C 1 /T+C 1 2 /T 2)∑p t - C 1 2 /T 2 ∑p t 2 + C 2 /T )

예제 1의 데이터를 사용하여 다음 테이블을 만들 수 있습니다.

태평양 표준시 2시 ∑p t ∑2페이지 M(z(티))+D(z(티))
1 0,05 0,0025 0 0 500.00
2 0,07 0,0049 0,05 0,0025 6312,50
3 0,10 0,0100 0,12 0,0074 6622,22
4 0,13 0,0169 0,2 0,0174 6731,25
5 0,18 0,0324 0,35 0,0343 6764,00

표는 T * =1 간격마다 예방 유지보수가 수행되어야 함을 보여줍니다.

3. 한도기준

상한 기준은 예를 들어 이익을 최대화하거나 비용을 최소화하는 최적의 솔루션을 제공하지 않습니다. 오히려 정의에 해당합니다. 받아들일 수 있는행동 방식.

실시예 3. 일부 제품에 대한 단위 시간당 수요량 x(수요 강도)가 연속 분포 함수 f(x)로 제공된다고 가정해 보겠습니다. 처음에 재고가 적으면 나중에 상품이 부족할 수 있습니다. 그렇지 않으면 검토 기간이 끝날 때까지 판매되지 않은 상품의 재고가 매우 커질 수 있습니다. 두 경우 모두 손실이 가능합니다.

왜냐하면 부족으로 인한 손실을 결정하는 것은 매우 어렵습니다. 의사 결정자는 재고 가치가 유지되는 방식으로 필요한 재고 수준을 설정할 수 있습니다. 예상되는적자는 A 1 단위를 초과하지 않았으며 그 가치는 예상되는잉여분은 A 2 단위를 초과하지 않았습니다. 즉, I를 원하는 재고 수준이라고 하자. 그 다음에

예상 적자 = ∫(x-I)f(x)dx ≤ A 1 ,

기대 잉여 = ∫(I-x)f(x)dx ≤ A 2 .

A1과 A2를 임의로 선택하면 이러한 조건은 모순되는 것으로 판명될 수 있습니다. 이 경우 허용 가능성을 보장하려면 제한 사항 중 하나를 완화해야 합니다.

예를 들어,

f(x) = 20/x 2, 10≤x≤20,

f(x) = 0, x≤10 및 x≥20.

∫(x-I)f(x)dx = ∫(x-I)(20/x 2)dx = 20(ln(20/I) + I/20 – 1)

∫(I-x)f(x)dx = ∫(I-x)(20/x 2)dx = 20(ln(10/I) + I/10 – 1)

한계 수준 기준을 적용하면 불평등이 발생합니다.

ln(I) - I/20 ≥ ln(20) – A 1 /20 – 1 = 1.996 - A 1 /20

ln(I) - I/10 ≥ ln(10) – A 2 /20 – 1 = 1.302 - A 2 /20

한계값 A1과 A2는 적어도 하나의 I 값에 대해 두 부등식이 모두 충족되도록 선택해야 합니다.

예를 들어, A 1 = 2이고 A 2 = 4인 경우 불평등은 다음과 같은 형식을 취합니다.

ln(I) - I/20 ≥ 1.896

ln(I) - I/10 ≥ 1.102

I의 값은 10에서 20 사이여야 합니다. 변화를 요구하는 것은 이러한 한계 내입니다. 표는 구간 (13,17)에서 I에 대해 두 조건이 모두 충족됨을 보여줍니다.

10 11 12 13 14 15 16 17 18 19 20
ln(I) - I/20 1,8 1,84 1,88 1,91 1,94 1,96 1,97 1,98 1,99 1,99 1,99
ln(I) - I/10 1,3 19 18 16 14 11 1,17 1,13 1,09 1,04 0,99

이러한 값은 모두 문제의 조건을 충족합니다.

불확실한 상황에서의 의사결정

우리는 의사결정자가 직면하지 않는다고 가정할 것입니다. 합리적인적.

불확실성 하에서 결정을 내리는 데 필요한 데이터는 일반적으로 행렬 형태로 제공되며, 행은 가능한 조치에 해당하고 열은 시스템의 가능한 상태에 해당합니다.

예를 들어, 수용 가능한 비용으로 내구성을 확인할 수 없는 일부 재료로 제품을 만들어야 한다고 가정해 보겠습니다. 하중은 알려진 것으로 가정됩니다. 이 재료로 만든 제품의 치수를 결정해야 합니다.

가능한 해결책은 다음과 같습니다.

E 1 - 최대 내구성을 위한 크기 선택;

E m - 최소 내구성을 이유로 크기 선택;

E i는 중간 솔루션입니다.

고려해야 할 조건은 다음과 같습니다.

F 1 - 최대 내구성을 보장하는 조건

F n - 최소 내구성을 보장하는 조건;

F i는 중간 조건입니다.

여기서 e ij = e(E i ; F j) 결정의 결과는 옵션 E i 및 조건 F j에 해당하고 이익, 효용 또는 신뢰성을 특징짓는 평가로 이해될 수 있습니다. 일반적으로 우리는 이 결과를 호출합니다. 솔루션의 유용성.

그러면 해의 계열(행렬) ||e ij || 형식은 다음과 같습니다.

F 1 F 2 ... Fn
전자 1 전자 11 전자 12 ... 전자 1n
전자 2 전자 21 전자 22 ... 전자 2n
... ... ... ... ...
전자 m1 전자 m2 ... 전자

명확하고 가능하다면 가장 수익성이 높은 솔루션을 찾으려면 평가(목표) 기능을 도입해야 합니다. 이 경우 결정 행렬 ||e ij || 한 열로 축소되었습니다. 각 옵션 E i에는 일반적으로 이 결정의 모든 결과를 특징으로 하는 특정 결과 e ir이 할당됩니다. 이 결과를 동일한 기호 e ir로 더 표시하겠습니다.

고전적인 결정 기준

1. 최소최대 기준.

최소최대 기준(MM 기준)에 따라 솔루션을 선택하는 규칙은 다음과 같이 해석될 수 있습니다.

결정 행렬에는 각 행의 가장 작은 결과 e ir에서 하나 이상의 열이 추가됩니다. 이 열의 e ir 값이 가장 높은 행에서 해당 옵션을 선택해야 합니다.

에 선택되었습니다. 옵션은 위험을 완전히 제거합니다. 이는 의사결정자가 자신이 목표로 삼는 것보다 더 나쁜 결과에 직면할 수 없다는 것을 의미합니다. 이 속성을 통해 우리는 MM 기준을 기본 기준 중 하나로 간주할 수 있습니다.

결정이 내려지는 상황이 다음과 같은 경우 MM 기준의 사용이 정당화됩니다.

  1. 외부 상태 Fj가 나타날 가능성에 대해서는 알려진 바가 없습니다.
  2. 우리는 다양한 외부 상태 Fj의 출현을 고려해야 합니다.
  3. 솔루션은 한 번만 구현됩니다.
  4. 모든 위험을 제거해야 합니다.

2. 베이즈-라플라스 기준.

외부 상태 Fj가 나타날 확률을 qi로 표시하겠습니다.

해당 선택 규칙은 다음과 같이 해석될 수 있습니다.

결정 행렬에는 각 행의 값에 대한 수학적 기대치를 포함하는 다른 열이 추가됩니다. 이 열의 가장 큰 값 e ir이 포함된 행의 옵션이 선택됩니다.

결정이 내려지는 상황은 다음과 같은 상황이 특징이라고 가정합니다.

  1. 상태 Fj가 나타날 확률은 알려져 있으며 시간에 의존하지 않습니다.
  2. 솔루션은 (이론적으로) 무한히 여러 번 구현됩니다.
  3. 소수의 솔루션 구현의 경우 어느 정도의 위험은 허용됩니다.

충분할 때 대량구현에 따라 평균값은 점차 안정화됩니다. 따라서 전체(무한) 구현을 통해 모든 위험이 실질적으로 제거됩니다.

저것. Bayes-Laplace 기준(B-L 기준)은 minimax 기준보다 더 낙관적이지만 더 큰 인식과 상당히 긴 구현 기간이 필요합니다.

3. 야만적인 기준.

a ij:= 최대 i (e ij) - e ij

e ir:= 최대 i(a ij) = 최대 j(최대 i(e ij) - e ij)

값 a ij는 상태 F j에서 옵션 E i 대신에 이 외부 상태에 최적인 다른 옵션을 선택할 경우 달성되는 최대 추가 이득으로 해석될 수 있습니다. a ij 값은 상태 F j에 대한 최적 옵션을 옵션 E i로 대체할 때 상태 F j에서 발생하는 손실(벌금)로 해석될 수도 있습니다. 후자의 경우 e ir은 옵션 E i를 선택한 경우 가능한 최대 손실(모든 외부 상태 F j, j = (1,n)에 걸쳐)을 나타냅니다.

Savage의 기준에 해당하는 선택 규칙은 이제 다음과 같이 해석됩니다.

  1. 결정 행렬의 각 요소 ||e ij || 해당 열의 가장 큰 결과 max(e ij)에서 을 뺍니다.
  2. 차이 a ij는 잔여 행렬 ||e ij ||를 형성합니다. 이 행렬에는 가장 큰 차이가 있는 열이 보충됩니다. e ir . 행에 이 열에 대한 가장 작은 값이 포함된 옵션을 선택하십시오.

결정이 내려지는 상황에 대한 요구사항은 MM 기준에 대한 요구사항과 일치합니다.

4. 예와 결론.

고려된 기준에 대한 요구 사항에서 엄격한 시작 위치로 인해 이상화된 경우에만 적용 가능하다는 것이 분명해졌습니다. 실용적인 솔루션. 너무 강한 이상화가 가능한 경우에는 서로 다른 기준을 동시에 적용할 수 있습니다. 그 후, 의사결정자는 여러 가지 옵션 중에서 의지적 방법을 사용하여 최종 결정을 선택합니다. 이 접근 방식을 사용하면 첫째로 의사 결정 문제의 모든 내부 연결을 더 잘 관통할 수 있으며 둘째로 주관적 요인의 영향을 약화시킬 수 있습니다.

. 컴퓨터를 사용할 때에는 주기적으로 정보 처리를 일시 중지하고 컴퓨터 바이러스 검사를 실시해야 합니다. 정보 처리가 중단되면 특정 경제적 비용이 발생합니다. 바이러스가 제때에 감지되지 않으면 일부 정보가 손실될 수 있으며 이로 인해 더 큰 손실이 발생할 수 있습니다.

가능한 해결책은 다음과 같습니다.

E 1 - 전체 점검;

E 2 - 최소 점검;

E 3 - 확인 거부.

컴퓨터는 다음과 같은 상태일 수 있습니다.

F 1 - 바이러스 없음;

F 2 - 바이러스가 있지만 정보를 손상시킬 시간이 없었습니다.

F 3 - 복원해야 할 파일이 있습니다.

바이러스 검색 및 제거 비용과 정보 복구 관련 비용을 포함한 결과는 다음과 같은 형식을 갖습니다.

F 1 F 2 여 3 MM 기준 기준 B-L
e ir = 최소 j (e ij) 최대 i (e ir) e ir = ∑e ij 최대 i (e ir)
전자 1 -20,0 -20 -25,0 -25,0 -25,0 -22,33
전자 2 -14,0 -23,0 -31,0 -31,0 -22,67
마 3 0 -24.0 -40.0 -40.0 -21.33 -21.33

MM 기준에 따라 전체 점검을 수행해야 합니다. Bayes-Laplace 기준은 기계의 모든 상태가 동일할 가능성이 있다는 가정하에 이루어집니다.

F 1 F 2 여 3 야만적인 기준
e ir = 최소 j (a ij) 최소 j(e ir)
전자 1 +20,0 0 0 +20,0
전자 2 +14,0 +1,0 +6,0 +14,0 +14,0
마 3 0 +2,0 +15,0 +15,0

이 예는 각 기준이 새로운 솔루션을 제공하도록 특별히 선택되었습니다. 수표를 통해 컴퓨터가 발견한 상태의 불확실성은 어떤 기준을 따라야 하는지에 대한 불확실성으로 변합니다.

다양한 기준은 결정이 내려지는 다양한 조건과 연관되어 있으므로 특정 기준의 권장 사항을 비교하는 가장 좋은 방법은 상황 자체에 대한 추가 정보를 얻는 것입니다. 특히, 동일한 매개변수를 가진 수백 대의 기계에 대한 결정을 내리는 경우 Bayes-Laplace 기준을 사용하는 것이 좋습니다. 기계 수가 많지 않은 경우 minimax 또는 Savage 기준을 사용하는 것이 좋습니다.

파생된 기준.

1. 허위츠 기준.

가장 균형 잡힌 입장을 취하기 위해 Hurwitz는 극단적인 낙관주의와 극단적인 비관주의의 관점 사이 어딘가에 해당하는 평가 기능을 제안했습니다.

최대 i (e ir) = ( C⋅min j (e ij) + (1-C)⋅max j (e ij) ),

여기서 C는 가중치입니다.

Hurwitz 기준에 따른 선택 규칙은 다음과 같이 구성됩니다.

결정 매트릭스 ||e ij || 각 행에 대한 최소 및 최대 결과의 가중 평균을 포함하는 열로 보완됩니다. 행에 이 열의 가장 큰 요소 e e ir이 포함된 옵션만 선택됩니다.

C=1에서 Hurwitz 기준은 MM 기준으로 변경됩니다. C = 0이면 "도박꾼" 기준으로 전환됩니다.

최대 i(e ir) = 최대 i(최대 j(e ij)),

저것들. 우리는 최고의 기회가 "올라올" 것이라고 베팅하는 도박꾼의 관점을 취합니다.

기술적 응용에서는 가중치 C를 선택하기가 어렵습니다. 결정을 내릴 때 존재하는 낙관론과 비관론의 양적 특성을 찾는 것은 어렵습니다. 따라서 대부분 C: = 1/2입니다.

Hurwitz 기준은 다음과 같은 경우에 적용됩니다.

  1. 상태 Fj의 발생 확률에 대해서는 알려진 바가 없습니다.
  2. 상태 Fj의 모양이 고려되어야 합니다.
  3. 소수의 솔루션만 구현됩니다.
  4. 약간의 위험은 허용됩니다.

2. Hodge-Lehman 기준.

이 기준은 MM 기준과 Bayes-Laplace 기준을 동시에 기반으로 합니다. 매개변수 n은 사용된 확률 분포의 신뢰도를 나타냅니다. 신뢰도가 높으면 Bayes-Laplace 기준이 우세하고, 그렇지 않으면 MM 기준이 우세합니다. 우리는 ~을 찾고있다

최대 i (e ir) = 최대 i (v⋅∑e ij ⋅q i + (1-v) min j (e ir)), 0 ≤ n ≤ 1.

Hodge-Lehman 기준에 해당하는 선택 규칙은 다음과 같이 구성됩니다.

결정 매트릭스 ||e ij || 가중 평균(가중치 v=const) 수학적 기대치와 각 행의 가장 작은 결과(*)로 구성된 열로 보완됩니다. 이 열에서 가장 큰 값을 갖는 행의 솔루션 옵션이 선택됩니다.

v = 1에서는 Hodge-Lehman 기준이 Bayes-Laplace 기준이 되고, v = 0에서는 최소최대 기준이 됩니다.

v의 선택은 주관적입니다. 왜냐하면 모든 분포 함수의 신뢰성 정도가 불분명하기 때문입니다.

Hodge-Lehman 기준을 적용하려면 의사결정이 이루어지는 상황이 다음 속성을 만족하는 것이 바람직합니다.

  1. 상태 Fj의 발생 확률은 알려져 있지 않지만 확률 분포에 대한 일부 가정은 가능합니다.
  2. 채택된 솔루션은 이론적으로 무한히 많은 구현을 허용합니다.
  3. 판매량이 적기 때문에 어느 정도의 위험은 허용됩니다.

3. Germeier 기준.

이 기준은 손실 금액에 중점을 둡니다. 모든 e ij 의 음수 값으로. 여기서

최대 i (e ir) = 최대 i (최소 j (e ij)q j) .

왜냐하면 경제 문제에서는 주로 가격과 비용을 다룬다.<0 обычно выполняется. В случае же, когда среди величин e ij встречаются и положительные значения, можно перейти к строго отрицательным значениям с помощью преобразования e ij -a при подходящем образом подобранном a>0. 이 경우 최적의 솔루션은 a에 따라 달라집니다.

Germeyer 기준에 따른 선택 규칙은 다음과 같이 공식화됩니다.

결정 매트릭스 ||e ij || 각 행에 사용 가능한 결과의 가장 작은 곱과 해당 상태 F j 의 확률을 포함하는 다른 열이 추가됩니다. 해당 옵션은 이 열의 가장 큰 값 e e ij 가 발견된 행에서 선택됩니다.

어떤 의미에서 Germeyer 기준은 MM 기준을 일반화합니다. 균일 분포 q j = 1/n, j=(1,n)의 경우 두 기준은 동일해집니다.

적용 가능 조건은 다음과 같습니다.

  1. 특정 조건의 출현을 개별적으로 또는 조합하여 고려해야 합니다.
  2. 어느 정도의 위험은 허용됩니다.
  3. 솔루션은 한 번 이상 구현할 수 있습니다.

분포 함수가 매우 확실하게 알려져 있지 않고 실현 수가 작은 경우 Germeyer 기준에 따르면 일반적으로 말해서 불합리하게 큰 위험을 얻게 됩니다.

4. Bayes-Laplace 기준과 minimax 기준을 결합했습니다.

지금까지 고려한 모든 기준보다 기존 상황에 더 잘 적응할 수 있는 기준을 얻으려는 욕구가 소위 복합 기준을 구축하게 되었습니다. 일례로 Bayes-Laplace 기준과 Minimax 기준(BL(MM) 기준)을 결합하여 얻은 기준을 생각해 보겠습니다.

이 기준에 대한 선택 규칙은 다음과 같이 공식화됩니다.

결정 매트릭스 ||e ij || 세 개의 열이 더 추가됩니다. 첫 번째에는 각 라인의 수학적 기대치가 기록되고 두 번째에는 기준 값의 차이가 기록됩니다.

e i 0 j 0 = 최대 i (최대 j (e ij))

그리고 가장 작은 값

해당 라인. 세 번째 열에는 가장 큰 값 간의 차이가 포함됩니다.

각 행과 e i 0 j 0 값이 위치한 행의 가장 큰 값 max j (ei 0 j)입니다. 해당 옵션은 행(아래 두 번째 열과 세 번째 열의 요소 사이에 제공된 관계에 따라)이 가장 큰 수학적 기대치를 제공하는 것으로 선택됩니다. 즉, 해당 값은

e i 0 j 0 - 최대 j (e ij)

두 번째 열의 값은 미리 결정된 위험 수준 E add와 같거나 같아야 합니다. 세 번째 열의 값은 두 번째 열의 값보다 커야 합니다.

이 기준의 적용은 결정이 내려지는 상황의 다음과 같은 특성에 기인합니다.

  1. 상태 Fj의 발생 확률은 알려져 있지 않지만 특정 분포를 선호하는 선험적 정보가 있습니다.
  2. 개별적으로나 조합하여 다양한 조건의 출현을 고려할 필요가 있습니다.
  3. 제한된 위험은 허용됩니다.
  4. 내린 결정은 한 번 또는 반복적으로 실행됩니다.

BL(MM) 기준은 주로 기술 분야에서 실용적인 솔루션을 구축하는 데 매우 적합하며 상당히 신뢰할 수 있는 것으로 간주될 수 있습니다. 그러나 주어진 위험 E 추가 제한 및 그에 따른 위험 평가 E i는 솔루션의 적용 횟수나 기타 유사한 정보를 고려하지 않습니다. 주관적 요인의 영향은 약화되었지만 완전히 배제되지는 않습니다.

최대 j(e ij)-최대 j(e i 0 j)≥E i

솔루션이 한 번만 구현되거나 횟수가 적은 경우에는 필수적입니다. 이러한 조건에서는 불리한 외부 조건과 평균값에만 관련된 위험에만 초점을 맞추는 것만으로는 충분하지 않습니다. 그러나 이로 인해 성공적인 외부 상태에서는 약간의 손실을 입을 수 있습니다. 구현 횟수가 많아지면 이 조건은 더 이상 중요하지 않게 됩니다. 심지어 합리적인 대안도 허용합니다. 그러나 이 조건을 생략해야 하는 경우에 대한 명확한 정량적 지표는 없습니다.

5. 저작물의 기준.

최대 i (e ir):= 최대 i (∏e ij)

이 경우의 선택 규칙은 다음과 같이 공식화됩니다.

결정 행렬 ||e ij || 각 행의 모든 ​​결과의 곱을 포함하는 새 열로 보완됩니다. 이 열의 행에 가장 큰 값이 포함된 옵션이 선택됩니다.

이 기준이 적용되는 이유는 다음과 같습니다.

  1. 상태 Fj의 발생 확률은 알려져 있지 않습니다.
  2. 각 상태 Fj의 모양은 개별적으로 고려되어야 합니다.
  3. 이 기준은 소수의 솔루션 구현에도 적용 가능합니다.
  4. 약간의 위험은 허용됩니다.

제품 기준은 주로 모든 eij가 양수인 경우에 적용됩니다. 양성 조건을 위반하면 a>|min ij (e ij)| 상수를 사용하여 e ij +a 이동을 수행해야 합니다. 결과는 자연스럽게 a에 따라 달라집니다. 실제로는 가장 자주

a:= |최소 ij (e ij)|+1.

어떤 상수도 의미가 있다고 인식될 수 없다면, 제품 기준은 적용되지 않습니다.

예.

이전과 동일한 예를 살펴보겠습니다(위 참조).

Hurwitz 기준에 따른 수표 결정 매트릭스에 대한 최적 솔루션의 구성은 다음과 같은 형식을 갖습니다(C = 0, in 10 3).

||에이 ij || С⋅min j (e ij) (1-С)⋅최대 j (e ij) 전자 최대 i (e ir)
-20,0 -22,0 -25,0 -12,5 -10.0 -22,5
-14,0 -23.0 -31.0 -15,5 -7.0 -22,5
0 -24.0 -40.0 -20.0 0 -20.0 -20.0

이 예에서 솔루션은 가중치 C와 관련하여 전환점을 갖습니다. 최대 C = 0.57에서는 E 3이 최적으로 선택되고 더 큰 값의 경우 E 1이 선택됩니다.

Hodge-Lehman 기준 적용(q=0.33, v=0, 10 3):

∑e ij ⋅q j 최소 j(e ij) v⋅∑e ij ⋅q j (1-v)⋅∑e ij ⋅q j 전자 최대 i (e ir)
-22,33 -25,0 -11,17 -12,5 -23,67 -23,67
-22,67 -31,0 -11,34 -15,5 -26,84
-21,33 -40,0 -10,67 -20,0 -30,76

Hodge-Lehman 기준은 MM 기준과 마찬가지로 옵션 E 1(완전 검증)을 권장합니다. 권장 옵션은 v=0.94에서만 ​​변경됩니다. 따라서 해당 기계의 상태의 균일한 분포는 매우 높은 확률로 인식되어야 더 높은 수학적 기대치를 기반으로 선택할 수 있습니다. 이 경우 솔루션 구현 수는 항상 임의적으로 유지됩니다.

q j = 0.33에서 Germeyer 기준은 다음과 같은 결과를 제공합니다(10 3에서):

||에이 ij || ||e ij q j || e ir = 최소 j (e ij q j) 최대 i (e ir)
-20,0 -22,0 -25,0 -6,67 -7,33 -8,33 -8,33 -8,33
-14,0 -23,0 -31,.0 -4,67 -7,67 -10,33 -10,33
0 -24,0 -40,0 0 -8,0 -13,33 -13,33

옵션 E 1이 최적으로 선택되었습니다. e ir 값을 사용한 옵션 비교는 Germeier 기준이 작동하는 방식이 MM 기준보다 훨씬 더 유연하다는 것을 보여줍니다.

아래 표에서는 q 1 =q 2 =q 3 =1/2(10 3의 데이터)에서 BL(MM) 기준에 따라 해가 선택됩니다.

||에이 ij || ∑e ij q j e i 0 j 0 - 최소 j (e ij) 최대 j(e ij) 최대 j(e ij) - 최대 j(e i 0 j)
-20,0 -22,0 -25,0 -23,33 0 -20,0 0
-14,0 -23,0 -31,0 -22,67 +6,0 -14,0 +6,0
0 -24,0 -40,0 -21,33 +15,0 0 +20,0

옵션 E 3(검증 거부)은 위험이 Epossible = 15⋅10 3 에 접근하는 경우에만 이 기준에 의해 허용됩니다. 그렇지 않으면 E1이 최적인 것으로 판명됩니다. 많은 기술 및 비즈니스 문제에서 허용 가능한 위험은 훨씬 낮으며 일반적으로 총 비용의 작은 비율에 해당합니다. 이러한 경우 확률 분포의 부정확한 값이 그다지 큰 영향을 미치지 않는 경우 특히 유용합니다. 어떤 결정을 내리든 관계없이 허용 가능한 위험 E를 추가로 미리 설정하는 것이 불가능한 것으로 판명된 경우 가능한 예상 위험 E를 계산하는 것이 도움이 될 수 있습니다. 그러면 그러한 위험이 정당한지 여부를 고려하는 것이 가능해집니다. 그러한 연구는 일반적으로 더 쉽습니다.

a = 41⋅10 3 및 a = 200⋅10 3에 대한 곱 기준을 적용한 결과는 다음과 같은 형식을 갖습니다.

||e ij + a|| e ir = ∏ j e ij 최대 나는 ir
41 +21 +19 +16 6384 6384
+27 +18 +10 4860
+41 +17 +1 697
200 +180 +178 +175 5607
+186 +177 +169 5563
+200 +176 +160 5632 5632

이 행렬에서는 조건 e ij > 0이 충족되지 않습니다. 따라서 먼저 a = 41⋅10 3 과 a = 200⋅10 3 이 (외부 임의성에 의해) 행렬의 요소에 추가됩니다.

a = 41⋅10 3의 경우 옵션 E 1이 최적인 것으로 판명되고, a = 200⋅10 3의 경우 옵션 E 3이 최적인 것으로 판명되므로 a에 대한 최적 옵션의 의존성은 명백합니다.

"게임 이론 간략한 강의 노트 주제 1. 게임 이론 소개 과학 분야로서의 게임 이론은 사람과 사람 사이의 관계를 연구합니다 ..."

게임 이론

간략한 강의 노트

주제 1. 게임 이론 소개

과학 분야인 게임 이론은 사람들 사이의 관계를 연구합니다.

서로 다른(때로는 반대되는) 동기에 따라 움직입니다. 와 함께

포커, 체스, 축구 등의 전통 게임, 게임 이론

시장 경쟁, 군비 경쟁,

환경 오염. 게임 이론에서는 이러한 모든 진지한 관계를

게임에서는 게임과 마찬가지로 모든 참가자의 결정(전략)에 따라 결과가 달라지기 때문입니다. 한편, 게임 이론은 여러 분야에서 사용되는 수학적 학문입니다. 인간 활동(경제, 군사, 생물학 등).

한편, 게임이론은 현대경제이론의 한 분야로 많은 문헌에 의해 확인되고 있다. 노벨상경제학 분야에서 이 과학의 가장 뛰어난 대표자에게 수여됩니다. 그리고 이 입문 과정에서 게임 이론을 고려하는 것은 바로 미시경제학의 엄밀한 수학적 부분입니다. 핵심 개념신고전주의 경제학과 게임 이론을 연결하는 것은 합리성입니다. 각 주제는 객관적 또는 주관적 이익을 극대화하려고 노력합니다. 이에 대한 비판에도 불구하고 이 가정은 두 이론 모두에서 중요한 이중 역할을 합니다. 첫째, 절대적으로 합리적인 행동이 비합리적인 행동보다 더 예측 가능하기 때문에 가능한 의사 결정 옵션이 크게 제한됩니다. 둘째, 내린 결정의 효과를 평가하기 위한 명확한 기준을 제공합니다. 즉, 결정이 더 효과적이어서 의사 결정자에게 더 큰 이익을 가져다줍니다.



신고전주의 경제 이론은 일반적으로 "완전한 시장"의 존재와 기능을 가정합니다. 각 주제는 이 시장 상태에 대한 지표를 기반으로 결정을 내립니다.

이 접근 방식은 개별 주체가 다른 모든 주체의 결정을 예측하는 것이 불가능할 때 엄청난 수의 참가자가 있는 경제 시스템을 연구할 때 논리적입니다. 이러한 분산형 경제 시스템은 시장이 완전 경쟁 상태에 있을 때 안정적으로 작동(균형 유지)할 수 있습니다. 실제로 "완벽한 시장"은 없으며 일부 규칙에 따라 사람들 간에만 상호 작용할 뿐입니다.

게임 이론에서는 피험자가 결정을 내릴 때 다른 피험자가 내릴 수 있는 결정을 계산해야 한다고 제안합니다. 결과는 모든 참가자의 결정에 달려 있기 때문입니다. 따라서 게임이론에서는 모든 주체가 자신의 최적해뿐만 아니라 다른 참가자의 최적해를 찾을 수 있다는 점에서 합리적일 뿐만 아니라 지능적이라고 가정합니다.

경제학과 관련하여 게임 이론은 "불완전한 시장" 조건 하에서 경제 시스템의 기능을 연구합니다. 게임 모델과점과 경매는 경제학에서 게임 접근법을 성공적으로 적용한 예입니다. 경제 시스템 참여자 간의 정보 비대칭 문제를 해결하는 것도 게임 이론의 중요한 성과입니다. 게임에 대한 최초의 수학적으로 엄격한 정의는 헝가리 수학자 존 폰 노이만(John von Neumann)에 의해 제시되었습니다. 그는 당연히 20세기 가장 위대한 수학자 중 한 명으로 간주됩니다1. 놀랍게도 그는 19282년에 출판된 그의 연구에서 오늘날 공식화되는 것과 똑같은 방식으로 n인 제로섬 게임을 공식화했습니다.

같은 연구에서 J. von Neumann은 매트릭스 게임(n = 2)에 대한 혼합 전략의 솔루션 존재에 대한 유명한 정리를 증명했습니다. 새로운 이론이 처음부터 엄격하게 공식화되었던 또 다른 사례(지식 분야에서)를 기억하는 것은 어려울 것입니다. 그러나 1944년 Oscar Morgenstern과 공동 저술한 J. von Neumann의 "게임 이론과 경제적 행동"이라는 책이 출판된 이후 경제 이론의 독립적인 분야인 게임 이론이 형성되었다는 것은 여전히 ​​일반적으로 받아들여지고 있습니다. 오늘날 게임 모델은 너무 다양해서 모든 모델을 포함하는 게임에 대해 간단하고 공식적인 정의를 내리는 것이 거의 불가능합니다. 비공식적으로, 게임은 1) n명의 사람(플레이어)이 참여하고, 2) 게임의 규칙이 지정되고(각 플레이어가 결정을 내리는 방식), 3) 플레이어 간의 지불 규칙이 다음과 같은 갈등 상황의 모델입니다. 단호한.

게임은 일반적으로 다음과 같이 분류됩니다. 플레이어 수 기준: 게임 1, 2, n 플레이어. 전략의 수에 따라: 유한 및 무한 게임. 모든 플레이어가 유한한 수의 전략을 가지고 있다면 게임은 유한하고, 그렇지 않으면 게임은 무한합니다. 플레이어 간 관계의 성격에 따라 비협조적 게임과 협력적 게임이 있습니다. 플레이어가 서로 합의하지 않는 경우 게임을 비협조적이라고 합니다. 두 플레이어의 유한 비협조 게임을 바이매트릭스 게임이라고 합니다. 협동 게임에서 플레이어는 승률을 높이기로 합의할 수 있습니다. 보수 함수의 속성에 따라 연속형, 볼록형, 분리형 등이 있습니다. 각 게임에서 모든 플레이어의 보수 합계가 0이면 이는 제로섬 게임입니다. 두 플레이어 간의 제로섬 게임을 적대적 게임이라고 합니다. 이러한 게임에서는 한 플레이어가 다른 플레이어를 희생하여 승리합니다. 유한 제로섬 게임을 매트릭스 게임이라고 합니다.

넌제로섬 게임에서는 모든 플레이어가 총체적으로 기여한 금액보다 적은 금액을 받을 수 있습니다. 예를 들어, 복권의 경우 주최자가 항상 승리하며 전체 참가자는 총 기부금보다 적은 금액을 받습니다. 이동 횟수 기준: 단일 패스 및 다중 패스. 다중 이동 게임 중에서 여러 플레이어가 순차적으로 이동하는 위치 게임을 강조합니다. 플레이어의 승리는 동작 선택 전략에 따라 달라집니다(예: 체커, 체스, 카드 게임, 슬롯 머신, 역동적인 경제 시스템 등). 플레이어의 인식에 따르면 완벽한 정보와 불완전한 정보가 있는 게임입니다. 완벽한 정보가 있는 게임에서 각 단계에서 플레이어는 이전에 어떤 움직임이 있었는지 알 수 있습니다(예: 체커 및 체스). 정보가 불완전한 게임에서 플레이어는 자신이 어떤 위치에 있는지 알지 못할 수 있습니다(일부 확률론적 게임, 특히 카드 게임). 정보가 불완전한 게임은 정보가 불완전한 게임으로 축소됩니다. 완전한 정보(베이지안 게임이라고도 함). 게임 도중 플레이어의 불완전한 정보가 발생하는 불완전 정보 ​​게임과 달리, 불완전 정보가 있는 게임에서는 플레이어의 비대칭 정보로 인해 게임 시작 전부터 일부 플레이어의 불완전 정보가 발생합니다(구매자는 알고 있음). 판매자보다 제품 품질에 대한 정보가 적고 회사는 경쟁사가 어떤 기술을 사용하고 있는지 정확히 알지 못합니다.)

주제 2. 전략적 상호작용

전략적 상호작용에는 많은 플레이어와 많은 전략이 포함될 수 있지만, 우리는 제한된 수의 전략을 가진 두 사람이 참여하는 게임으로 제한하겠습니다. 이를 통해 보수 매트릭스를 사용하여 게임을 쉽게 묘사할 수 있습니다. 가장 간단한 것은 구체적인 예를 사용하여 말한 내용을 고려하는 것입니다.

두 사람이 간단한 게임을 하고 있다고 가정해 보겠습니다. 플레이어 A는 종이에 "top" 또는 "bottom"이라는 두 단어 중 하나를 씁니다. 동시에 플레이어 B는 종이에 "왼쪽" 또는 "오른쪽"을 씁니다. 그런 다음 종이 조각을 제출하고 각 종이는 표 27.1에 제시된 상금을 받습니다. A가 "상단"이라고 말하고 B가 "왼쪽"이라고 말하면 우리는 행렬의 왼쪽 상단을 보고 있는 것입니다. 이 행렬에서 보수 A는 셀 1의 첫 번째 항목으로 표시되고 보수 B는 두 번째 항목으로 표시됩니다.

2. 마찬가지로 A가 "바닥"이라고 말하고 B가 "오른쪽"이라고 말하면 A는 보수 1을 얻고 B는 보수 0을 얻습니다.

플레이어 A에는 두 가지 전략이 있습니다. "위"를 선택할 수 있고 "아래"를 선택할 수 있습니다.

이러한 전략은 "가격 인상" 또는 "가격 인하"와 같은 경제적 선택을 나타낼 수 있습니다. 또는 “전쟁을 선포한다” 또는 “전쟁을 선포하지 않는다”와 같은 정치적 선택을 나타낼 수도 있습니다. 게임의 보수 매트릭스는 선택한 전략의 각 조합에 대한 각 플레이어의 보수를 간단히 표시합니다.

이런 종류의 게임의 결과는 어떻게 될까요? 표 27.1에 설명된 게임은 매우 간단한 해결책을 가지고 있습니다. 플레이어 A의 관점에서 볼 때, "하단"이라고 말하는 것이 항상 더 좋습니다. 왜냐하면 이 선택(2 또는 1)으로 인한 보상은 그가 "상단"이라고 말한 경우 테이블의 해당 항목(1)보다 항상 크기 때문입니다. 또는 0) . 마찬가지로 B의 경우 2와 1이 1과 0보다 낫기 때문에 "왼쪽"이라고 말하는 것이 항상 더 좋습니다. 따라서 우리는 A의 균형 전략이 "하단" 전략을 따르고 B가 "하단" 전략을 따르세요. 왼쪽".

이 경우 우리는 지배적 전략을 다루고 있습니다. 각 플레이어는 다른 플레이어가 무엇을 하든 관계없이 하나의 최적의 전략을 선택할 수 있습니다.

플레이어 B가 무엇을 선택하든 플레이어 A는 아래쪽 전략을 따르면 항상 더 큰 보상을 받을 수 있으므로 아래쪽 전략을 선택하는 것이 합리적입니다. 그리고 플레이어 A가 어떤 선택을 하든 B는 왼쪽 전략을 따르면 더 큰 보상을 받게 됩니다. 결과적으로 이러한 선택이 대안을 지배하고 우리는 지배적인 전략과 균형을 이룹니다.

게임에서 각 플레이어가 지배적인 전략을 가지고 있다면 게임이 균형 잡힌 결과를 가져올 것이라고 예측할 수 있습니다. 결국, 지배적 전략은 상대방이 무엇을 하든 상관없이 최선을 다하는 전략이다. 이 예에서 우리는 A가 하단 전략을 따르고 균형 보상 2를 받고 B가 왼쪽 전략을 따르며 균형 보상 1을 받는 균형 결과를 기대합니다.

만약 각 기업이 상대방이 가격을 변함없이 유지할 것이라고 생각한다면, 상대방이 부과하는 가격에 비해 자신의 가격을 낮추는 것이 유리할 것입니다. 이는 각 회사가 가능한 가장 낮은 가격을 청구하는 경우에만 해당됩니다. 이는 우리의 경우 한계 비용이 0이기 때문에 가격이 0임을 의미합니다. 이 장의 용어를 사용하면 가격이 0인 각 기업은 가격 전략의 경우 내쉬 균형에 있습니다. 26장에서 우리는 베르트랑 균형이라고 불렀던 입장에 있습니다.

이중기업이 서로 다른 가격 전략을 사용하는 게임의 보수 행렬은 죄수의 딜레마에 대한 보수 행렬과 동일한 구조를 갖습니다. 각 기업이 높은 가격을 책정하면 둘 다 큰 이익을 얻습니다. 이는 두 기업이 독점 결과를 유지하기 위해 협력하는 상황입니다. 그러나 한 회사가 높은 가격을 설정하면 다른 회사가 가격을 약간 낮추고 첫 번째 회사의 시장을 장악하여 더 큰 이익을 얻는 것이 유리합니다. 그러나 두 회사 모두 가격을 인하하면 둘 다 이익을 덜 얻게 됩니다. 다른 회사가 요구하는 가격이 무엇이든 가격을 약간 낮추는 것이 항상 귀하에게 유리합니다. 내쉬균형은 각 기업이 가능한 최저 가격을 부과할 때 발생합니다.

그러나 게임이 무제한으로 반복되면 다른 결과가 나올 수도 있습니다. 당신이 tit-for-tat 전략을 선택했다고 가정해 봅시다. 만약 다른 회사가 이번 주에 가격을 낮추면, 당신도 다음 주에 가격을 낮출 것입니다. 만약 각 플레이어가 상대방이 맞대결 전략을 추구하고 있다는 것을 알고 있다면, 가격 전쟁으로 이어질 수 있기 때문에 각 플레이어는 가격을 낮추는 것을 두려워하게 될 것입니다. 맞대응 전략이 암시하는 위협은 기업이 높은 가격을 유지하는 데 도움이 될 수 있습니다.

실제 카르텔이 때때로 이 전략을 사용하려고 시도한다는 주장이 있습니다. 이런 종류의 예는 최근 Robert Porter의 기사에서 설명되었습니다. 연합집행위원회(United Executive Committee)는 1800년대 후반에 설립된 유명한 카르텔이었습니다. 미국의 화물 철도 운송 가격. 이 카르텔의 형성은 미국의 독점 금지법 도입보다 앞서 이루어졌으며 당시에는 완전히 합법적이었습니다.

카르텔은 화물 운송에서 각 철도의 시장 점유율을 결정했습니다. 각 회사는 개별적으로 관세를 설정했으며 OIC는 각 회사가 보낸 화물의 양을 모니터링했습니다. 그러나 1881년, 1884년, 1885년 동안. 일부 카르텔 회원에 따르면 다른 회원사가 합의에도 불구하고 시장 점유율을 높이기 위해 관세를 인하한 사례가 여러 차례 있었습니다. 이 기간 동안 가격 전쟁이 자주 발생했습니다. 한 회사가 부정행위를 시도하자 다른 회사들은 모두 탈북자를 “처벌”하기 위해 가격을 낮췄다.

이런 종류의 맞대응 전략은 분명히 한동안 카르텔 계약을 유지할 수 있습니다.

예: 항공사 가격 책정의 tit-for-tat 전략 tit-for-tat 전략은 실제 과점 기업에서 널리 사용됩니다. 이런 종류의 흥미로운 예는 항공사 가격 책정에서 제공됩니다.

항공사는 종종 다양한 종류의 특별 할인 요금을 제공합니다. 많은 항공업계 관측자들은 이번 인센티브가 경쟁자들이 주요 노선의 가격 인하를 자제하라는 신호로 사용될 수 있다고 말합니다.

따라서 노스웨스트는 빈 좌석을 채우기 위해 서부 해안 도시로 향하는 항공편에 야간 요금 할인을 도입했습니다. Continental Airlines는 이를 비용으로 시장 점유율을 얻으려는 시도로 해석하고 Northwest의 야간 요금과 일치하도록 미니애폴리스의 모든 요금을 낮추는 방식으로 대응했습니다. 그러나 콘티넨탈의 관세 인하 정책은 도입된 지 하루나 이틀 만에 만료됐다.

Northwest는 이것을 Continental이 시장에 진지한 의도가 없으며 단순히 Northwest가 야간 요금 인센티브를 제거하기를 원한다는 신호로 해석했습니다. 그러나 Northwest는 Continental에 자체 메시지를 보내기로 결정했습니다. Continental의 본거지인 휴스턴에서 West Coast까지 저렴한 요금을 도입했습니다! 따라서 노스웨스트는 자사가 도입한 혜택이 정당하다고 생각하는 반면, 콘티넨탈의 대응은 부적절하다는 점을 분명히 했습니다.

이 모든 관세 인하는 매우 효과적이었습니다. 단기행위; 이는 더 큰 시장 점유율을 확보하기 위한 입찰이라기보다는 경쟁사에 대한 메시지로 의도된 것 같습니다. 분석가가 설명했듯이, 항공사가 부과하기를 원하지 않는 요금은 "경쟁력이 결국 깨어나 상황을 일치시킬 것이라는 희망으로 거의 항상 만료일이 있어야 합니다."

항공사 독점 시장의 암묵적인 경쟁 규칙은 다음과 같습니다. 다른 회사가 가격을 높게 유지하면 나도 높은 가격을 유지할 것입니다. 하지만 다른 회사가 가격을 내리면 나도 맞대응 전략에 따라 가격을 낮추는 방식으로 대응한다. 즉, 두 회사 모두 "황금률에 따라 생활합니다". 즉, 다른 사람이 당신에게 해주기를 바라는 대로 다른 사람에게도 대하십시오. 이러한 보복 위협은 모든 가격을 높게 유지하는 데 도움이 됩니다.

주제 3. 일반적인 형태의 게임

따라서 일반(또는 전략적) 형태의 게임은 트리플(I, S = Пi(Si)iI u = (u1,...,un))이며, 여기서 I = (1,..., n)은 다음과 같습니다. 플레이어 세트 Si는 플레이어 i가 사용할 수 있는 전략(이동) 세트입니다 = 1,..., n, ui: S = PiI Si R1은 각 전략 세트 s = ( s1,..., sn) , 상황이라고도 하며 이 플레이어의 승리입니다.

여기서 표준적인 예는 Bertrand와 Cournot에 따르면 전략이 각각 가격 또는 생산량이고 보상이 이익인 이중 독점입니다(문단 1.8 참조). 핵심 역할이론적으로 모든 플레이어가 합리적이라는 가정으로 구성됩니다. 즉, 각 플레이어는 자신이 이용할 수 있는 대안을 고려하고, 알 수 없는 매개변수에 대한 믿음을 형성하고, 선호도를 명확하게 정의하고, 일부 최적화 프로세스의 결과로 자신의 행동을 선택합니다(최대화). 그의 목적 함수). 더욱이, 플레이어의 합리성은 일반적으로 알려져 있다는 사실(일반 지식), 즉 모든 플레이어가 합리적일 뿐만 아니라 다른 플레이어가 합리적이라는 것도 알고, 모든 플레이어가 자신이 합리적이라는 것을 알고 있다는 사실도 그다지 중요하지 않습니다. 합리적 등 d. 잘 알려진(well-known)의 공식적인 정의는 다음을 참조하세요.

참고 1.2.1. 최근 몇 년 동안 제한된 합리성 모델 연구에 전념하는 상당수의 연구가 등장했습니다. 이 작업의 주요 동기는 "절대적으로"로 작동하는 이론에 대한 불만입니다. 합리적인 사람", 왜냐하면 우리는 사람들의 실제 행동과 "완벽한 합리성"의 가정 사이에 매우 빈번한 불일치를 목격하고 있기 때문입니다. 제한된 합리성을 모델링하려는 아이디어는 Herbert Simon(Simon(1955, 1956))의 작업으로 거슬러 올라갑니다. , Simon(1972, 1976) 참조) 제한된 합리성 모델링과 관련된 문제에 대한 논의는 예를 들어 Rubinstein(1998)이라는 책에서 찾을 수 있습니다.

합리적이고 제한된 합리적 플레이어 모델링 문제에 대한 다양한 견해는 Binmore(1987, 1988), Auman(1996)의 작업에서 제시됩니다.

I = (1,2)이고 두 플레이어 각각의 전략 세트가 유한한 경우를 살펴보겠습니다. 이 경우 게임은 매트릭스를 사용하여 "표현"될 수 있습니다(참조:

그림 6), 여기서 M = Si는 플레이어 1의 가능한 전략 수, K = S2는 플레이어 2의 가능한 전략 수, a mk u1 s1m, s 2k, bmk u 2 s1m, s2k, k = l ,...,K , m = 1,...,M.

동일한 게임은 두 개의 행렬(따라서 이러한 게임을 종종 바이매트릭스라고 함)의 형태로 표현될 수 있으며, 그 요소는 각각 аmk 및 bmk입니다.

유한 제로섬 게임, 즉 모든 siSi에 대해 u1(s1, s2) = u2(s1, s2), i = 1,2인 2인 게임의 경우, 모든 m에 대해 평등 amk = bmk가 참입니다. 그리고 케이,

쌀. 6.

따라서 이러한 게임은 단 하나의 행렬(amk) m=1,...,M, k=1,..., K로 지정될 수 있으므로 유한 제로섬 게임을 행렬 게임이라고 합니다(부록(섹션 참조) 1.13) 자세한 내용은 참조).

혼합 전략 i는 순수 전략 Si 집합의 확률 분포입니다. (혼합 전략을 도입하려는 동기는 미래에 남겨둡니다).

각 플레이어의 전략 무작위화는 상대방의 무작위화와 통계적으로 독립적이며, 혼합 전략의 프로필(세트)에 해당하는 보수는 해당 순수 전략의 보수에 대한 기대값입니다(즉, 기대 효용에 대해 이야기하고 있습니다). ). 우리가 마지막 사례에 초점을 맞추는 이유 중 하나는 측정 이론과 관련된 "복잡함"을 피하기 위해서입니다.

i번째 플레이어의 혼합 전략 공간을 i로 표시하고, i(si)는 전략 s가 선택될 확률입니다. 요소를 표시할 혼합 전략 세트의 공간입니다. 혼합 전략 i의 지원은 긍정적인 확률이 "할당된" 순수 전략의 집합입니다.

정의 1.2.1. Si가 플레이어 i의 순수 전략의 유한 집합이라면, 혼합 전략 i: Si는 각 순수 전략 siSi에 그것이 플레이될 확률 i(si) 0을 할당합니다. (여기서 인덱스 i는 우리가 플레이어 i의 전략에 대해 이야기하고 있습니다. 따라서 플레이어 i의 다양한 전략에 대해 이야기하면 이를 si, s"i, s"i,...)로 표시합니다.

플레이어 i의 혼합 전략 집합은 (ki 1)차원 단순형이라는 것을 쉽게 알 수 있습니다. 여기서 ki는 i번째 플레이어의 순수 전략 수입니다.

전략의 프로필(세트)에 해당하는 플레이어 i의 보상은 (2.1)입니다(순수 전략 세트에서 이 함수의 값은 원래 보상 함수 ui의 값과 일치하므로 동일한 표기법을 유지합니다). ).

i번째 플레이어의 보수는 다음과 같다는 점에 유의하는 것이 중요합니다. 선형 함수확률 i에 대해, 또한 프로파일에서 다항식이므로 연속적입니다. 마지막으로 순수 전략은 퇴화된 혼합 전략으로, 주어진 순수 전략에 확률 1을 할당하고 다른 전략에 확률 0을 할당합니다.

정의 1.2.2. 게임 Г = (I, S, u)의 혼합 확장은 게임 а, u()이며, 여기서 는 평등(2.1)으로 정의됩니다.

예. 그림에 표시된 게임을 고려하십시오. 7.

L M R 그림. 7.

1 = (1/3, 1/3, 1/3)(이는 플레이어 1의 혼합 전략이 그에게 확률 1/3의 전략 u, m 및 d를 플레이하도록 할당한다는 의미), 2 = (0, 1/2, 1/2) (이러한 플레이어 2의 혼합 전략은 전략 M과 P를 동일한 확률로 플레이하고 전략 L을 전혀 플레이하지 않는 것을 규정합니다). 이 경우 + 1/3(02 +1/2*8 + *3) + 1/3(0*3 + *9 +1/2*2) = 11/2를 얻습니다.

–  –  –

위의 게임을 주의 깊게 살펴보겠습니다(그림 7). 플레이어 1이 어떻게 플레이하는지에 관계없이 R은 플레이어 2에게 M보다 훨씬 더 큰 보상을 제공합니다. 이러한 의미에서 전략 M은 엄격하게 지배되므로 합리적인 플레이어 2가 M을 플레이해서는 안 된다는 것이 분명합니다. 또한, 플레이어 1이 알고 있다면 ( 즉, 그 자신은 합리적이고 상대방이 합리적이라는 것을 알고 있습니다...) 2가 M을 플레이하지 않을 경우 그에게는 ha 또는 d보다 더 나을 것입니다. 마지막으로, 플레이어 2가 플레이어 2가 M을 플레이하지 않을 것이라는 것을 플레이어 1이 알고 있다는 것을 플레이어 2가 안다면, 플레이어 2는 1이 플레이할 것이고, 그런 다음 2가 L을 플레이해야 한다는 것을 알고 있습니다. 이 프로세스는 엄격하게 지배되는 전략을 순차적으로 제거하는 것입니다(나중에 설명하겠습니다). 엄격한 정의 및 해당 경제적 예). 여기서 자연스럽게 떠오르는 질문은 “이러한 지배 전략의 배제를 견딜 수 있는 전략의 집합은 배제의 순서에 달려 있지 않은가?”이다. 다행스럽게도 그렇지 않습니다. 여기서 요점은 세트 D의 모든 상대 전략에 대해 전략 si가 엄격히 s"보다 나쁘다면 세트 D의 모든 하위 세트에 대해서도 s"보다 나쁘다는 것입니다.

이제 다음 게임을 살펴보겠습니다(그림 8 참조). 8.

여기서 M은 전략 u에 의해 엄격히 지배되지 않으며 M은 전략 D에 의해 엄격하게 지배되지 않습니다. 그러나 플레이어 1이 u를 확률 1/2로, D를 확률 1/2로 플레이한다면 그는 무슨 일이 있어도 1/2의 보상을 보장합니다. 그가 플레이어 2를 어떻게 플레이하는지.

따라서 순수 전략은 어떤 ​​순수 전략에 의해 엄격하게 지배되지 않더라도 혼합 전략에 의해 엄격하게 지배될 수 있습니다.

다음 표기법을 소개하겠습니다. iI라고 하면 si S-i로 I\(i)에서 플레이어의 전략 집합을 나타냅니다. (s"i, s-i)는 전략 집합(s1, ..., si)을 나타냅니다. -1, s"i, si+1, ..., sn). 마찬가지로 혼합 전략("i, -i)의 경우 (1, ..., i-1, "i, i+1, ..., n)입니다.

(이 표기법에서는 s = (si, s-i)라는 점에 유의하세요).

정의 1.3.1 모든 s-i S-i에 대해 (3.1)과 같은 또 다른 순수 전략 s"i가 있는 경우 게임 Г에서 플레이어 i의 순수 전략 Si는 엄격하게 지배됩니다(엄격하게 지배됨).

이 경우, 우리는 전략 s"i가 전략 si를 지배한다고 말합니다. (3.1)이 비엄격 부등식으로 유지되는 s"i가 있으면 전략 si.는 약하게 지배되지만 적어도 한 세트에 대해서는 s-i 불평등엄격한.

정의는 혼합 전략과 유사합니다.

정의 1.3.2. 혼합 전략이 게임을 완전히 지배합니다. 모든 -i-i 전략에 대해 i의 다른 전략을 엄격하게 지배하는 경우 게임에서 플레이어 i에 대한 엄격하게 지배적인 전략이라고 불리는 또 다른 전략 "i가 있는 경우.

i가 전략 "i"에 의해 엄격하게 지배되는지 확인하려면 플레이어 i의 상대의 순수 전략에 대해 이 두 전략의 "행동"을 살펴볼 필요가 있습니다.

공식적으로:

if and only if 실제로: 차이점을 고려하십시오. 그렇다면 (B)이면 (A)입니다. 왜냐하면 모두 0입니다. (B)는 (A)에서 이어집니다. 왜냐하면 s-i - 퇴화 사례 -i.

일. 순수 전략 si가 엄격하게 지배된다면, 양의 확률로 si를 사용하는 모든 전략도 마찬가지임을 증명하십시오.

그러나 혼합 전략은 약하게 지배되지도 않는 순수 전략을 긍정적인 확률로 사용하더라도 엄격하게 지배할 수 있습니다. 실제로 다음 게임을 고려해보세요(그림 9).

쌀. 9.

플레이어 1의 전략(1/2, 1/2,0)은 플레이어 2가 어떤 플레이를 하든 상관없이 예상되는 보상을 제공하므로 전략 D가 엄격하게 지배합니다.

당연히 엄격하게 지배되는 전략은 제거되어야 합니다. 엄격하게 지배되는 전략을 순차적으로 제거한다는 의미에서 게임이 결정 가능한 경우, 즉

각 플레이어에게는 첫 번째 예에서와 같이 단일 전략이 남아 있으며, 결과적인 상황은 게임이 어떻게 진행될지 예측하는 데 좋은 후보가 될 것입니다.

그림에 표시된 게임으로 돌아가 보겠습니다. 7. 여기서 엄격하게 지배된 전략을 순차적으로 제거한 결과 한 쌍의 전략(u, L)이 남아 있음을 쉽게 확인할 수 있습니다. 첫 번째 단계에서는 전략 M이 제거됩니다(전략 R이 지배함).

그런 다음 전략 m(전략 u에 의해 지배됨)이 제거되고, 세 번째 단계에서는 전략 d(전략 u에 의해 지배됨)가 제거됩니다. 마지막으로 마지막 단계에서는 R을 제거합니다.

그러나 그러한 상황이 좋은 후보자를 제시한다 하더라도 일이 반드시 "규정"된 대로 발생하지는 않습니다. 특히 보상이 "극단적인" 가치를 가질 수 있는 경우에는 더욱 그렇습니다.

예를 들어 다음 게임을 생각해 보십시오(그림 10).

분명히 여기서 전략 L은 전략 R에 의해 지배되므로 상황 (D,R)이 좋은 후보입니다. 하지만... 상황 (_D, L)에서 플레이어 1의 손실이 너무 크기 때문에 플레이어 1이 전략 d를 플레이하는 위험을 감수하지 않을 것이라고 가정하는 것이 가능합니다(예를 들어 플레이어의 무작위 오류 가능성을 허용). 2).

물론 플레이어가 결정을 내리기 전에 동의할 수 있다면 상황은 바뀔 것입니다. 물론 이 경우 모든 것은 계약의 '강도'에 달려 있습니다.

약하게 지배되는 전략의 일관된 제거 다음과 같은 잘 알려진 게임 "비스마르크 해"를 생각해 보십시오. 사건의 배경은 1943년이다. 이마무라 제독은 비스마르크 해를 통해 뉴기니에 지원군을 전달하라는 명령을 받았습니다. 결국 케니 제독은 이를 막아야 했습니다. 이마무라는 북쪽(더 짧은) 경로와 남쪽 경로 중에서 선택해야 했고, 케니는 호송대를 폭격하기 위해 비행기를 보낼 곳을 결정해야 했습니다. 더욱이, 하루 동안 비행기는 두 방향 중 하나만 폭격할 수 있습니다. 즉, 북부 또는 남부 노선 중 하나만 폭격할 수 있습니다(둘 다는 아님).

따라서 케니가 잘못된 방향으로 비행기를 보내면 돌아올 수는 있지만 폭격이 가능한 일수는 줄어든다. 설명된 상황은 다음 게임을 모델로 삼았습니다. 우리는 북쪽 경로는 2일, 남쪽 경로는 3일이 소요될 것이라고 믿습니다(그림 11 참조).

쌀. 열하나.

일반적으로 이것은 매트릭스 게임, 즉 각 플레이어에 대한 유한한 전략 세트를 가진 적대적인 게임입니다. 어떤 플레이어도 지배적인 전략을 갖고 있지 않습니다. 그러나 여기서 우리는 약한 지배력에 대해 이야기할 수 있습니다. Imamur의 전략에 대해 South는 약하게 지배됩니다. 왜냐하면 모든 Keppeu 전략에서 Imamur의 손실(호송대가 폭격을 받는 일수)은 C보다 Yu의 손실이 적지 않기 때문입니다. Kenney 전략 Yu - C의 손실은 Yu의 손실보다 훨씬 적습니다.

약하게 지배되는 전략의 순차적(반복) 제거는 다음과 같이 진행됩니다. 플레이어 중 한 명의 약하게 지배되는 전략 중 하나가 제거되고, 약하게 지배되는 전략 중 하나가 나머지 전략에서 제거됩니다.

케니가 이를 이해하고 이마무라가 북쪽을 선택할 것이라고 믿는다고 가정해보자. 이 새로운 상황에서 Kenney는 이미 North라는 지배적인 전략을 가지고 있습니다. 이는 지배적인 전략을 순차적으로 제거할 때 균형을 제공합니다. (실제로는 이런 일이 일어났습니다. 1943년 3월 2~5일에 미국과 호주 공군이 북부 항로를 따라 이동하던 일본 호송대를 공격하여 수송선과 구축함 4척을 모두 침몰시켰습니다. 7,000명 중 1,000명 뉴기니에 도달했습니다.) 약하게 지배되는 전략을 순차적으로 제거하는 절차는 엄격하게 지배되는 전략을 제거하는 것과 유사합니다. 그러나 매우 중요한 차이점이 하나 있습니다. 즉, 약하게 지배되는 전략의 연속적인 제거(즉, 유지)에서 살아남는 전략 세트는 전략이 제거되는 순서에 따라 달라질 수 있습니다.

실제로 다음 게임을 고려해보세요(그림 12).

–  –  –

u가 먼저 제거되고(M에 의해 약하게 지배됨) 다음 L(R에 의해 약하게 지배됨)이 제거되면 결과 (2,1)에 도달합니다(두 번째 플레이어가 R을 선택함). D가 먼저 제거되고(M에 의해 약하게 지배됨) R(L에 의해 약하게 지배됨)이 제거되면 결과(1,1)에 도달합니다.

몇 가지 예를 살펴보겠습니다. 우리는 유명한 죄수의 딜레마부터 시작할 것입니다. 어떤 면에서는 대부분의 게임 이론 교과서에서 다양한 공식으로 나타나는 매우 간단한 게임입니다. 이 게임은 거의 모든 코스의 시작 부분에 제공되며 많은 사람들이 문구를 들으면 즉시 생각합니다. "게임 이론." .

죄수의 딜레마. 이 양식화된 이야기의 거의 교과서적인 줄거리는 다음과 같습니다. 심각한 범죄를 저지른 두 명의 용의자가 체포되어 서로 의사소통이 불가능한 상태로 독방에 갇히게 됩니다. 그들은 한 명씩 심문을 받습니다. 만약 두 사람 모두 범죄를 자백한다면 그들의 자백을 고려하여 각각 6년의 징역형을 선고받게 됩니다. 두 사람 모두 묵비권을 행사할 경우 경범죄로 처벌되며, 이 경우 징역 1년을 선고받게 된다. 그들 중 한 명은 자백하고 다른 한 명은 자백하지 않을 경우, 수사를 지원한 첫 번째 사람은 형벌에서 완전히 석방되고, 두 번째 사람은 이 범죄에 대해 가능한 최대 형벌인 10년 징역형을 선고받게 됩니다.

설명된 스토리는 다음 게임으로 표현될 수 있습니다(그림 13).

여기서는 "침묵 유지" 전략이 각 플레이어에게 엄격하게 지배되므로(이들이 합리적이라는 점을 다시 한 번 상기하세요) 각 플레이어가 "고백" 전략을 선택한다는 것을 쉽게 확인할 수 있습니다. 이에 따라 두 수감자 모두 징역 6년을 받게 된다.

아래에서 볼 수 있듯이 상황(“고백”, “고백”)은 당연히 내쉬 균형 상황입니다. 그렇게 함으로써 우리는 즉시 눈에 띄는 문제에 직면하게 됩니다. 결과는 매우 나쁩니다. 이는 최대 총 징역형을 제공합니다(물론 우리는 이것을 다시 강조합니다. 플레이어의 합리성에 대한 가정을 잊어서는 안됩니다. 여기서 배신 문제 등은 고려 대상에서 제외됩니다.

디.). 이는 이 게임에 대한 많은 연구를 촉발시켰는데, 예를 들어 각 죄수에게 다음과 같은 결과를 주는 상황(“침묵을 유지”, “침묵을 유지”)에서 이 게임(또는 그 수정)의 결과를 얻고자 하는 자연스러운 욕구가 있기 때문입니다. 징역 1년.

다음 게임은 위에서 언급한 죄수의 딜레마와 세부 사항을 공유하지만 이미 뚜렷한 경제적, 정치적 의미를 담고 있으므로 동일한 이름을 유지하도록 하겠습니다.

"죄수의 딜레마 - 2". A와 B라고 부르는 두 산유국을 생각해 보세요. 이 두 국가는 일일 석유 생산량에 합의하여 협력할 수 있습니다. 예를 들어 각 국가의 일일 석유 생산량을 200만 배럴로 제한합니다. 국가. 반면에 국가들은 하루에 400만 배럴을 생산하면서 비협조적으로 행동할 수도 있습니다. 이러한 상황은 석유 생산량에 따른 국가의 이익을 보여주는 다음 게임으로 나타낼 수 있습니다(그림 14).

쌀. 14.

이 그림은 각 카르텔 회원이 판매량을 늘려 추가 이익을 얻기 위해 계약에서 벗어날 인센티브를 갖는 카르텔의 매우 전형적인 모습입니다.

여기에서도 각 플레이어가 "협력하지 않는 것"이라는 지배적인 전략을 가지고 있음을 쉽게 알 수 있습니다. 결과적으로 국가는 32, 24(일일 백만 달러)의 이익을 얻습니다. 이는 협력적인 행동의 상황보다 훨씬 적습니다.

이 예에서 우리가 직면한 현상은 죄수의 딜레마와 유사하므로 두 번째 예를 "죄수의 딜레마"라고도 불렀습니다. 두 플레이어 모두 지배적인 전략을 사용하여 보상을 최대화하지만 동시에 결과는 둘 다 지배적인 전략을 따르는 상황보다 더 나쁩니다.

죄수의 딜레마에서 '협력적 행동'을 달성하는 것이 가능합니까? 다음 장에서 살펴보겠지만 그렇습니다.

여기서는 동일한 주제에 대해 한 가지 예만 더 살펴보겠습니다.

"죄수의 딜레마 - 3". "일"(si = 1)하고 "회피"(si = 0)할 수 있는 직원이 2명 있다고 가정해 보겠습니다. (si는 직원 i가 쏟는 노력의 수준입니다.) "팀" 4(s1+s2)의 총 생산량은 작업자들에게 균등하게 분배됩니다.

각 근로자가 일을 하면 3의 비용이 발생하고, 일을 하지 않으면 0의 비용이 발생합니다.

해당 행렬은 그림 1에 나와 있습니다. 15.

"일"은 각 직원이 엄격하게 지배하는 전략입니다.

2차 가격 경매. 판매자는 분할할 수 없는 상품 한 단위를 보유하고 있습니다. 제품을 각각 0 v1 ... vn으로 평가하는 n명의 잠재적 구매자가 있으며 이러한 추정치는 "잘 알려져 있습니다". 구매자는 동시에 6x...x로 입찰(가격 설정)을 하고, 각 플레이어 i는 신호 i의 가능한 다양한 구현에 따라 결정을 내립니다.

그러나 모든 플레이어가 관찰할 수 있는 공통 신호가 있다고 가정해 보겠습니다. 이 경우 새로운 기회가 나타납니다. 예를 들어 방금 언급한 "가족 분쟁" 게임에서 두 플레이어는 예를 들어 1/2이면 축구에 가고 1/2이면 발레에 가기로 결정할 수 있습니다. 각 플레이어의 전략 선택은 무작위로 유지되지만 여기서는 분명히 균형 잡힌 성격을 지닌 완전히 조정된 행동(그와 그녀가 함께 끝남)을 다루고 있으며, 한 플레이어가 이 규칙을 따르기로 결정하면 최적입니다. 두 번째는 동일한 규칙을 준수합니다. 이는 R. Auman(1974)이 소개한 상관균형(결합균형)의 예를 제공합니다.

공식적으로 이러한 균형은 Bayes-Nash 균형의 특별한 경우이며, 이에 대해서는 3장에서 살펴보겠습니다.

명제 1.7.2 유한한 전략 집합 S1,..., Sn을 갖는 모든 게임 Г의 혼합 확장에서는 혼합 전략에 내쉬 균형이 있습니다.

이 명제는 게임에서 플레이어 전략 세트가 해당 공간 RM에서 단순하기 때문에 다음과 같은 보다 일반적인 결과에서 직접 따릅니다.

정리 1.7.

1 Debreu(1952), Glicksberg(1952), Fan Ky(1952). 각각의 i = 1,..., n에 대해 (1) Si는 비어 있지 않고 볼록하며 조밀합니다(일부 RM에서).

(2) ui(s1,..., sn)은 (s;,..., sn)에서는 연속이고 s;에서는 준오목형입니다. 그러면 게임에서 Г = (I, (Si), (ui) ) Nash에 따르면 순수 전략에는 균형이 있습니다.

임의의 a에 대해 집합 (x: f(x) a)가 볼록하면 함수 f: RK R을 준오목이라고 부른다는 것을 기억하세요.

이 명제의 증명은 다음 정리에 의존합니다.

정리 1.7.

1 정리 1.7.1의 조건이 충족되면 최선의 답 bi의 맵은 비어 있지 않고 볼록한 값(즉, 집합 bi(s-i)이 비어 있지 않고 볼록함) 및 상위 반연속입니다.

보조정리 증명 1.7.1. 먼저, bi(s-i)는 컴팩트 세트 Si에서 ui(,s-i)를 최대화하는 i번째 플레이어의 전략 세트라는 점에 유의하세요. 비어 있지 않음은 Ui의 연속성에서 비롯됩니다. 집합 bi(s-i)의 볼록성은 함수 ui(-,s_;)의 준오목함을 따릅니다. 상위 반연속성을 확인하려면 모든 수열(sf,s^) - (s;,s_;)에 대해 sf G bi(s^i)\/k가 Si G 6(s_)임을 보여야 합니다. ;). VA; Ui(s^s^) Ui(s",s^) V s" G Si. u;(-), u4(s4,s_4) u4(s",s_4)의 연속성으로 인해.

정리의 증명. b: S - S 매핑을 공식 6(si,..., sn) = 6i(s_i) x 62(5-2) x x b(s_n)으로 정의해 보겠습니다. b()는 다중값 매핑임이 분명합니다. S = Si X X Sn 그 자체. Lemma에 따르면 b()는 비어 있지 않고 볼록한 값을 가지며 상위 반연속입니다. 따라서 고정점에 대한 T. Kakutani에 따르면 고정점, 즉 전략 세트 s G S: s G b(s)가 있습니다.

이 전략 세트는 내쉬 균형입니다. Si G bi(s-i) V r = 1,..., n으로 구성하면 다음 정리도 유효합니다.

정리 1.7.

2(글릭스버그(1952)). 게임에서 플레이어 전략의 세트 Si가 미터법 공간의 비어 있지 않은 소형 부분집합이고 보상 함수 Ui가 연속적이라면 혼합 전략에 내쉬 균형이 있습니다.

따라서 전략 공간 Si = (A, B, C)입니다. 다수를 차지하는 대안이 승리합니다. 대안 중 어느 것도 과반수를 얻지 못하면 대안 A가 선택됩니다.

승리 기능은 다음과 같습니다.

u1(A) = u2(B) = u3(c) = 2, u1(B) = u2(C) = u3(A) = 1, u1(C) = u2(A) = u3(B) = 0 .

이 게임에는 세 가지 균형 결과(순수 전략)가 있습니다: A, B, C. 이제 균형을 살펴보겠습니다(3개 이상이 있음). 플레이어 1과 3이 A에 투표하면 플레이어 2는 결과를 바꾸지 않습니다. 결과는 그가 어떻게 투표하든 관계없이 플레이어 3은 그가 어떻게 투표하는지 신경 쓰지 않습니다. (A, A, A) 및 (A, B, A) - r.N.이지만 (A, A, B) - r.N.이 아닙니다. 두 번째는 V에게 투표하는 것이 더 좋습니다.

주제 6. 완전한 정보를 갖춘 동적 게임

정의. 그래프는 쌍 (V,E)이며, 여기서 V는 유한 집합이고 ES2(V)입니다(여기서 S2(V)는 집합 V의 요소의 순서가 없는 쌍 집합을 나타냅니다). 집합 V의 요소를 그래프의 정점이라고 하고 집합 E의 요소를 그래프의 가장자리라고 합니다. v가 꼭지점, e가 모서리, ve가 있으면 꼭지점 v와 모서리 e가 입사된다고 합니다. v와 w가 정점이고 (v,w)E인 경우 정점 v와 w는 인접하다고 합니다.

인접성 및 발생률 행렬 정의. 정점 vi와 vi+1이 i=1,…,n–1에 대해 인접하면 그래프의 정점 순서 집합(v1,v2,…,vn)을 그래프의 경로라고 합니다. 경로 (v1,v2,…,vn)는 정점 v1과 vn을 연결한다고 합니다. 숫자 n-1을 경로 길이라고 합니다.

정의. 두 정점에 대해 이를 연결하는 경로가 있으면 그래프가 연결되었다고 합니다.

정의. 정점 v1,v2,…,vn이 쌍별로 구별되는 경우 경로(v1,v2,…,vn)를 단순이라고 합니다.

정의. v1=vn인 경우 경로(v1,v2,…,vn)를 사이클이라고 합니다.

정의. 정점 v1,v2,…,vn–1이 서로 다른 쌍을 이루는 경우 순환(v1,v2,…,vn)을 단순이라고 합니다.

정의. 양수 길이의 단순 순환을 포함하지 않는 연결된 그래프를 트리라고 합니다.

보조정리. 트리에 두 개의 정점이 있는 경우 이를 연결하는 간단한 경로는 하나만 있습니다.

증거. v와 w를 트리의 두 꼭지점으로 둡니다. 트리는 연결된 그래프이기 때문에 이를 연결하는 경로가 있습니다. (v=v1,v2,…,vn=w)를 이러한 경로 중 가장 짧은 것으로 둡니다.

그렇다면 이 길은 간단하다. 실제로 일부 i와 일부 ji에 대해 vi=vj인 경우 경로 (v1,v2,…,vi,vj+1,vj+2,…,vn)는 여전히 v와 w를 연결하고 길이가 더 짧습니다. 이는 모순됩니다. 시작 경로를 선택합니다. 존재가 입증되었습니다.

유일성을 증명해보자. 두 개의 서로 다른 단순 경로(v=v1,v2,…,vn=w)와 (v=w1,w2,…,wk=w)가 있다고 가정합니다. 서로 다르기 때문에 경로에 속하지 않는 정점 wi가 있습니다(v=v1,v2,…,vn=w). j를 모든 꼭짓점 wj,wj+1,...,wi가 (v=v1,v2,...,vn=w)에 속하지 않는 가장 작은 숫자로 하고, l을 다음과 같은 가장 큰 숫자로 둡니다. 모든 정점 wi,wi +1,…,wl은 (v=v1,v2,…,vn=w)에 속하지 않습니다. 그러면 정점 wi–1과 wl+1은 경로(v=v1,v2,…,vn=w)에 속합니다. 즉, 일부 p와 q에 대해 wj–1=vp 및 wl+1=vq입니다. pq이면 경로 (vp,wj,…,wl,vq,vq–1,…,vp)는 단순 순환이 되고, pq이면 경로 (vp,wj,…,wl,vq,vq+ )는 단순한 사이클 1,…,vp)가 됩니다. 두 경우 모두 트리의 정의와 모순됩니다. 보조정리는 증명되었습니다.

정의. 집합 V0,V1,…,Vn의 집합은 집합 V0,V1,…,Vn이 쌍으로 서로소이고 합집합이 V와 같을 경우 집합 V의 분할이라고 합니다.

정의. 집합 V의 두 개의 파티션 V0,V1,…,Vn과 W0,W1,…,Wk가 주어진다고 가정합니다.

파티션 V0,V1,…,Vn은 각 세트 V0,V1,…,Vn이 정확히 W0,W1,… ,주

정의. 일부 정점 o를 트리에 표시해 보겠습니다. v를 o에 연결하는 단순 경로가 아닌 정점 v에 입사하는 모서리를 정점 v의 대안이라고 합니다. 표시된 정점이 있는 트리의 모든 정점은 자연스럽게 그 안에 있는 대안의 수에 따라 클래스로 구분됩니다. 이 파티션을 대체 파티션이라고 합니다. 대안이 없는 정점을 최종 정점이라고 합니다.

정의. 쌍(,), 여기서 그래프의 서로 다른 정점을 할당하는 매핑입니다. 다양한 포인트그래프의 모서리(v1,v2)를 끝(v1) 및 (v2)이 있는 세그먼트와 연결하는 매핑을 서로 다른 모서리에 해당하는 세그먼트에 공통이 없는 경우 평면에 그래프를 임베딩이라고 합니다. 내부 포인트.

보조정리. 모든 나무는 평면에 포함될 수 있습니다.

증거. 트리의 정점 사이의 거리는 정점을 연결하는 유일한 단순 경로의 길이입니다.

트리의 정점 v0을 임의로 선택하고 이를 클래스 V0에 할당하겠습니다. t에 대해 우리는 거리 t에 있는 꼭지점만을 클래스 Vt에 할당합니다. 전체 정점 집합은 유한한 수의 클래스로 나뉩니다.

평면에 데카르트 좌표를 도입하고 (v0)=(0,0)으로 설정하겠습니다.

우리는 집합 V1과 집합 (vi)=(i,1)의 정점 v1,…,vl의 번호를 임의로 다시 매깁니다.

집합 Vt+1의 각 정점은 집합 Vt의 정확히 하나의 정점에 인접합니다.

집합 Vt의 정점 번호가 이미 다시 매겨졌다고 가정하면, viVt+1, vjVt+1, (vi,vp)E, (vj,vq)E가 될 때마다 부등식 ij가 유지되도록 집합 Vt+1의 정점 번호를 다시 매깁니다. , vpVt, vqVt 및 pq. vjVt인 경우 (vj)=(j,t)로 설정하겠습니다.

구성된 매핑은 보조정리의 조건을 만족합니다. viVt+1, vpVt, vjVr+1, vqVr 및 tr인 경우 세그먼트 [(vi),(vp)] 및 [(vj),(vq)]는 교차하지 않습니다. 다른 측면 y=r 선에서 시작하고 t=r이면 번호 매기기 방법 선택으로 인해 이러한 세그먼트가 교차하지 않습니다.

위치 형태의 게임

정의. 다음과 같은 경우 위치 형식의 n명 게임이 주어진다고 합니다.

a) 게임 트리라고 불리는 평면에 내장된 트리로, 표시된 꼭지점 v0과 이 꼭지점에 수반되는 구별되는 가장자리가 있습니다.

b) 이 트리의 정점 집합을 하위 집합 V0,V1,…,Vn으로 분할합니다. 이러한 분석을 플레이어 분석이라고 합니다. 집합 V0의 요소를 우연의 위치라고 하고, 집합 Vi의 요소를 i번째 플레이어의 개인 위치(i=1,...,n)라고 합니다.

c) 게임 트리 정점 집합의 분할. 이는 대체 분할과 플레이어별 분할을 모두 개선한 것입니다. 이 파티션의 요소를 정보 세트라고 합니다.

d) V0에 포함된 각 정보 세트에 대한 세트(1,...m)에 대한 확률 분포(p1(I),p2(I),...,pm(I)), 정점에는 m개의 대안이 있습니다.

e) 각 최종 정점에 대한 플레이어의 보수라고 불리는 n개의 숫자로 구성된 순서 집합입니다.

정의. 게임 트리의 표시된 상단을 게임의 시작 위치라고 합니다. 최종도 아니고 초기도 아닌 트리의 정점을 게임의 중간 위치라고 합니다. 게임의 초기 위치와 최종 정점을 연결하는 간단한 경로를 게임에서 게임이라고 합니다.

초기 순간에는 게임이 초기 위치에 있다고 간주됩니다.

순차적으로, 단계별로 게임을 진행하는 경우에는 두 가지 유형의 단계 중 하나가 구현됩니다.

a) 게임이 세트 V0에 속하는 v 위치에 있는 경우 정점 v를 포함하는 정보 세트에 대해 지정된 랜덤 변수의 실현 j가 발견됩니다. j번째 대안은 정점 v에 위치하며 정점 v에 입사하는 유일한 가장자리부터 시계 반대 방향으로 계산되며 대안이 아닙니다(정점 v가 초기 대안인 경우 표시된 가장자리부터 계산이 시작됩니다). 다음으로, 선택된 대안에 따라 두 번째 정점 w가 취해지며, 게임은 위치 w로 이동한 것으로 간주됩니다.

b) 게임이 Vi가 소유한 v 위치에 있으면 i번째 플레이어가 대안을 선택합니다. 동시에 그는 게임이 어떤 위치에 있는지 정확히 알지 못하지만 이 위치가 속하는 정보 집합을 알고 있습니다. 따라서 그는 위치 v에 있는 대안의 수 m을 알고 있습니다. 그는 자연수 jm을 선택했습니다.

그 후 j번째 대안은 정점 v에서 발견되며 정점 v에 입사하는 유일한 가장자리부터 시계 반대 방향으로 계산되며 대안이 아닙니다(정점 v가 초기 대안인 경우 표시된 가장자리부터 계산이 시작됩니다). 다음으로, 선택된 대안에 따라 두 번째 정점 w가 취해지며, 게임은 위치 w로 이동한 것으로 간주됩니다.

유한한 수의 이러한 단계를 통해 게임은 숫자 (h1(v),h2(v),…,hn(v))가 제공되는 최종 정점 v 중 하나에 도달합니다. 플레이어 i의 보수는 hi(v)가 될 것입니다.

위치 게임의 일반적인 형태 n명이 위치 게임을 한다고 하자. 다음과 같이 정규형 Г로 게임을 구성해 보겠습니다.

이 게임에서 플레이어 N의 집합은 (1,2,…,n)과 같습니다.

iN과 W=(I1,I2,…,Ik)를 Vi 세트에 포함된 위치 게임의 모든 정보 세트의 패밀리로 설정합니다. Ui는 W를 매핑하고 다음 조건을 만족하는 모든 함수 ui의 집합이라고 가정합니다. 숫자 i u(I)는 집합 I의 모든 정점에서 대안의 수를 초과하지 않습니다.

전략 ui는 다음 규칙에 따라 정점 v에 있는 모든 대안의 v I 및 ui i (I) j인 경우 세트 1의 확률 분포(p1(v),p2(v),…,pm(v))를 지정합니다. p j (동사) 그렇지 않으면 0으로.

경우의 위치에 따라 대안 집합의 확률 분포(p1(v),p2(v),…,pm(v))는 jI인 경우 조건 pj(v)=pj(I)로 지정됩니다.

각 최종 정점 w에 대해 이를 초기 정점 v0 및 pj와 동일한 숫자 qt(t=0,...,k–1)와 연결하는 고유한 경로(v0,v1,...,vk=w)가 있습니다. (vt), 여기서 j는 정점 vt에서 k개의 대안(vt,vt+1)입니다. P(w)qt를 설정해보자. P(w) 값이 최종 정점 집합에 대한 확률 분포를 정의한다는 것이 직접 검증됩니다. 따라서 hi(w)의 값은 무작위로 간주될 수 있으며 이러한 값의 분포는 모든 플레이어의 전략에 따라 달라집니다. 플레이어가 각각 u1,u2,…,un 전략을 선택한 경우 hi 값의 수학적 기대값을 gi(u1,u2,…,un)로 표시하겠습니다.

정의. 이렇게 구성된 게임 Г=N,U1,…,Un,g1,…,gn을 이 위치 게임의 정규 형태라고 한다.

예: Fan-tan 이 구성을 사용하여 안장점, 혼합 전략, 내쉬 균형 등의 개념이 위치 게임 클래스로 이전됩니다.

위치 게임을 사용하면 팔러 게임(체스, 체커, 주사위 놀이, 포커, 선호도 등)뿐만 아니라 시간이 지남에 따라 의사 결정이 펼쳐지는 기타 여러 프로세스를 시뮬레이션하는 것이 편리합니다.

정의. 모든 정보 세트에 정확히 하나의 요소가 포함되어 있는 경우 n인 위치 게임을 완전한 정보 게임이라고 합니다.

완전한 정보가 있는 게임에서는 정보 세트가 게임의 위치와 자연스럽게 식별됩니다. 다음에서는 이를 사용하여 표기법을 단순화하겠습니다.

체스, 체커, 주사위 놀이는 완전한 정보를 담고 있는 게임이지만 포커와 선호는 그렇지 않습니다.

정보 분할만 다른 위치 게임 클래스를 고려해 보겠습니다. 즉시 확인되는 사실은 다음과 같습니다.

보조정리. 클래스에는 각 정보 세트가 대체 파티션의 한 세트와 원래 게임 플레이어의 파티션에서 가져온 한 세트의 교차점과 동일한 게임이 정확히 하나 있습니다. 클래스의 모든 게임은 이 게임의 준정보적 확장입니다.

보조정리. 수업 시간에 완전한 정보가 포함된 게임은 단 하나뿐입니다. 이는 모든 클래스 게임의 준정보 확장입니다.

보조정리. 한 클래스에 두 개의 게임이 있다고 가정하고, 첫 번째 게임의 정보 분할은 두 번째 게임의 정보 분할을 개선한 것입니다. 그러면 첫 번째 게임은 두 번째 게임의 준정보적 확장입니다.

일반 형태로 전환하는 동안 구조 손실 동적 게임의 완벽한 균형 정리. 완전한 정보가 있는 모든 게임에는 내쉬 균형 상황이 있습니다.

증거. 게임 트리의 각 정점 v에 대해 숫자 집합(h(v),h2(v),…,hn(v))을 정의하고 i번째 플레이어의 최종이 아닌 각 개인 위치 v에 대해 정의합니다.

–  –  –

계략. 다시, "끝에서" 귀납법에 의해 hi(vk)hi(vl)가 증명됩니다. 불평등 hi(vk)hi(v0)로부터 구성된 상황 u는 균형 상황이라는 결론이 나옵니다. 정리가 입증되었습니다.

모든 위치 게임과 해당 게임 트리의 정점 v에 대해 다음과 같이 초기 정점 v를 사용하여 하위 게임의 개념을 정의할 수 있습니다.

v를 게임 트리의 임의의 꼭짓점이라고 하고 V(v)를 모든 j=1,… ,k–1 (vk,vk+1)은 정점 vk의 대안입니다. 분명히, V(v0)=V입니다.

정점 v가 있는 하위 게임 트리에는 정점 집합 V(v)가 있습니다. 그 가장자리는 원래 게임의 모든 가장자리이며 두 정점 모두 V(v)에 속합니다. 하위 게임에서 플레이어별 분할은 V 0 V (v), V 1 V (v),..., V n V (v)이며 하위 게임에 설정된 모든 정보는 V (v) I 형식을 갖습니다. I는 원래 게임에 설정된 일부 정보입니다. 하위 게임의 최종 정점 w에서 플레이어의 보수(h1(w),h2(w),…,hn(w)) 및 모든 위치에서의 확률(p1(w),…,pm(w)) 하위 게임의 경우는 원래 게임과 동일합니다. 하위 게임의 시작 위치는 정점 v이고 표시된 가장자리는 대체가 아닌 가장자리에서 시계 반대 방향으로 계산하여 해당 정점의 첫 번째 대안입니다.

이렇게 정의된 서브게임 자체가 n명의 위치게임임을 직접적으로 검증할 수 있다.

하위 게임의 개념은 완전한 정보가 있는 게임의 경우 특히 자연스럽습니다.

ui가 원래 게임의 전략인 경우 ui 함수를 V i V(v) 집합으로 제한하는 것은 하위 게임에서 동일한 플레이어의 전략이 됩니다.

정의. 게임 트리의 임의 정점 v에 대해 전략 ui의 제약 조건이 초기 정점 v와 함께 하위 게임 내쉬 균형 상황을 형성하는 경우 위치 게임의 상황 u를 완전 균형 상황이라고 합니다.

이전 정리의 증명을 통해 구성된 내쉬 균형 상황이 완전 균형 상황임을 쉽게 알 수 있습니다.

주제 7. 정보가 불완전한 정적 게임

역 수요 함수 P(Q)=a-Q를 갖는 시장에 대한 쿠르노 이중과점을 생각해 보겠습니다. 여기서 Q=q1+q2는 시장의 총 수요입니다. 두 회사 모두 동일한 비용 함수 ci(qi)=cqi를 갖지만 수요는 불확실합니다. 확률이 높거나(a=aH) 확률이 1-인 경우 낮습니다(a=aL). 정보는 비대칭적입니다. 기업 1은 수요가 무엇인지(높거나 ​​낮은) 알고 있지만 기업 2는 그렇지 않습니다. 상황에 대한 전체 설명은 공개적으로 알려져 있습니다. 두 회사는 동시에 출력 크기를 선택합니다. 각 기업의 전략은 무엇입니까? 매개변수 aH, aL, c가 평형 출력이 양수라고 가정합니다. 이 게임의 Bayes-Nash 균형을 구하십시오.

정보가 비대칭이고 산출물이 다른 Bertrand 이중기업을 생각해 보세요. 회사 제품에 대한 수요는 i qi(pi,pj)=a-pi-bipj와 같습니다. 두 회사 모두 비용이 0이라고 가정하겠습니다. 기업 j의 가격에 대한 기업 i의 수요 민감도는 높을 수도 있고 낮을 수도 있습니다. 보다 정확하게는 각 회사에 대해 bi 값은 확률이 bH이고 확률이 1-인 bL 값을 취할 수 있습니다. 각 회사는 자신의 민감도를 알고 있지만 경쟁사의 민감도는 모릅니다. 이 설명은 잘 알려져 있습니다. 이 게임의 액션 세트, 유형, 기대치 및 유틸리티 기능은 무엇입니까? 많은 전략은 무엇입니까? 이 게임은 어떤 조건에서 순수 전략에서 대칭적인 Bayes-Nash 균형을 유지합니까?

그 균형을 찾으세요.

다음 게임에서 순수 전략의 모든 Bayes-Nash 균형을 찾으십시오.

1. 자연은 보상만 다른 동일한 확률로 게임 1 또는 게임 2를 선택합니다.

2. 플레이어 1은 자연의 선택을 인식하지만 플레이어 2는 그렇지 않습니다.

3. 플레이어는 동시에 자신의 행동을 선택합니다.

4. 보수는 다음 행렬에 의해 결정됩니다. L R L R T 1.1 0.0 T 0.0 0.0 B 0.0 0.0 B 0.0 2.2 게임 1 게임 2 다음 동전 추측 게임(완전한 정보가 포함된 정적 게임)은 순수 전략에서 내쉬 균형을 갖지 않았지만, 각 플레이어가 확률로 O를 선택하는 혼합 전략에서 고유한 균형을 유지했습니다.

플레이어 2 O P 플레이어 1 O 1,-1 -1,1 P -1,1 1,-1 순수 전략의 베이즈-내쉬 균형이 혼합 전략의 내쉬 균형으로 어떻게 변하는지 불완전한 정보를 가지고 적절한 게임을 구성합니다. 불완전한 정보는 사라집니다.

구매자 평가가 독립적이고 간격에 걸쳐 동일하게 균등하게 분배되는 단일 가격 봉인 입찰 경매를 생각해 보십시오.

구매자 수가 n인 경우 개별 가치 추정치의 가격 (n-1)/n으로 입찰하는 것이 이 경매에 대한 Bayes-Nash 균형을 구성한다는 것을 보여줍니다.

구매자의 평가가 독립적이고 양의 밀도 함수 f(vi)를 갖는 구간에 동일하게 분포되는 단일 가격 봉인 입찰 경매를 생각해 보십시오. 두 참가자의 경우 대칭 Bayes-Nash 평형을 찾습니다.

이중 경매에 대한 또 다른 해석을 고려해 보겠습니다. 회사와 노동자가 있다고 가정하면, 회사는 주어진 위치에서 노동자의 활동으로부터 자신의 이익 m이 무엇인지 알고 노동자는 자신의 대안적 가능성 v를 알고 있습니다. 거래는 직원이 고용되고 거래 가격이 급여 w와 동일하다는 것을 의미합니다. 거래가 성사되면 회사는 m-w를 얻고 직원은 w를 얻습니다. 거래가 없으면 회사의 이익은 0이고 근로자의 이익은 v입니다.

m과 v가 세그먼트 에 독립적이고 균일하게 분포되어 있다고 가정해 보겠습니다.

이 이중 경매에서 선형 균형을 찾으십시오.

이중 경매에 대한 대안으로 두 가지 다른 거래 게임을 살펴보겠습니다.

게임 1. 당사자들은 개인 정보를 받기 전에 회사가 급여 w로 근로자를 고용한다는 계약에 서명하지만 어느 쪽이든 비용 없이 고용 계약을 철회할 권리가 있습니다.

개인정보를 접수한 후, 당사자들은 급여와 함께 계약을 승인할지, 계약을 해지할지를 동시에 독립적으로 결정합니다. 양 당사자가 계약을 승인하면 거래가 완료된 것으로 간주되며 그렇지 않으면 거래가 없습니다. w가 구간 에서 임의의 숫자라는 가정하에 Bayes-Nash 평형을 구합니다. 거래가 성사될 다양한 유형을 그려보세요. 플레이어의 총 보수를 최대화하는 w 값을 찾으세요.

게임 2. 개인 정보를 받기 전에 두 플레이어는 계약에 서명합니다.

근로자를 고용할지 여부와 그렇다면 급여는 다음과 같은 동적 게임의 틀 내에서 결정됩니다. 개인 정보를 받은 후 회사는 급여 수준 w를 선택하고 이를 직원에게 제공하고 직원은 이를 수락하거나 거부할 수 있습니다. 역진 귀납법을 사용하여 이 게임을 분석해 보세요. v와 w가 주어졌을 때 작업자는 무엇을 할 것인가? 회사가 제안에 대한 직원의 행동을 예상한다면 주어진 m에 대해 무엇을 제공할 것인가?

Topic 8. 정보가 불완전한 동적 게임, 진화적 게임 이론의 요소 주어진 두 테이블을 고려해 보겠습니다. 게임 의미는 다음과 같습니다.

첫 번째 플레이어(플레이어 1)는 전략(이동) u(첫 번째 행) 또는 전략 d(두 번째 행)를 선택할 수 있습니다. 두 번째 플레이어(플레이어 2)는 전략 l(첫 번째 열) 또는 전략 r(두 번째 열)을 선택할 수 있습니다. 그들은 동시에 독립적으로 움직입니다. 그 후, 그들은 해당 셀에 표시된 상금을 받습니다. 예를 들어 플레이어 1이 u를 선택하고 플레이어 2가 r을 선택한 경우 A의 경우 두 사람 모두 2 루블(달러, 파운드,... .), 그리고 B의 경우 첫 번째는 5를 받고, 두 번째는 4를 받습니다.

A의 경우에는 왼쪽 아래 셀을 "재생"해야 한다는 것이 분명하지만(즉, 각각 d와 l을 선택) 두 번째 경우에는 재생해야 한다는 것이 전혀 명확하지 않습니다. 그리고 한 가지 가능성은 사전 협상을 허용하는 것이다. 그러나 내쉬 균형 개념이 예비 협상에만 호소하여 정당화될 수 있다면 "합의의 강도" 문제가 중심이 되기 때문에 이 개념의 가치는 매우 낮을 것입니다. 그러나 내쉬 균형의 "정당화"는 특히 1장에서 자세히 설명할 여러 다른 고려 사항에서 비롯됩니다. 우리는 복잡한 모델을 제시하려고 시도하지 않고 몇 가지 가능한 적용에 대해서만 언급할 것입니다. 다음 게임을 생각해 보세요. 이런 종류의 상황은 경제적 고려 사항에서 자주 발생합니다. 예를 들어, 동일한(더 정확하게는 동질적인) 제품을 판매하는 두 회사를 상상해 보겠습니다. 각 기업은 자신의 제품을 판매하여 광고할 수 있는데, 이는 경쟁자의 고정된 행동 방식을 고려할 때 자신의 이익을 늘리고 경쟁자의 이익을 줄일 수 있습니다. 두 회사가 모두 광고를 한다면 각 경쟁사의 순이익은 감소할 수 있습니다. (이러한 유형의 상황에 대한 예는 Airbus와 Boeing 간의 경쟁입니다. 이 경우 광고는 필수 요소는 아니지만 동시에 가격 할인이 중요한 역할을 했습니다.) 두 번째 종류의 예는 무역 파트너인 두 국가입니다. 각 국가는 다양한 유형의 보호주의 조치를 사용할 수 있으며, 이는 두 번째 국가의 고정된 조치를 고려할 때 어떤 경우에는 자국의 이익으로 이어질 수 있습니다. 양국이 보호주의 정책을 펼치면 양국의 전반적인 복지가 저하될 수 있다.

이 예(나중에 이 유형의 게임으로 여러 번 돌아올 것임)에서 내쉬 균형은 첫 번째 플레이어의 전략 d와 두 번째 플레이어의 전략 r에 의해 결정됩니다. 실제로 첫 번째 플레이어가 전략 d를 선택한 경우 두 번째 플레이어가 전략 r에서 벗어나는 것은 0 대신 -1의 보수를 받게 되므로 수익성이 없습니다.

마찬가지로, 두 번째 플레이어가 전략 r을 고수하는 경우 첫 번째 플레이어가 d 대신 u를 플레이하는 것은 수익성이 없습니다. 왜냐하면 첫 번째 플레이어도 0 대신 1을 잃게 되기 때문입니다.

동시에, 플레이어 1이 u를 선택하고 두 번째가 l을 선택하는 "좋은" 상황(u, l)은 내쉬 균형 상황이 아닙니다. l)을 플레이하여 a에서 벗어나 d를 플레이합니다. 5 대신 6을이기 때문입니다.

이에 간단한 예우리는 내쉬 균형 상황이 매우 불행해 보이는 결과로 이어질 수 있다는 것을 알고 있습니다. 그러나 여기서는 특히 이러한 "실패"를 방지할 수 있는 역학의 도입과 관련하여 여러 가지 흥미로운 가능성이 발생합니다. 그러나 이에 대해서는 아래에서 더 자세히 설명하겠습니다.

물론 경제학에서 게임 이론의 큰 역할은 주로 게임 이론이 특정 동적 경쟁 상호 작용을 분석하기 위한 모델링 언어와 기술을 제공한다는 사실에 기인한다는 점을 특히 강조해야 합니다. 매우 간단한 버전에서 이는 다음 예를 통해 설명될 수 있습니다(Kreps(1990) 참조). 판매용으로 어떤 제품을 생산하는 (고전적인 의미에서) 독점 기업을 상상해 봅시다. 단순화를 위해 수요는 x = 13 r 곡선에 의해 결정된다고 가정합니다. 독점 기업의 비용 구조도 매우 간단합니다: c(x) = 6.25 + x. 표준 이론에 따르면 이익을 극대화하는 독점 기업은 완제품 6단위를 생산하고 29.75(가격 7)의 이익을 얻을 것이라고 예측합니다. 동시에, 이 상황에서 (동일한 특성을 가진) 신규 진입 가능성을 고려한다면 대답은 완전히 다를 것입니다. 진입 가능성을 예상하는 기존 독점 기업은 완성된 제품 7개를 생산할 것입니다. 6의 가격으로 특정 기간 동안 몇 가지 이윤을 잃지만 장기적으로는 더 큰 이윤을 제공합니다. 기존 기업이 계속해서 동일한 생산량을 생산할 것이라고 믿는 진입자는 제품을 삼가하기 때문입니다. 그의 진입으로 인해 그에게 이익이 전혀 발생하지 않기 때문입니다.

물론 여기서 예를 들어 다음과 같은 질문이 발생합니다. 신규 진입자가 그럼에도 불구하고 업계에 진입하려고 "감히"한다면, 왜 신규 진입자는 독점 기업이 그러한 양의 완제품을 계속 생산할 것이라고 실제로 믿어야 합니까? 이 질문은 확실히 이 이야기에 필수적입니다. 가장 단순한 모델은 이 질문에 대답하지 못하지만 다단계 게임을 사용하는 복잡한 역학을 갖춘 보다 복잡한 진입 모델에서는 이미 에이전트의 행동에 대한 다양한 가설을 사용하여 진입 상황을 분석할 수 있습니다. 예를 들어, 두 기간 모델을 고려하면 보다 복잡한 동작을 고려하는 것이 가능해집니다.

예를 들어, 독점자가 첫 번째 기간에 기술을 선택할 가능성이 있습니다.

예를 들어, 높은 고정 비용을 사용하여 한계 비용을 줄일 수 있습니다. 높은 고정 비용과 낮은 한계 비용은 두 번째 기간에 독점 기업의 행동을 더욱 공격적으로 만듭니다. 또한 첫 번째 기간에 독점 기업은 "소비자 충성도"(예: 가격 인하) 등을 생성하는 조치를 취할 수 있습니다. 진입 주제에 대한 다양한 변형이 알려져 있습니다.

해당 모델의 주요 특징은 첫 번째 기간에 독점자가 새로운 참가자가 나타나면 "추가 게임"의 성격을 변경하는 조치를 취하고, 이는 진입을 완전히 방지하거나 독점자가 진입을 "준비"하도록 허용할 수 있다는 것입니다. 결과적인 이중 독점에서 이점을 갖기 위해(예를 들어 Dixit(1980) 참조)

이 주제의 또 다른 변형은 신규 진입자가 독점자의 특성에 대한 정확한 지식을 갖고 있지 않은 상황을 고려하는 것입니다. 예를 들어, 신규 진입자는 독점자의 비용 구조를 모릅니다. 이 경우, 그는 첫 번째 기간의 낮은 가격을 기존 기업의 한계 비용이 낮다는 신호로 인식하여 진입을 자제할 수 있습니다. 이를 깨달은 독점기업은 한계비용이 높은 경우에도 충분히 낮은 가격을 책정함으로써 비용이 낮다는 신호를 보낼 수 있습니다.

다음으로 주목해야 할 점은 게임이론을 통해 특정 약속이나 위협을 믿을지 여부에 관한 상황의 모델링이 가능해졌다는 점이다. 여기서는 평판 모델링(예: 고용주 및 직원)에 대해 이야기하고 있습니다.

참가자 간의 반복적인 상호 작용과 관련된 다음 고전적인 예는 과점의 암묵적인 공모입니다. 이는 소위 민속 정리("민속 정리", "민속 정리" - 2장 참조)에 기반을 두고 있으며, 이는 각 회사에 최대 이익보다 더 많은 것을 제공하고 총 이익은 다음보다 작은 두 회사의 이익을 명시합니다. 기업이 미래의 가치를 충분히 높게 평가한다면 독점 이윤(기간당)은 균형을 유지할 수 있습니다. 많은 경우와 마찬가지로 여기에서 다양한 평형의 불쾌한 순간이 발생하는데, 아쉽게도 이는 매우 중요한 것으로 판명되어 우리가 내쉬 평형의 다양한 수정을 도입하려고 시도하게 만듭니다.

내쉬 균형은 게임이 어떻게 진행되는지에 대한 "일관적인" 예측입니다. 즉, 모든 플레이어가 특정 균형이 발생할 것이라고 예측하면 어떤 플레이어도 이탈할 동기가 없다는 의미입니다.

따라서 내쉬 균형, 오직 내쉬 균형만이 플레이어가 그것을 예측할 수 있고 상대방이 그것을 예측할 수 있는 속성을 가질 수 있습니다. 대조적으로, 불균형 상황이 발생할 것이라고 예측하는 것은 적어도 한 플레이어가 "를 만들 것"을 수반합니다. 그의 예측이나 그의 상금 최적화에 있어 실수입니다. 당연히 그러한 오류가 결코 발생하지 않는다고 가정하기는 어렵습니다.

4. 비협조적 게임 이론이 경제학의 표준 도구가 됨과 동시에 이론가와 실험가 모두로부터 상당한 비판을 받고 있습니다. 신고전주의 경제학과 마찬가지로 비협조적 게임 이론은 두 가지 "영웅적" 가정을 기반으로 합니다.

극대화(모든 경제적 주체는 합리적이며 세상에 대한 명확한 이해를 가지고 있습니다) 일관성(에이전트의 신념, 특히 다른 에이전트의 행동에 대한 그의 기대가 정확함). 이 두 가지 가정은 본질적으로 개인의 최적화 행동의 일반적인 패턴이 내쉬 균형을 형성한다는 것을 정당화합니다.

이론가들이 현재 직면하고 있는 주요 문제는 이 두 가지 가정에 대한 "강력한" 정당화 문제입니다. 왜냐하면 전통적인 정당화는 결코 설득력이 없기 때문입니다. 동시에 그러한 정당성이 없으면 응용 프로그램에 게임 이론을 사용하는 것이 문제가 됩니다. 게임 이론을 사용하려면 이러한 가정이 타당할 때와 그렇지 않을 때를 이해해야 합니다. 경제 방법론에 대한 주요 비판은 극대화 가설의 중심 역할에 관한 것입니다. 극대화에 대한 일반적인 비공식적 주장은 극대화하지 않는 행위자, 특히 이윤을 극대화하지 않는 기업이 시장의 힘에 의해 축출될 것이라는 것입니다. 이것은 진화론적인 주장이며, 그만큼 잘 알려져 있습니다. 그런데 그런 변명이 통할까? 내쉬 균형 또는 관련 개념이 좋은 예측입니까?

비협조적 게임 이론과 신고전주의 경제학의 유사점은 분명하지만 절대적이지는 않습니다. 물론 에이전트가 최대화하는지 여부에 대한 질문은 본질적으로 동일합니다. 더욱이 일관성 가정은 신고전주의 경제학에서도 가격이 시장을 청산한다는 가정으로 등장합니다. 그러나 신고전파 경제학과 비협조적 게임 이론의 근본적인 차이점은 경쟁 경제의 다중 균형은 거의 항상 많은 속성(예: 효율성 또는 효율성 부족)을 공유하는 반면, 게임의 다중 균형은 상당히 다른 속성을 가질 수 있다는 것입니다.

신고전주의 경제학은 균형을 선택하는 문제를 제기하지 않지만, 게임 이론은 그렇게 할 의무가 있습니다.

현재 진화적 게임 이론은 매우 빠르게 발전하고 있습니다.

진화 게임 이론의 대부분의 작업은 두 가지 주요 질문에 의해 동기가 부여됩니다. 1. 에이전트가 실제로 내쉬 균형을 수행합니까? 2. 에이전트가 내쉬 균형을 사용한다면 어느 것인가요?

진화적 게임 이론은 더 성공적인 행동이 승리하는 경향이 있다고 제안함으로써 진화적 주장을 공식화하고 일반화합니다. 표준 모델에서 플레이어 집단은 시간이 지남에 따라 상호 작용하며, 그들의 선택이 역사적으로 창출한 결과(효용, 이익 등)에 반응하여 시간이 지남에 따라 행동이 조정됩니다. 이러한 플레이어는 근로자, 소비자, 회사 등이 될 수 있습니다. 초점은 시스템의 동적 동작에 있습니다. 주요 가정은 플레이어 집단이 있고, 이러한 플레이어가 상호 작용하며, 플레이어의 행동이 순진하다는 것입니다(두 가지 의미에서 플레이어는 자신의 행동이 잠재적으로 상대방의 미래 행동에 영향을 미칠 수 있다는 것을 믿거나 이해하지 못합니다. 플레이어는 일반적으로 상대방이 자신의 행동을 조정하는 데 유사하게 관여할 가능성을 고려하지 않습니다. 시장의 힘이 실패한 행동을 선택하기 때문일 뿐만 아니라 행위자가 성공적인 행동을 모방하기 때문에 성공적인 행동이 널리 퍼진다는 점을 여기서 주목하는 것이 중요합니다.

진화적 게임 이론은 '게임을 하는' 인구를 연구하기 때문에 사회적 규범과 관습을 연구하는 데에도 유용합니다. 관습과 사회적 규범의 진화는 플레이어가 균형을 맞추는 법을 배우는 예입니다. 그 예로는 구매할 제품 유형을 결정해야 하는 소비자 집단이 있습니다.

어떤 노력을 기울일지 결정해야 하는 근로자 집단 등.

진화론적 게임 이론은 첫 번째 질문에 긍정적으로 답합니다. 많은 환경에서 플레이어는 실제로 내쉬 균형을 유지합니다. 따라서 이것은 진화론적 주장이 타당할 때 평형 분석에 대한 정당성을 제공합니다.

균형은 구성원들이 행동을 극대화하는 "방향"으로 근시안적으로 그룹화되는 공동체의 안정된 상태로 가장 잘 생각됩니다. 그리고 이는 게임 이론과 균형 분석이 지식의 "대량"과 초합리적 행위자의 상호 작용에 대한 연구를 대표한다는 이전의 견해(근거가 거의 없음)와 크게 대조됩니다.

어떤 균형이 이루어지고 있는지에 대한 질문은 특히 균형의 "정제"(또는 "정제")에 관한 문헌에서 널리 논의됩니다. 그러나 정당화의 문제는 그들에게도 적용됩니다. 예를 들어, 게임 전 의사소통이 허용되어 어떤 균형이 진행되고 있는지 결정된다는 사실로 이어진다고 상상할 수 있습니다(예를 들어 모든 작업자가 최대 노력을 기울이거나 반대로 최소 노력을 하는 경우). , 총 생산량은 (모든 직원의) 최소 노력 수준에 따라 결정됩니다. 물론 평형에 대한 이러한 정당화는 가능하며 다양한 응용 분야에 적용 가능합니다. 그러나 이것이 모든 가능성을 포괄하는 것은 아닙니다. 특히 합의가 위반될 수 있는 상황이 불가피하거나 단순히 사전 의사소통의 가능성이 없을 수 있기 때문입니다.

자기 충족 예측에 대한 두 번째 정당화는 다음과 같을 수 있습니다. 이론적으로 고유하게 예측된 플레이어의 행동이 게임의 플레이어에게 알려진 경우 내쉬 균형을 예측해야 합니다. 여기서 어려운 점은 그러한 정당화를 위해서는 플레이어의 행동을 고유하게 예측하는 이론이 필요하다는 점이며, 이것이 바로 문제입니다.

"초점" 정당화(T. Schelling)는 다음과 같이 공식화할 수 있습니다. "게임을 플레이하는 확실한 방법이 있는 경우(설정의 세부 사항이나 특수 구조로 인해) 플레이어는 다른 플레이어가 무엇을 할지 알고 있습니다."

마지막으로 플레이어는 균형을 맞추는 방법을 배울 수 있습니다. 일종의 균형을 유지하는 방법을 배우려면 플레이어는 이 게임의 플레이를 반복하거나 적어도 가까운 게임을 반복하여 필요한 경험을 얻을 수 있어야 합니다. 플레이어만이 상대의 플레이 방식을 배우고 플레이어가 최대화한다면 결국 내쉬 균형에 도달해야 합니다. 이 학습 이야기에는 두 가지가 있습니다. 첫 번째는 플레이어가 최대화한다는 것입니다. 두 번째는 플레이어의 행동을 극대화하면 플레이어는 상대방의 행동을 배울 수 있다는 것입니다. 여기에는 추가적인 훈련 뉘앙스가 포함됩니다. 선수가 상대방이 어떻게 플레이했는지 알더라도 경기가 어땠는지 모를 수도 있습니다. 최선의 행동. 마지막으로, 학습 자체는 에이전트가 학습하려는 환경을 변화시키며, 학습 과정은 매우 미묘합니다.

ASPECT 요약. 관련성과 목표. 연구 주제는 인터넷 중독 형성에 대한 인터넷 커뮤니케이션의 영향입니다. 심리적 성격에 대한 질문과..." "케메로보 주립대학교..."

"사용 설명서 HOUSE RECORDER TU 4372001864198722009 Intellect 비디오 시스템 Moscow 2009 House Recorder "Complex"를 기반으로 합니다. 사용자 설명서. 목차 HOUSE RECORDER 1. 일반설명 2. 안전대책 3. 설치 3.1 설치...”

« 나중에 사용할 수 있도록 이 설명서를 보관하십시오. UF v2 스마트 MIDI 키보드 녹음을 선택해 주셔서 감사합니다. 중요한 정보프릭이 왔어..."

"UDC 159.9:371.39:004 Kazarova Diana Sergeevna Kazarova Diana Sergeevna 심리 과학 후보자, 심리학 박사 과정 부교수, 러시아 아카데미 리페츠크 지점 리페츠크 지점 인문 자연 과학부 조교수..." – 페이지 12 -18. 사람이 동화, 비유, 전설을 통해 생명의 법칙과 현상에 대한 최초의 지식을 얻는다는 것이 과학적으로 입증되었습니다...” 지적 재산권에 관한 (12) 특허 발명의 설명 (21)(22) 적용 : 2010135778/13, 01/26/2009 (72) 작성자: LUKOMITROS Di...”

  1. 불확실성과 위험의 개념.
  2. Neumann-Morgenstern 유틸리티 함수. 합리적 행동의 공리, 노이만-모르겐슈테른 정리의 증명
  3. 기대 효용 이론의 실증적 테스트(Allais paradox et al.).
  • 주제: 완전한 정보와 불완전한 정보가 있는 정적 게임 >>
    1. 일반적인 형태의 게임 정의: 플레이어, 전략, 지불.
    2. 게임의 예: 죄수의 딜레마, 조정, 남녀 전쟁, 매비둘기.
    3. 비협조적인 게임에 대한 해결책: 강한 지배력과 약한 지배력. 순수 전략의 내쉬 균형.
    4. 예: 쿠르노 듀오폴리, 베르트랑 듀오폴리, 호텔링가 시. 양자 입찰. 실험: 조정 게임.
  • 주제: 게임의 균형 >>
    1. 혼합 전략. 평형의 존재에 관한 정리와 그 증명.
    2. 합리화 가능한 전략.
    3. 상관 평형.
  • 주제: 정적 게임의 균형 강화 >>
    1. 다중 평형의 문제. 균형 개선의 개념.
    2. 엄격하고, 필수적이며, 완벽하며, 자체적인 균형입니다.
    3. 위험이 지배적인 균형.
  • 주제: 완전한 정보가 포함된 동적 게임 >>
    1. 확장된 형태의 게임 정의. 게임 트리, 정보 세트.
    2. Bellman의 원리, 역진 귀납법 및 하위 게임 완전 균형.
    3. 행동 전략, 쿤의 정리.
    4. 예: Stackelberg 이중독점, 슈퍼마켓 역설. 루빈스타인의 교대 문장 모델.
    5. 실험: 지네 게임
  • 주제: 반복적인 게임 >>
    1. 반복되는 죄수의 딜레마. 할인.
    2. 민속 정리. 반복되는 게임의 예: 헌신과 평판.
    3. 실험: 반복 게임 - 셀텐의 최후통첩.
  • 주제: 진화 게임 >>
    1. 진화적으로 안정적인 평형과 다른 개선 사항과의 연결.
    2. 시간에 따른 전략의 진화: 연속 및 이산 사례의 복제기 역학.
    3. 상상의 움직임의 역동성
    4. 최고의 반응의 역학.
    5. 진화적 게임의 응용: 저축 시장, 사회적 규범 형성.
  • 주제: 정보가 불완전한 동적 게임 >>
    1. 유형의 개념과 Bayes-Nash 평형.
    2. 순차적 평형.
    3. 예: 정보가 불완전한 Cournot 및 Bertrand 듀오폴리. 노동시장에 신호를 보내는 게임.
  • 주제: 동적 게임의 균형 >>
    1. 확장된 형태와 정규 형태의 게임: Kochberg-Mertens 해석. 예.
    2. 자체 확인 잔액.
  • 주제: 지식과 게임 >>
    1. 정보와 지식.
    2. 지식의 기능: 공리학과 합리적 추론 이론.
    3. 일반 지식.
  • 주제: 계약이론의 요소 >>
    1. 계약 이론의 솔루션 및 문제 구현.
    2. 마이어슨의 대응 원리.
    3. 숨겨진 정보와 숨겨진 행동. 참여 및 인센티브 호환성.
    4. 예: Clark-Groves 메커니즘.
    5. 실험: 경매.
  • 주제: 규제의 경제 이론 >>
    1. 규제 이론의 주요 패러다임: Dupuis, Ramsay, Coase, Buate, Aver-Johnson.
    2. 비대칭 정보 및 임대료 추출 문제 - Laffont-Tirole 접근 방식.
    3. 규제 캡처.
    4. 전환경제의 예: 자연 독점의 규제.
  • 각 스케치는 일반인도 이해할 수 있는 문제로 시작됩니다. 어떤 경우에는 단순히 “어린이 게임”일 수도 있고, 다른 경우에는 형식화된 삶의 관찰일 수도 있고, 다른 경우에는 일반화된 사회적 패턴일 수도 있습니다. 그런 다음 플롯은 포함된 갈등의 논리를 기반으로 전개되고 그 자체로 갈등 해결의 하나 또는 다른 원칙이 발생하며 이는 최종적으로 게임 솔루션의 형태로 엄격하게 공식화됩니다.

    전체적으로 10개가 조금 넘는 연구가 고려되었으며, 함께 기본 게임 이론의 주요 형식 구조를 다루고 있습니다.

    여러 여담에서 게임 솔루션의 존재에 대한 정리 공식이 증명 스케치와 함께 제공됩니다.

    정보 리소스

    • 자카로프 A.V.
      사회과학의 게임이론. M.: 국립 연구 대학 고등 경제 대학의 사전 인쇄, 2014
      Danilov V.I., 게임 이론 강의. M.: NES 사전 인쇄, 2002
    • Petrosyan L.A., Zenkevich N.A., Shevkoplyas E.V.
      게임이론, 상트페테르부르크(BVH-Petersburg) 2012
    • 마잘로프 V.
      수학적 게임 이론 및 응용, St. Petersburg, Lan, 2010.
    • Menshikov I. 게임 이론 및 경제 모델링 강의, M.: Contact Plus 2010.
    • Gubko M., Novikov D.
      조직 시스템 관리의 게임 이론, M: Sinteg, 2002.

    요구사항

    이 과정은 학교에서 수학을 마지막으로 공부한 사람이라도 쉽게 다룰 수 있도록 구성되어 있습니다. 그러나 모든 과정 내용을 이해하려면 핵심 대학 과정의 일부로 선형 대수 및 미적분에 대한 지식을 갖는 것이 좋습니다. 확률 이론을 아는 것도 도움이 될 것입니다.

    코스 프로그램

    1. 위치 게임
    게임 트리. 위치를 이기고 잃습니다. 플레이어 중 한 사람의 승리 전략이 존재합니다. 게임 "님"과 그 안에 담긴 승리 전략.

    2. 정적 게임
    정적 게임: 플레이어, 전략, 결제. 게임의 예: '죄수의 딜레마', '가족 분쟁', '형벌'. 지배적 전략과 지배적 전략. 지배 게임 솔루션. 내쉬균형의 개념. 평형과 최적 사이의 불일치. 혼합 전략. 혼합 내쉬 균형. 게임 "개척자와 지도자"의 균형. 경제학에서 내쉬균형의 응용. 쿠르노(Cournot)와 베르트랑(Bertrand) 과점 모델. 정보가 불완전한 정적 게임. Bayes-Nash 평형.

    3. 다이나믹한 게임
    완전한 정보를 제공하는 역동적인 게임. 하위게임 완전 내쉬 균형과 일반 균형과의 관계. 쿤의 정리. 정보가 불완전한 동적 게임. 정보 세트. 완벽한 기억의 조건. 베이지안 균형. 신호 게임. 평형을 혼합하고 분리합니다. 반복적인 게임.

    4. 협동 게임
    양도 가능한 유틸리티를 갖춘 협력 게임. 게임의 정의, 사용 가능한 분할, 커널 및 Shapley 벡터. 게임 "공항". 안정적인 매칭. 게일-샤플리 알고리즘.

    5. 게임이론의 응용
    투표 메커니즘. 그들에 대한 요구 사항. 조작되지 않은 선거 시스템을 구축하는 것이 불가능하다는 애로우의 정리. 반복 안정성의 개념. 권위주의 시스템의 내부 안정성에 대한 Acemoglu-Egorov-Sonin 모델. 경매이론의 요소. 1차 및 2차 가격 경매의 균형 전략.

    학습 결과

    규율을 공부한 결과, 학생은 다음을 수행해야 합니다.

    • 알다:
      • 게임 분류;
      • 게임 도면 모델링의 기본;
      • 게임 해결의 기본 원칙;
    • 가능하다:
      • 실제 문제를 해결하기 위해 기존 지식을 적용
      • 경제 시스템 분석을 위해 새로운 기술을 적용합니다.
    • 아이디어가 있어요:
      • 전략 형성, 지불, 게임 가격에 대해;
      • 합리적인 행동의 기본, 공정한 공유의 규칙에 대해;
      • 해당 분야와 다른 관련 분야의 관계에 대해;

    형성된 역량

    • 정보를 인식하고, 일반화하고, 분석하고, 목표를 설정하고, 이를 달성하는 방법을 선택하는 능력(OK-6)
    • 전문 활동에서 자연 과학의 기본 법칙을 사용하고, 수학적 분석 및 모델링 방법을 적용하고, 이론 및 실험 연구를 수행하는 능력(OK-11)
    • 전문적인 문제를 해결할 때 인문학 및 사회경제과학의 기본 원리와 방법을 사용할 수 있는 능력(PK-12)