초록
일 측면에 따른 복수의 에이전트들의 행동 정책 결정 방법은, 복수의 에이전트들에 포함되는 제 1 에이전트에 의해 관측된 감각 정보로부터 추출되며, 상기 제 1 에이전트의 행동을 결정하기 위해 필요한 특성 정보를 나타내는 제 1 수신 특성 정보 값을 획득하는 단계, 상기 복수의 에이전트들 각각에 의해 관측된 감각 정보로부터 추출되며, 상기 복수의 에이전트들 각각에 의해 관측된 특성 정보를 나타내는 복수의 송신 특성 정보 값을 획득하는 단계, 상기 제 1 수신 특성 정보 및 상기 복수의 송신 특성 정보들에 기초하여, 상기 복수의 감각 정보들 각각의 가중치를 결정하는 단계 및 상기 복수의 감각 정보들 및 상기 복수의 환경들 각각에 대응하는 가중치에 기초하여, 상태 행동 가치 함수에 따라 산출되는 복수의 행동들의 보상 정보를 미리 학습한 상태 행동 가치 함수 인공신경망을 통해 상기 제 1 에이전트의 행동을 결정하는 단계를 포함할 수 있다.