기술정보
기술정보
기술명 로봇의 행동 학습을 위한 효율적인 exploration 방법을 이용한 강화학습 알고리즘
기술명(영문) Reinforcement algorithm for robots control with an efficient exploration method
활용분야 자율 자동차 공장/물류 완전자동화 배송/배달 로봇
기술번호 TI2019-01297
기술성숙도
#기술성숙도
개발전 1단계:기초이론/실험
개발후 2단계:실용목적 아이디어 특허등 개념정립
외부기술요소 개발목표시기 2020-12-31
결과물 형태
검증방법
시장성
시장성
시장성 내용
□ 국내외 시장동향 및 전망
 
○ 국내 시장 동향 및 전망
▷ 자율 자동차 (III-v-a)
- 현대자동차는 자동차의 자율주행 기술의 실현 위하여 지속적으로 연구하고 있으며, 2030년까지 완전 자율주행기술을 상용화할 예정이다 [6]. 모든 도로에서 사람의 개입 없이 안전하기 위해서 강화학습은 자동차의 행동을 결정하는 데에 적용될 수 있다.
▷ 로봇 쇼핑 카트 (III-v-b)
- 국내의 스타트업 트위니(Twinny)는 자율주행을 적용한 로봇 쇼핑 카트를 개발하여 시판하였다 [7]. 그 외에도 자율주행 물류운송기차 등 자율주행이 적용된 제품을 개발 중이다.
 
○ 해외시장 동향 및 전망
▷ 현재 스마트홈 시장은 미국이 전 세계에서 32%를 차지하여 1위를 차지하고 있고 노르웨이가 31.6%로 2위, 에스토니아가 26.8%로 3위를 차지하고 있다. 시장 조사 업체 가트너에 따르면 스마트 홈 기기의 수는 2020년 250 억대까지 증가할 것으로 추정하고 있고, 2025년까지 스마트 홈 시장이 70억 달러를 넘길 것으로 추산된다. (I-v)
 
 
○ 제품화 및 활용분야
활용분야(제품/서비스) 제품 및 활용분야 세부내용
26 자율 자동차 물체 식별 등 상황 판단과 결합한 자율주행 시스템 (III-v)
27 공장/물류 완전자동화 물건 집기, 접기 등 복잡한 행동을 가능하게 하는 로봇 학습 시스템 (III-v)
28 배송/배달 로봇 정해진 목표에 장애물을 피하며 안전하게 이동하는 자율주행 시스템 (III-v)
 
□ 기대효과
 
○ 기술도입으로 인한 경제적 효과
III-v-a. 세계 자율 자동차 시장은 2027년 약 650억 달러로 예상된다 [12]. 강화학습 기술을 도입 및 발전시킴으로써 자율 주행 기술을 실현할 수 있으며, 지속적으로 증가할 세계 자율 자동차 시장을 선도할 수 있다.
III-v-b. 물류 로봇 시장은 2016년 약 24억 달러에서 매년 약 11.6% 증가하여, 2023년 약 52억 달러로 예상된다 [13]. 완전 자동화된 물류를 실현하기까지 자동화 로봇의 시장은 더 증가할 것으로 예상되며, 기술을 도입함으로써 시장을 선도하여 큰 경제적 효과를 얻을 수 있다.
 
○ 기술사업화로 인한 파급효과
III-v. 강화학습 기술은 움직이고 행동하는 대부분의 로봇에 적용이 가능하며, 4차 산업의 핵심 제품인 로봇의 상용화를 실현시킬 수 있다. 따라서 로봇을 생산하기 위하여 필요한 하드웨어 및 소프트웨어를 생산하는 국내 기업의 출현을 촉진 시킬 수 있다.
 
 
시장성 -제품화 및 활용분야
시장성 -제품화 및 활용분야
활용분야(제품/서비스) 제품 및 활용분야 세부내용
등록된 내용이 없습니다
자율 자동차
물체 식별 등 상황 판단과 결합한 자율주행 시스템 (III-v)
공장/물류 완전자동화
물건 집기, 접기 등 복잡한 행동을 가능하게 하는 로봇 학습 시스템 (III-v)
배송/배달 로봇
정해진 목표에 장애물을 피하며 안전하게 이동하는 자율주행 시스템 (III-v)
기술개요(영문)
기술개요(영문)
기술개요(영문) 내용
Title III-v. Reinforcement algorithm for robots control with an efficient exploration method
Concept * The trade-off relationship between exploration and exploitation is a key issue for training policies in reinforcement learning. It is required an efficient exploration method to train handful skills for robots. In this work we propose a RL algorithm with an efficient exploration method that improves performance even in some sparse reward environments.
Service Offering Software for learning/controlling robots
Comparative
Advantage
  • : Outperforming previous control algorithms
Patents(Domestics) Application( )
Registration( )
Patents(International) Application( )
Registration( )
기술개요 및 개념도
기술개요 및 개념도
기술개요 및 개념도 내용
□ 기술의 개념 및 내용

  ○ 기술의 개념
    III-v-a. 로봇이 환경과 상호작용하며 주어진 상황에서 어떤 행동이 좋은 행동인가를 학습하는 기술
    III-v-b. 각 상황에 대하여 로봇이 최적의 행동을 하기 위하여, 인공 신경망으로 구성된 정책을 가지고 있으며, 이러한 정책을 학습하는 기술
    III-v-c. 환경으로부터 얻는 보상이 드물거나, 상태의 수 또는 행동의 수가 클 때, 성능이 높은 정책을 학습하는 기술


  ○ 기술의 상세내용 및 사업화 제약사항
    ▷ 기술의 상세내용
      III-v. 로봇의 행동 학습을 위한 효율적인 exploration 방법을 이용한 강화학습 알고리즘
         - 강화학습은 주어진 환경과 상호작용하며, 각 상황에 따라 어떤 행동이 좋은 행동인지를 학습하는 학습 알고리즘이다. 행동을 학습하기 위하여 환경으로부터 현재 자신의 상태 (state) 를 얻으며, 행동 (action) 를 하였을 때, 환경은 상태 에서 한 행동 에 대한 보상 (reward) 을 준다. 강화학습은 다양한 상태 에 대하여 다양한 행동 를 해보며, 그로부터 얻은 보상을 이용하여, 누적 보상을 최대화하도록 자신의 정책 를 학습한다. 이러한 강화학습 알고리즘은 상황에 맞는 최적행동을 학습하기 위하여, 환경에서 행동에 대한 보상이 적절하게 주어져야 하며, 이러한 환경은 이미 주어져 있다고 가정한다.
        - 강화학습 알고리즘의 성능을 최대화시키기 위한 가장 큰 이슈 중 하나는 바로 exploitation 과 exploration의 trade-off 관계이다. Exploitation은 자신이 지금까지 모은 정보를 이용하여 최적의 행동을 취하는 것이며, 이와는 반대로 exploration은 자신이 지금까지 모으지 못한 정보를 얻기 위하여 행동을 취하는 것이다.
        - 간단한 움직임을 학습하는 환경보다 좀 더 다양하고, 어려운 환경에 대하여 성능을 높이기 위하여 최근에는 exploration의 중요성이 높아지고 있다. 이러한 학습하기 힘든 환경은 다음과 같이 두 가지로 구분 될 수 있다: 1) 상태 공간 또는 행동 공간의 차원이 큰 경우, 2) 환경으로부터 보상이 드물게 주어지는 경우. 상태 공간 또는 행동 공간의 차원이 큰 경우, 각 상황에 맞는 적절한 행동에 대한 경험을 하기 까지 기하급수적으로 증가하는 상태, 행동 순서쌍이 필요하며, 따라서 exploration이 매우 중요해진다. 반면 환경으로부터 보상이 드물게 주어지는 경우에는 상황에 맞는 행동을 해도 그에 대한 보상이 바로 주어지지 않는 경우로, 매번 행동에 보상이 들어오는 일반적인 환경에 비해 방대한 경험이 필요하다. 예를 들어, 바둑, 스타크래프트 등은 게임이 끝났을 때에만 이전에 한 모든 행동들에 대한 보상을 얻을 수 있으며, 이 같은 경우 이전에 몇 번의 잘못된 행동을 했더라도 좋은 보상을 얻을 수 있다. 따라서 대부분의 행동들이 주어진 상황에서 잘한 행동일 경우를 경험하기까지 방대한 경험을 해야 하며, 최적 정책을 학습하는 데에 어려움이 생긴다.
        - 최근에는 위와 같이 복잡한 환경에서 성능이 높은 정책을 학습하기 위하여 다양한 exploration 방법들이 연구되고 있다. 예를 들어, Soft Actor Critic [2]은 기존에 objective function으로 주로 사용한 누적보상 뿐 아니라 정책의 entropy를 추가하여 최적화함으로써, 더 다양한 경험을 얻고, 이를 이용하여 학습 성능을 증가시켰다. 다른 방법으로는 현재 상태 에서 행동 를 했을 때, 다음 상태 을 예측하는 모델을 정책과 동시에 학습하며, 모델의 오차가 클수록 더 큰 추가 보상을 주는 방법이 있다 [4]. 이 방법은 훈련된 모델의 오차가 클수록 기존에 경험한 상태, 행동 순서쌍과 다르다는 아이디어를 이용한 방법으로 이를 Surprise라 한다.
        - 위와 같이 학습하기 어려운 환경에 대하여 학습 성능을 최대화하기 위하여 새로운 exploration이 필요하며, 본 기술은 새로운 exploration 방법을 이용한 강화학습 알고리즘 기술이다.

    ▷ 기술이전 범위
      III-v. 로봇의 행동을 학습하기 위한 소프트웨어와 학습이 된 알고리즘 제공

    ▷ 사업화 제약사항
      III-v-a. 학습을 위해서 시뮬레이터 혹은 실제 로봇이 필요
      III-v-b. 충분한 데이터 부족

 □ 국내외 기술동향 및 경쟁력

  ○ 국내 기술 동향

    ▷ 최근에 새로운 exploration 기술을 이용한 강화학습 알고리즘에 대한 대표적인 국내 기술은 다음과 같다. (III-v)
      - 누적 보상과 현재 정책의 entropy를 함께 최대화하는 방법에 일반적인 entropy인 tsallis entropy를 이용함으로써, 다양한 특징을 가지는 환경에 대하여 학습 성능을 향상시켰다 [1].

  ○ 해외기술 동향

    ▷ 새로운 exploration 기술을 이용하여 학습 성능을 향상시킨 강화학습 알고리즘의 대표적인 해외 기술 동향은 다음과 같다. (III-v)
      - 기존 강화학습에서 정책의 최적화에 사용하는 누적 보상 뿐만 아니라 현재 정책의 entropy도 함께 최대화하는 방법을 이용하여, 현재 정책이 다양한 경험을 할 수 있도록 exploration 성능을 향상하였다 [2].
      - 자신이 얻은 경험 중 성능이 높았던 경험을 이용해 정책을 학습함으로써 성능이 높았던 경험과 비슷한 경험을 하도록 exploration 하였다 [3].
      - 자신이 경험한 경험을 이용하여 환경에 대한 모델을 학습하고, 이 모델이 예측하는 것과 실제 환경과 비슷하지 않으면 새로운 경험을 얻은 것이라는 점을 이용하여 학습 성능을 개선하였다 [4].
      - 보상이 드물게 주어지는 환경에서 자신의 누적보상을 최대화 하도록 추가적인 보상을 학습하고, 환경에서 주는 보상과 학습한 추가 보상을 모두 이용하여 정책을 학습하였으며, 학습 성능을 향상시켰다 [5].

  ○ 표준화 동향
    ▷ 강화학습을 이용한 로봇의 행동 학습에 관한 표준화는 아직 진행되지 않은 상황이다. (III-v)

  ○ 관련 보유특허
 
No. 국가 출원번호(출원일) 상태 명칭
1 대한민국 10-2019-0051364(2019-05-02) 국내 출원 완료 신경망 학습을 통한 데이터 처리 장치, 신경망 학습을 통한 데이터 처리 방법, 및 동일 방법을 기록한 기록 매체
2 대한민국 10-2018-0031871 출원 추천시스템을 위한 선택적 오토인코딩 방법 및 오토인코딩 시스템
3 대한민국 10-2019-0032801 출원 추천시스템을 위한 콘텐츠 정보 활용 기저학습 오토인코더
4 대한민국 10-2019-0000001(2019-01-01) 출원 발화정보를 해석하여 중개하는 시스템 및 그 방법
5 대한민국 10-2019-0012145(2019-01-30) 출원 언어장애를 개선하는 로봇
6 대한민국 30-2018-0060062(2018-12-19) 출원 음성대화 및 터치반응 인형
7 대한민국 10-2019-0012145(2019-01-30) 출원 언어장애를 개선하는 로봇


  ○ 기술적 경쟁력(우수성 및 차별성)
경쟁기술 본 기술의 우수성 및 차별성
Soft Actor-Critic (SAC) 자신의 경험으로 학습된 정책을 기준으로 exploration 하는 기존의 방법에 비해 자신이 경험하지 못한 것 기준으로 exploration하는 방법이 다양한 경험을 하는 데에 효과적임. (III-v)
Self-Imitation Learning (SIL) 자신의 얻은 경험 중 잘한 경험을 기준으로 exploration 하는 기존의 방법에 비해 자신이 경험하지 못한 것 기준으로 exploration하는 방법이 다양한 경험을 하는 데에 효과적임. (III-v)
Surprised based Intrinsic Reward 환경에 대한 모델을 N (N > 1)개 사용하여 가장 잘 예측한 모델을 이용함으로써 더 정확한 surprise를 얻을 수 있음. 더 정확한 surprise는 정책의 학습을 최적화된 정책에 더 가깝게 하며, 결과적으로 성능이 향상됨. (III-v)
Learning Intrinsic Reward for Policy Gradient 단순히 누적 보상을 최대화하기 위하여 intrinsic reward를 주는 기존의 방법은 exploration에 대한 고려가 되어있지 않으며, 본 기술은 exploration에 대한 고려를 하여 더 다양한 경험을 얻어, 결과적으로 성능이 높은 정책을 학습 할 수 있음. (III-v)

 
첨부파일
본과제 정보
본과제 정보
과제명(한글) 자율지능 동반자를 위한 적응형 기계학습 기술 연구개발
과제명(영문) Research on Adaptive Machine Learning Technology Development for Intelligent Autonomous Digital Companion
색인어 (한글) 통합 기억 소자  / 발달형 학습  / 자율지능  / 디지털 동반자  / 기계 지능 학습
색인어 (영문) Developmental learning  / Autonomous intelligence  / Digital companion  / Machine intelligence learning  / Integrated memory
과제번호 2016-0-00563-004 해당연도 2019
기술분류
권리성 특허, SW
총연구기간 2016-12-01 ~ 2020-12-31 총예산 미공개
기간(당해연도) 2019-05-01 ~ 2020-02-29 예산(당해연도) 미공개
참여기관 미공개
주관기관 한국과학기술원 과제책임자 김종환
연락처
연락처
tel : 미공개
cp : 미공개
E-Mail 미공개
개발중인 기술(기술예고)
개발중인 기술(기술예고)
기술번호 기술명 목표시기
TI2019-0128900002 Spike 발화 기반 신경망 기술 2020-02-29
TI2019-0129000003 VQA를 위한 추론설명생성 기술 2020-02-29
TI2019-0129100004 강화 학습을 이용한 모바일 단말 온도, 파워 관리 기술 2020-02-29
TI2019-0129200005 강화학습을 위한 이분화 메모리 구조 및 엔트로피 기반 환경 탐색 기술 2019-12-31
TI2019-0126100001 자율지능 동반자를 위한 적응형 기계학습기술 2020-02-29
TI2019-0129300006 단어 유사도 추정을 위한 인공신경망 2020-02-29
TI2019-0129400007 딥뉴럿넷을 위한 데이터 효율적인 메타러닝 알고리즘 기술 2020-02-29
TI2019-0129500008 딥러닝 기반 active learning 기술 2020-02-29
TI2019-0129600009 로그 밀도 차 알고리즘(Gap of log-densities, GOLD) 기술 2020-12-31
TI2019-0130000013 인간의 사고방식을 모사한 하이브리드 추론 학습 기술 2020-02-29
TI2019-0130300016 추천시스템을 위한 심층 학습 기술 2020-02-29
TI2019-0130400017 하이브리드 심볼릭 추론 학습 2020-12-31
TI2019-0130500018 다국어 안내 로봇용 대화 시스템 2019-09-30
TI2019-0129700010 로봇의 행동 학습을 위한 효율적인 exploration 방법을 이용한 강화학습 알고리즘 2020-12-31
TI2019-0129800011 사용자 상태 학습 및 이상 상태 감지 기술 2020-05-31
TI2019-0129900012 선택적 기억 생성 모델 기술 2020-02-29
TI2019-0130100014 저지연, 고성능 학습을 위한 Buddy Learning System 프레임워크 개발 기술 2020-09-30
TI2019-0130200015 적응형 메타 학습을 위한 클러스터 신경망 및 학습 알고리즘 2020-06-30
이전가능 기술
이전가능 기술
기술번호 기술명
등록된 내용이 없습니다
지재권 목록
관련 지재권 목록
발명 명 출원 번호
등록된 내용이 없습니다
덧글 0