Skip to content

Latest commit

 

History

History
114 lines (97 loc) · 3.77 KB

README.md

File metadata and controls

114 lines (97 loc) · 3.77 KB

프로그래머를 위한 강화학습 도서온라인강의 소스코드를 제공하는 사이트입니다.

코드에 사용한 프로그램 버전은 다음과 같습니다.

  • python3.7.7
  • tensorflow2.2
  • numpy1.19.3

도서는 Yes24 에서 구입할 수 있습니다.

동영상 강의는 인프런 에서 들을 수 있습니다.

목차

  • 시작하며

  • 01장 강화학습 기본 개념

    • 1.1 강화학습이란
    • 1.2 확률과 확률 과정
    • 1.3. 마르코프 연쇄
    • 1.4 마르코프 보상 과정
  • 02장 강화학습 기본 알고리즘

    • 2.1 마르코프 결정 과정
    • 2.2 MDP 행동 가치 함수
    • 2.3 MDP 최적 가치 함수
    • 2.4 강화학습에 사용되는 다양한 용어
    • 2.5 다이내믹 프로그래밍
    • 2.6 몬테카를로 방법
    • 2.7 TD와 SARSA
    • 2.8 Q 러닝
  • 03장 인공지능의 개념

    • 3.1 머신러닝
    • 3.2 선형 회귀 분석
    • 3.3 분류 분석
    • 3.4 딥러닝
    • 3.5 개발 환경 설치
    • 3.6 텐서플로우
  • 04장 함수 근사법

    • 4.1 미분
    • 4.2 편미분
    • 4.3 스칼라와 벡터
    • 4.4 그래디언트
    • 4.5 경사하강법
    • 4.6 확률적 경사하강법
    • 4.7 강화학습에서 편미분과 경사하강법의 표기법
    • 4.8 함수 근사법
  • 05장 가치 기반 강화학습과 DQN 알고리즘

    • 5.1 DQN 알고리즘
    • 5.2 카트폴
    • 5.3 탐험과 탐욕의 문제
    • 5.4 DQN 알고리즘 기본 구조
    • 5.5 DQN 알고리즘 전체 코드 리뷰
    • 5.6 DQN 알고리즘 세부 구조 살펴보기
    • 5.7 DQN 알고리즘 학습 결과 분석
  • 06장 정책 기반 강화학습 REINFORCE 알고리즘

    • 6.1 인공신경망 다시 보기
    • 6.2 정책 그래디언트
    • 6.3 REINFOFCE 알고리즘 동작 방식
    • 6.4 REINFOFCE 알고리즘 기본 구조
    • 6.5 REINFORCE 알고리즘 전체 코드 리뷰
    • 6.6 REINFORCE 알고리즘 세부 구조 살펴보기
    • 6.7 REINFORCE 알고리즘 학습 결과 분석
  • 07장 정책 기반 A2C 알고리즘

    • 7.1 액터 크리틱 알고리즘
    • 7.2 어드밴티지 액터 크리틱
    • 7.3 A2C 알고리즘 기본 구조
    • 7.4 A2C 알고리즘 전체 코드 리뷰
    • 7.5 A2C 알고리즘 세부 구조 살펴보기
    • 7.6 A2C 알고리즘 학습 결과 분석
  • 08장 정책 기반 PPO 알고리즘

    • 8.1 중요도 샘플링
    • 8.2 오프 폴리시 정책 그래디언트
    • 8.3 클리핑 기법
    • 8.4 GAE
    • 8.5 PPO 알고리즘 기본 구조
    • 8.6 PPO 알고리즘 전체 코드 리뷰
    • 8.7 PPO 알고리즘 세부 구조 살펴보기
    • 8.8 PPO 알고리즘 알고리즘 학습 결과 분석
  • 09장 인공신경망 튜닝

    • 9.1 인공신경망 튜닝 개요
    • 9.2 입력 데이터 전처리
    • 9.3 비용 함수의 선택
    • 9.4 활성화 알고리즘
    • 9.5 가중치 초기화
    • 9.6 최적화 알고리즘
    • 9.7 노드와 은닉층 개수에 대한 논의
    • 9.8 PPO 알고리즘 인공신경망 튜닝
    • 9.9 PPO 알고리즘 튜닝 코드 적용
    • 9.10 PPO 알고리즘 튜닝 결과 분석
  • 10장 그리드 서치 기반 최적화 기법

    • 10.1 그리드 서치 개념
    • 10.2 그리드 서치 코딩
    • 10.3 그리드 서치 전체 코드
    • 10.4 그리드 서치 결과 분석
    • 10.5 그리드 서치 파라미터 튜닝 적용
  • 11장 베이지안 최적화 기법

    • 11.1 빈도주의 확률과 베이지안 확률
    • 11.2 베이지안 확률 계산
    • 11.3 베이지안 최적화 패키지 소개
    • 11.4 베이지안 최적화 패키지 활용
    • 11.5 베이지안 최적화 전체 코드
    • 11.6 베이지안 최적화 결과 분석
  • 마무리하며