HL7644

Hayden Ko HL7644

Co-Founder and co-CEO @OptimizerAI

Pinned Loading

GPTNeo-RewardModel-Training GPTNeo-RewardModel-Training Public

Training reward model based on pre-trained GPTNeo

Jupyter Notebook 4
Multi-hop-QA-using-RL Multi-hop-QA-using-RL Public

Multi-hop QA using RL framework

Jupyter Notebook
textual-inversion textual-inversion Public

Implementation of Textual Inversion

Jupyter Notebook
per-pytorch per-pytorch Public

Using Prioritized Experience Replay

Python 1
vpg-pytorch vpg-pytorch Public

Vanilla Policy Gradient

Python