16a31e2c9fedc654e9117b42b8144adf1d0e4900,examples/reinforcement_learning/tutorial_TRPO.py,TRPO,update,#TRPO#,633

Before Change


        // Prepare hessian func, gradient eval
        inputs = self.buf.get()
        Hx = lambda x: self.hvp(inputs, x)
        g, pi_l_old, v_l_old = self.gradient(inputs), self.pi_loss(inputs), self.v_loss(inputs)

        // Core calculations for TRPO or NPG
        x = self.cg(Hx, g)

After Change


        :return: None
        
        states, actions, adv, rewards_to_go, logp_old_ph, old_mu, old_log_std = self.buf.get()
        g, pi_l_old = self.gradient(states, actions, adv, logp_old_ph)

        Hx = lambda x: self.hvp(states, old_mu, old_log_std, x)
        x = self.cg(Hx, g)

In pattern: SUPERPATTERN

Frequency: 3

Non-data size: 3

Instances

Link

Project Name: tensorlayer/tensorlayer

Commit Name: 16a31e2c9fedc654e9117b42b8144adf1d0e4900

Time: 2020-02-03

Author: 34995488+Tokarev-TT-33@users.noreply.github.com

File Name: examples/reinforcement_learning/tutorial_TRPO.py

Class Name: TRPO

Method Name: update

Link

Project Name: tensorlayer/tensorlayer

Commit Name: 641a28fbf0daff0ad1ad0f43d2c4b545cb6f9656

Time: 2019-02-16

Author: dhsig552@163.com

File Name: examples/reinforcement_learning/tutorial_cartpole_ac.py

Class Name: Actor

Method Name: learn

Link

Project Name: tensorlayer/tensorlayer

Commit Name: 641a28fbf0daff0ad1ad0f43d2c4b545cb6f9656

Time: 2019-02-16

Author: dhsig552@163.com

File Name: examples/reinforcement_learning/tutorial_cartpole_ac.py

Class Name: Critic

Method Name: learn