Chào các bạn! Vì nhiều lý do từ nay Truyen2U chính thức đổi tên là Truyen247.Pro. Mong các bạn tiếp tục ủng hộ truy cập tên miền mới này nhé! Mãi yêu... ♥

20. Thuật toán học Q

a. Hàm Q:  Giá trị của Q là giá trị thưởng nhận được tức thời ikhi thực hiện tác động a từ trạng thái s, cộng với giá trị (chiết khấu với hệ số gama) thu được theo chính sách tối ưu về sau:

Q(s, a) = r(s,a) + gamaV*(xichma(s,a))

b. Thuật toán học Q:

với hệ số chiết khấu gama và giả thiết giá trị thưởng đơn định:

khởi tạo Q(s,a) = 0 cho mọi cặp s, a.

Quan sát trạng thái hiện thời s,

Thực hiện lặp vô hạn:

- chọn tác động a và thực hiện nó

- nhận giá trị thưởng tương ứng r

- quan sát trạng thái mới s'

- cập nhật Q(s,a) = r + gama* max Q(s',a')

- s = s' 

Bạn đang đọc truyện trên: Truyen247.Pro

Tags: