
20. Thuật toán học Q
a. Hàm Q: Giá trị của Q là giá trị thưởng nhận được tức thời ikhi thực hiện tác động a từ trạng thái s, cộng với giá trị (chiết khấu với hệ số gama) thu được theo chính sách tối ưu về sau:
Q(s, a) = r(s,a) + gamaV*(xichma(s,a))
b. Thuật toán học Q:
với hệ số chiết khấu gama và giả thiết giá trị thưởng đơn định:
khởi tạo Q(s,a) = 0 cho mọi cặp s, a.
Quan sát trạng thái hiện thời s,
Thực hiện lặp vô hạn:
- chọn tác động a và thực hiện nó
- nhận giá trị thưởng tương ứng r
- quan sát trạng thái mới s'
- cập nhật Q(s,a) = r + gama* max Q(s',a')
- s = s'
Bạn đang đọc truyện trên: Truyen247.Pro