Rl là gì

Trong lĩnh vực trí tuệ tự tạo nói tầm thường với lĩnh vực học tập sản phẩm nói riêng thì Reinforcement learing (RL) là 1 biện pháp tiếp cận triệu tập vào việc học nhằm xong xuôi được kim chỉ nam bằng câu hỏi liên tưởng thẳng cùng với môi trường xung quanh.

Bạn đang xem: Rl là gì

Đang xem: Rl là gì


1. Reinforcement Learning (RL):

RL là học cái để thực hiện, Có nghĩa là tự những tình huống thực tiễn để đưa ra những action nhất thiết, miễn là maximize được reward. Machine ko được bảo về mẫu action nhằm thực hiện mà lại gắng vào kia bắt buộc khám phá ra action có thể tạo thành được nhiều reward tốt nhất. Trong nhân loại của RL thì chúng ta gồm quan niệm Hotline là agent, nó gồm một ít gì đó ngụ ý về một thực thể nhưng bạn mong muốn train nó để hoàn toàn có thể làm được một task nào này mà các bạn giao phó (tất nhiên là nó đang thực hiện theo cách đã đạt được reward nhiều nhất).

Vì RL được ứng va rất nhiều vào robotic với game buộc phải tôi vẫn lấy một ví dụ tự trên đây cho bạn tưởng tượng. Dưới đó là 1 tựa mini game nhưng mà tôi mong các bạn xem qua. Cách chơi thì tôi nghĩ những bạn sẽ thuận tiện để gọi được. Tên của chính nó là CoastRunners

Nhiệm vụ của khách hàng là chấm dứt được khoảng đua thuyền một phương pháp nhanh khô độc nhất vô nhị cùng nếu có thể thì nên ở top trên. Giả sử như bạn có nhu cầu training một agent để nó rất có thể kết thúc khoảng đua nhanh khô nhất thì về cơ bản các bạn phải thiết kế được một reward function với trường đoản cú đó các bạn sẽ train agent dựa trên reward function này. quý khách rất có thể xem nó là Loss function cơ mà cố gắng vày buộc phải minimize hàm loss nhỏng trong những mạng Neural Network thông tmùi hương thì ở chỗ này bọn họ đang bắt buộc maximize nó như tôi vẫn nói ở trên. Việc lựa chọn ra một reward function thoạt chú ý trong tương đối đơn giản dễ dàng bởi vì nó chỉ dựa vào các tiêu chuẩn siêu phân minh của một task cụ thể, chẳng hạn như sinh hoạt trò nghịch nghỉ ngơi bên trên thì ta gồm dựa trên tiêu chuẩn là thời gian dứt chặng đua chẳng hạn. (Việc kiến tạo ví dụ tôi xin phxay dời lại ở một bài viết khác về sau). Tuy nhiên, nếu khách hàng đưa ra các tiêu chuẩn ko tốt thì sẽ agent nhưng mà các bạn train hoàn toàn có thể có những behavior tương đối kỳ dị y như thí nghiệm tiếp sau đây nhưng mà team OpenAI đã trải qua lúc reward mà người ta chọn lại dưa bên trên tiêu chuẩn của score trong game vậy vì là thời hạn kết thúc chặng đua. Và đấy là tác dụng.

Agent không cần phải dứt khoảng đua cơ mà vẫn có thể đã có được score cao.

Vấn đề này thoạt nhìn qua loại vẻ hơi “trúc vị” vào bối cảnh của đoạn Clip game tuy thế vào lĩnh vực auto hoá giỏi robotics chẳng hạn thì những mẫu behavior này rất có thể gây ra phần lớn hành động không hề muốn hoặc thậm chí là nguy hại. Rộng hơn, các agent này (được nhúng vào vào robot chẳng hạn) có thể bao hàm hành động tạm thời hoặc không áp theo những nguyên lý cơ phiên bản về khía cạnh nghệ thuật nói chung nhưng mà có thể dãn đến cbất lương hoạ siêu tiềm ẩn.

Xem thêm: Hướng Dẫn Cài Đặt Totolink Ex100, Kích Sóng Wifi Totolink Ex100

*
*
*
*
*
*
*
*
*
*

*βetaβ là discount factor với βetaβ reward (tất cả tình cho discount factor nhỏng vẫn nói ở trên) sinh hoạt mỗi state rõ ràng trường đoản cú cơ hội ban đầu cho đến lúc xong xuôi (dẫu cho T →ightarrow→ ∞infty∞, vì chưng họ không biết bao giờ thì quy trình này hoàn thành vì thế nó vẫn vẫn là một chuỗi vô hạn), cùng dĩ nhiên là yêu cầu dựa vào policy πpiπ vì chưng agent của chúng ta base trên nó nhằm lựa chọn reward tốt nhất nhưng. Bản chất thì đây là một bài xích toán thù tối ưu (optimazation problem).

Tại trên là một trong tiêu chuẩn nhưng mà bạn có thể dùng để optimize đến việc đào bới tìm kiếm ra nghịệm (optimal policy). Cụ thể bọn họ Hotline tiêu chuẩn này là infinite horizon sum reward criteria. Cũng có một vài reward criteria khác nhưng mà tôi tạm thời không gác lại vào sự cân đối nội dung bài viết này.

Phụ trực thuộc vào các criteria khác biệt mà chúng ta sẽ có các algorithm khác biệt để đưa ra optimal policy. Với infinite horizon sum reward criteria thì bạn cũng có thể sử dụng một thuật tân oán RL cũng rất kinh khủng chính là Q-Learning để giải quyết (tôi vẫn nói về alogorithm này ở một nội dung bài viết khác).

Xem thêm: Reference Daily Intake ( Rdi Là Gì ? Ý Nghĩa Của Từ Rdi Rdi Là Gì, Nghĩa Của Từ Rdi

Tôi xin trong thời điểm tạm thời gác lại phần định hướng sơ cỗ ở đây. Hẹn chạm mặt lại bạn sinh hoạt bài viết sau về Q-Learning với phương pháp để impement nó.


Chuyên mục: Kiến Thức