RL LÀ GÌ, NGHĨA CỦA TỪ RL, MẠCH ĐIỆN RL, NHỮNG GÌ RL LÀ VIẾT TẮT CỦA ONLINE

Trong nghành trí tuệ nhân tạo nói tầm thường và lĩnh vực học tập sản phẩm nói riêng thì Reinforcement learing (RL) là 1 trong những cách tiếp cận tập trung vào bài toán học để dứt được phương châm bởi việc can dự trực tiếp cùng với môi trường xung quanh.

Bạn đang xem: Rl Là Gì, Nghĩa Của Từ Rl, Mạch Điện Rl, Những Gì Rl Là Viết Tắt Của Online

Đang xem: Rl là gì


1. Reinforcement Learning (RL):

RL là học tập loại để thực hiện, tức là trường đoản cú những tình huống thực tế để lấy ra những action nhất mực, miễn sao maximize được reward. Machine không được bảo về dòng action để triển khai nhưng cố vào kia bắt buộc khám phá ra action rất có thể tạo thành được rất nhiều reward độc nhất. Trong quả đât của RL thì bọn họ gồm tư tưởng điện thoại tư vấn là agent, nó có một ít gì đó ẩn ý về một thực thể cơ mà bạn mong muốn train nó nhằm hoàn toàn có thể làm cho được một task làm sao đó mà chúng ta phó thác (đương nhiên là nó đang tiến hành Theo phong cách đã đạt được reward các nhất).

Vì RL được ứng chạm không ít vào robotic và game đề xuất tôi đang lấy một ví dụ từ đây cho chính mình tưởng tượng. Dưới đó là 1 tựa mini game nhưng mà tôi ý muốn các bạn xem qua. Cách chơi thì tôi nghĩ những bạn sẽ thuận tiện để đọc được. Tên của chính nó là CoastRunners

Nhiệm vụ của khách hàng là xong xuôi được khoảng đua thuyền một biện pháp nhanh khô tốt nhất và trường hợp có thể thì cần sống top trên. Giả sử như bạn muốn training một agent để nó có thể xong xuôi khoảng đua nhanh khô nhất thì về cơ phiên bản bạn phải xây đắp được một reward function và từ đó bạn sẽ train agent dựa trên reward function này. quý khách rất có thể coi nó là Loss function nhưng cố gắng vày buộc phải minimize hàm loss nlỗi trong những mạng Neural Network thông tmùi hương thì tại đây họ đã cần maximize nó nlỗi tôi đã nói trên. Việc lựa chọn ra một reward function thoạt quan sát trong hơi dễ dàng và đơn giản vì nó chỉ dựa trên những tiêu chí siêu minh bạch của một task cụ thể, ví dụ như sinh hoạt trò chơi ngơi nghỉ trên thì ta có dựa vào tiêu chí là thời hạn xong xuôi chặng đua ví dụ điển hình. (Việc xây cất rõ ràng tôi xin phnghiền dời lại tại 1 nội dung bài viết không giống về sau). Tuy nhiên, nếu như khách hàng đưa ra những tiêu chí ko tốt thì sẽ agent cơ mà chúng ta train hoàn toàn có thể tất cả các behavior tương đối kỳ lạ giống như thể nghiệm dưới đây mà lại team OpenAI đã thử qua khi reward mà họ lựa chọn lại dưa trên tiêu chí của score trong game nỗ lực bởi vì là thời gian xong chặng đua. Và đấy là tác dụng.

Agent không cần phải hoàn thành chặng đua tuy nhiên vẫn rất có thể giành được score cao.

Vấn đề này thoạt xem qua dòng vẻ khá “trúc vị” trong bối cảnh của video game nhưng mà vào nghành nghề auto hoá hay robotics chẳng hạn thì những chiếc behavior này rất có thể tạo ra đa số hành vi không muốn hoặc thậm chí còn nguy hại. Rộng hơn, những agent này (được nhúng vào vào robot chẳng hạn) có thể bao gồm hành vi không ổn định hoặc không tuân theo những nguyên lý cơ phiên bản về mặt nghệ thuật nói chung nhưng rất có thể dãn đến ccường bạo hoạ rất tiềm tàng.

Xem thêm: Hướng Dẫn Cài Đặt Totolink Ex100, Kích Sóng Wifi Totolink Ex100

*
*
*
*
*
*
*
*
*
*

*βetaβ là discount factor với βetaβ reward (có tình đến discount factor nhỏng đã kể làm việc trên) sinh hoạt mỗi state rõ ràng từ thời gian bước đầu đến lúc dứt (dẫu mang đến T →ightarrow→ ∞infty∞, bởi vì bọn họ chưa chắc chắn bao giờ thì quy trình này kết thúc vì thế nó vẫn luôn là một chuỗi vô hạn), và tất nhiên là đề xuất dựa vào policy πpiπ do agent của chúng ta base bên trên nó nhằm chọn reward cực tốt nhưng. Bản hóa học thì đây là một bài xích toán thù về tối ưu (optimazation problem).

Tại bên trên là một trong những tiêu chuẩn nhưng mà bạn có thể dùng làm optimize mang đến việc tìm kiếm ra nghịệm (optimal policy). Cụ thể họ Gọi tiêu chuẩn này là infinite horizon sum reward criteria. Cũng tất cả một vài ba reward criteria không giống mà lại tôi trong thời điểm tạm thời ko gác lại vào khuôn khổ bài viết này.

Prúc trực thuộc vào các criteria không giống nhau cơ mà bọn họ sẽ sở hữu các algorithm khác nhau nhằm tìm ra optimal policy. Với infinite horizon sum reward criteria thì bạn cũng có thể áp dụng một thuật toán thù RL cũng rất kinh điển sẽ là Q-Learning nhằm giải quyết (tôi sẽ nói về alogorithm này ở một bài viết khác).

Tôi xin trong thời điểm tạm thời gác lại phần triết lý sơ bộ tại chỗ này. Hẹn gặp mặt lại chúng ta ngơi nghỉ bài viết sau về Q-Learning cùng cách để impement nó.

Leave a Reply

Your email address will not be published. Required fields are marked *

x

Welcome Back!

Login to your account below

Retrieve your password

Please enter your username or email address to reset your password.