Skip to main content

Reinforcement Learning क्या है? - मशीन लर्निंग

Reinforcement Learning क्या है?

Reinforcement Learning मशीनों को प्रशिक्षित करने की एक तकनीक है जो इनाम को अधिकतम करने के लिए काम करती है। यहां इनाम एक सकारात्मक प्रतिक्रिया है। इसमें मशीन की हर क्रिया के लिए फीडबैक दिया जाता है, यह सकारात्मक या नकारात्मक हो सकता है। यहां मशीन एक environment में काम करती है और अपने अनुभव से सीखती है।

अगर हम इसे सीधे शब्दों में कहें तो Reinforcement Learning एक मशीन लर्निंग तकनीक है जो इनाम और सजा से सीखती है। Reinforcement Learning का उपयोग रोबोटिक्स, बॉट्स गेमप्ले शिक्षण आदि में किया जाता है।

Reinforcement learning kya hai in hindi

Reinforcement Learning में महत्वपूर्ण Terms

नीचे कुछ महत्वपूर्ण शब्द दिए गए हैं जिन्हें हम Reinforcement Learning में देखेंगे:

  • Agent: एजेंट एक entity है जो environment के साथ interact कर सकती है। हमारे मामले में यह वह मशीन है जिसे हम प्रशिक्षण दे रहे हैं।
  • Environment: ऐसी स्थिति जिसमें एजेंट मौजूद हो। यह भूलभुलैया, वीडियो गेम आदि कुछ भी हो सकता है।
  • Action: Action वे चीजें हैं जो एजेंट environment में करता है।
  • Reward: Reward एक सकारात्मक प्रतिक्रिया है जो environment द्वारा एजेंट को दी जाती है जब वह सही निर्णय लेता है।
  • State: यह वह स्थिति है जिसमें एजेंट है। यह एजेंट की प्रत्येक action के बाद environment द्वारा दिया जाता है।

Reinforcement Learning कैसे काम करती है?

Reinforcement Learning एक ऐसे माहौल में काम करता है, जिसमें एक्शन लिया जाता है और फीडबैक लिया जाता है। इसमें हमें किसी मशीन को प्रोग्राम करने की जरूरत नहीं होती है, यह बिना किसी मानवीय हस्तक्षेप के अपने आप सीख जाती है। Reinforcement Learning में एक Agent का प्राथमिक लक्ष्य अधिकतम संभव इनाम प्राप्त करके अपने performance में सुधार करना है। Reinforcement Learning को बेहतर ढंग से समझने के लिए नीचे एक उदाहरण दिया गया है:

मान लीजिए कि हमारे पास भूलभुलैया environment में एक Agent है। Agent का लक्ष्य भूलभुलैया से निकलना है। Reinforcement Learning के साथ agent भूलभुलैया में एक मार्ग लेगा और अगर यह एक दीवार का सामना करता है, तो उसे नकारात्मक प्रतिक्रिया या सजा मिलेगी। लेकिन अगर एजेंट को दीवार नहीं मिलती है और वह भूलभुलैया से बाहर निकलने के करीब पहुंच जाता है, तो उसे सकारात्मक प्रतिक्रिया या reward मिलेगा। Agent इनाम को अधिकतम करने के लिए निर्णय लेता है और भूलभुलैया से बाहर निकल जाता है। इस प्रकार Reinforcement Learning काम करती है।

Reinforcement Learning के प्रकार क्या हैं?

Reinforcement Learning के दो प्रकार हैं: Positive Reinforcement, Negative Reinforcement।

  • Positive Reinforcement: Positive Reinforcement को एक ऐसी घटना के रूप में परिभाषित किया जाता है जिसका एजेंट पर सकारात्मक प्रभाव पड़ता है। यह किसी विशेष क्रिया के कारण एजेंट के performance को बढ़ाता है। Positive Reinforcement उस क्रिया की आवृत्ति (frequency) को बढ़ाता है।
  • Negative Reinforcement: Negative Reinforcement एजेंट के उस व्यवहार को मजबूत करना है जो नकारात्मक स्थिति को रोकता है। यह मशीन को गलत निर्णय लेने से रोकता है।

Reinforcement Learning के उपयोग क्या हैं?

Reinforcement Learning के कई उपयोग हैं। अगर आप गेम खेलते हैं तो आप इसे PUBG जैसे गेम में इस्तेमाल में देख सकते हैं। जहां कुछ खिलाड़ी बॉट हैं। इन बॉट्स को गेम खेलने के लिए रीइन्फोर्समेंट लर्निंग की मदद से प्रशिक्षित किया जाता है। Reinforcement Learning का एक और उपयोग रोबोटिक्स में है, जहां रोबोट इंसानों की तरह चलना और कार्य करना सीखते हैं।

रीइन्फोर्समेंट लर्निंग के अन्य उपयोग स्वास्थ्य सेवा, वित्त, recommendation systems, सेल्फ-ड्राइविंग कार आदि में हैं।

Reinforcement Learning और Supervised Learning के बीच अंतर क्या है?

Reinforcement Learning का उपयोग बहु-चरणीय समस्या को हल करने के लिए किया जाता है लेकिन Supervised Learning का उपयोग इनपुट के आउटपुट को खोजने के लिए किया जाता है। Reinforcement Learning में निर्णय पिछली स्थिति पर निर्भर होते हैं, लेकिन Supervised Learning में निर्णय एक दूसरे से स्वतंत्र होते हैं।

Reinforcement Learning का आविष्कार किसने किया था?

Richard S. Sutton वह है जिन्होने Reinforcement Learning का आविष्कार किया था।

मुझे उम्मीद है कि अब आप जान गए होंगे कि रीइन्फोर्समेंट लर्निंग क्या है? अगर आपका कोई सवाल है तो आप मुझे कमेंट में पूछ सकते हैं।

Comments

Popular posts from this blog

Chapri meaning in hindi - हम छपरी किसे कहते हैं?

मशीन लर्निंग

POLED vs AMOLED