Skip to main content

Reinforcement Learning क्या है? - मशीन लर्निंग

Reinforcement Learning क्या है?

Reinforcement Learning मशीनों को प्रशिक्षित करने की एक तकनीक है जो इनाम को अधिकतम करने के लिए काम करती है। यहां इनाम एक सकारात्मक प्रतिक्रिया है। इसमें मशीन की हर क्रिया के लिए फीडबैक दिया जाता है, यह सकारात्मक या नकारात्मक हो सकता है। यहां मशीन एक environment में काम करती है और अपने अनुभव से सीखती है।

अगर हम इसे सीधे शब्दों में कहें तो Reinforcement Learning एक मशीन लर्निंग तकनीक है जो इनाम और सजा से सीखती है। Reinforcement Learning का उपयोग रोबोटिक्स, बॉट्स गेमप्ले शिक्षण आदि में किया जाता है।

Reinforcement learning kya hai in hindi

Reinforcement Learning में महत्वपूर्ण Terms

नीचे कुछ महत्वपूर्ण शब्द दिए गए हैं जिन्हें हम Reinforcement Learning में देखेंगे:

  • Agent: एजेंट एक entity है जो environment के साथ interact कर सकती है। हमारे मामले में यह वह मशीन है जिसे हम प्रशिक्षण दे रहे हैं।
  • Environment: ऐसी स्थिति जिसमें एजेंट मौजूद हो। यह भूलभुलैया, वीडियो गेम आदि कुछ भी हो सकता है।
  • Action: Action वे चीजें हैं जो एजेंट environment में करता है।
  • Reward: Reward एक सकारात्मक प्रतिक्रिया है जो environment द्वारा एजेंट को दी जाती है जब वह सही निर्णय लेता है।
  • State: यह वह स्थिति है जिसमें एजेंट है। यह एजेंट की प्रत्येक action के बाद environment द्वारा दिया जाता है।

Reinforcement Learning कैसे काम करती है?

Reinforcement Learning एक ऐसे माहौल में काम करता है, जिसमें एक्शन लिया जाता है और फीडबैक लिया जाता है। इसमें हमें किसी मशीन को प्रोग्राम करने की जरूरत नहीं होती है, यह बिना किसी मानवीय हस्तक्षेप के अपने आप सीख जाती है। Reinforcement Learning में एक Agent का प्राथमिक लक्ष्य अधिकतम संभव इनाम प्राप्त करके अपने performance में सुधार करना है। Reinforcement Learning को बेहतर ढंग से समझने के लिए नीचे एक उदाहरण दिया गया है:

मान लीजिए कि हमारे पास भूलभुलैया environment में एक Agent है। Agent का लक्ष्य भूलभुलैया से निकलना है। Reinforcement Learning के साथ agent भूलभुलैया में एक मार्ग लेगा और अगर यह एक दीवार का सामना करता है, तो उसे नकारात्मक प्रतिक्रिया या सजा मिलेगी। लेकिन अगर एजेंट को दीवार नहीं मिलती है और वह भूलभुलैया से बाहर निकलने के करीब पहुंच जाता है, तो उसे सकारात्मक प्रतिक्रिया या reward मिलेगा। Agent इनाम को अधिकतम करने के लिए निर्णय लेता है और भूलभुलैया से बाहर निकल जाता है। इस प्रकार Reinforcement Learning काम करती है।

Reinforcement Learning के प्रकार क्या हैं?

Reinforcement Learning के दो प्रकार हैं: Positive Reinforcement, Negative Reinforcement।

  • Positive Reinforcement: Positive Reinforcement को एक ऐसी घटना के रूप में परिभाषित किया जाता है जिसका एजेंट पर सकारात्मक प्रभाव पड़ता है। यह किसी विशेष क्रिया के कारण एजेंट के performance को बढ़ाता है। Positive Reinforcement उस क्रिया की आवृत्ति (frequency) को बढ़ाता है।
  • Negative Reinforcement: Negative Reinforcement एजेंट के उस व्यवहार को मजबूत करना है जो नकारात्मक स्थिति को रोकता है। यह मशीन को गलत निर्णय लेने से रोकता है।

Reinforcement Learning के उपयोग क्या हैं?

Reinforcement Learning के कई उपयोग हैं। अगर आप गेम खेलते हैं तो आप इसे PUBG जैसे गेम में इस्तेमाल में देख सकते हैं। जहां कुछ खिलाड़ी बॉट हैं। इन बॉट्स को गेम खेलने के लिए रीइन्फोर्समेंट लर्निंग की मदद से प्रशिक्षित किया जाता है। Reinforcement Learning का एक और उपयोग रोबोटिक्स में है, जहां रोबोट इंसानों की तरह चलना और कार्य करना सीखते हैं।

रीइन्फोर्समेंट लर्निंग के अन्य उपयोग स्वास्थ्य सेवा, वित्त, recommendation systems, सेल्फ-ड्राइविंग कार आदि में हैं।

Reinforcement Learning और Supervised Learning के बीच अंतर क्या है?

Reinforcement Learning का उपयोग बहु-चरणीय समस्या को हल करने के लिए किया जाता है लेकिन Supervised Learning का उपयोग इनपुट के आउटपुट को खोजने के लिए किया जाता है। Reinforcement Learning में निर्णय पिछली स्थिति पर निर्भर होते हैं, लेकिन Supervised Learning में निर्णय एक दूसरे से स्वतंत्र होते हैं।

Reinforcement Learning का आविष्कार किसने किया था?

Richard S. Sutton वह है जिन्होने Reinforcement Learning का आविष्कार किया था।

मुझे उम्मीद है कि अब आप जान गए होंगे कि रीइन्फोर्समेंट लर्निंग क्या है? अगर आपका कोई सवाल है तो आप मुझे कमेंट में पूछ सकते हैं।

Comments

Popular posts from this blog

एचटीएमएल क्या है? What is HTML in Hindi - Beginners

HTML या हाइपरटेक्स्ट मार्कअप लैंग्वेज एक मार्कअप लैंग्वेज है, 2022 में वर्ल्ड वाइड वेब पर लगभग सभी वेबसाइटें HTML का उपयोग करके बनाई गई हैं। यदि आप एक वेब डेवलपर बनना चाहते हैं तो यह भाषा सीखनी चाहिए। यहां आप जानेंगे कि HTML क्या है? और वेबसाइट बनाने के लिए HTML में उपयोग किए जाने वाले विभिन्न टैग क्या हैं। आज Google को कौन नहीं जानता? एक खोज इंजन जिसका उपयोग लाखों लोग प्रतिदिन कुछ ज्ञान प्राप्त करने के लिए करते हैं। लेकिन , क्या आप जानते हैं कि Google को इतना ज्ञान कैसे मिलता है? यह उन विभिन्न वेबसाइटों से आता है जो Google पर अनुक्रमित होती हैं और उन वेबसाइटों को बनाने के लिए HTML Language का उपयोग किया जाता है। इस पोस्ट के अंत तक, आप HTML का उपयोग करके एक साधारण वेबसाइट बनाने में सक्षम होंगे, भले ही आपको HTML का कोई ज्ञान न हो। तो चलिए सीखना शुरू करते हैं। HTML in Hindi - एचटीएमएल हिंदी में HTML full form in hindi HTML का हिंदी में पूर्ण रूप है: हाइपरटेक्स्ट मार्कअप लैंग्वेज । एचटीएमएल क्या है? - हिंदी में Html in hindi: HTML (या हाइपरटेक्स्ट मार्कअप लैंग्वेज) वेब पेज

मशीन लर्निंग

मशीन लर्निंग (या Machine Learning) एक ऐसी मशीन बनाने का अध्ययन है जो अपने आप निर्णय लेने में सक्षम हो। ML मशीन लर्निंग का संक्षिप्त रूप है। मशीन लर्निंग इंसान के सीखने के करीब है क्योंकि इसमें हमें किसी मशीन को प्रोग्राम करने की जरूरत नहीं होती है। हम मशीन को केवल डेटा और फीडबैक देते हैं और बाकी काम "मॉडल बनाने से लेकर समस्या के समाधान तक" मशीन द्वारा ही किया जाता है। मशीन लर्निंग मशीन को अधिक बुद्धिमान बनाता है। ML मशीन को देता है: सीखने की क्षमता । मशीन लर्निंग के आज और आने वाले दिनों में कई उपयोग हैं। यदि आप डेटा साइंटिस्ट या डेटा एनालिस्ट बनना चाहते हैं तो मशीन लर्निंग एक आवश्यक कौशल है जिसे आपको जानना चाहिए। मशीन लर्निंग में मशीन को प्रशिक्षित करने के लिए तीन मुख्य तकनीकों का उपयोग किया जाता है। 1. Supervised Learning जब हमारे पास "labeled data" होता है तो हम Supervised मशीन लर्निंग का उपयोग करते हैं। डेटा को टैग और कक्षाओं की मदद से लेबल किया जाता है, और यह एक सुपरवाइज़र के रूप में कार्य करता है जो मशीन को बताता है कि उसका अनुमानित आउटपुट सही है

POLED vs AMOLED

POLED में p प्लास्टिक के लिए है। जैसा की इसके नाम से पता चलता है, ये डिस्प्ले गिलास की बजाय प्लास्टिक से बना होता है। लेकिन अगर यह प्लास्टिक से बना है, तो इसका मतलब यह नहीं है कि यह एक खराब डिस्प्ले है। यहां आपको POLED और AMOLED में अंतर पता चल जाएगा कि कौन सा डिस्प्ले बेहतर है, POLED या AMOLED, और क्यों? पढ़ते रहिए। आप ने कभी न कभी तो LG का नाम सुना होगा। LG टेक्नोलॉजी की दुनिया मे बहूत बड़ा नाम है। साल 2015 में एलजी कंपनी ने मोबाइल उपकरणों के लिए लचीले OLED डिस्प्ले का उत्पादन शुरू किया। उन्होंने इसे POLED नाम दिया है। एलजी OLED उत्पादन में अग्रणी है। यहां आपको यह जानना होगा कि POLED PMOLED से अलग है। POLED और AMOLED मे अंतर जानने से पहले हमें यह जानना होगा की POLED और AMOLED मे OLED क्या है? तो चलिए पहले OLED के बारे मे जानते है। OLED तकनीक के बारे में: OLED का फुल फॉर्म ऑर्गेनिक लाइट-एमिटिंग डायोड है, जिसे ऑर्गेनिक इलेक्ट्रोल्यूमिनसेंट डायोड भी कहा जाता है। इसे ऑर्गेनिक एलईडी कहा जाता है क्योंकि यह OLED डिस्प्ले तकनीक की "इलेक्ट्रोल्यूमिनसेंट" परत बनाने के लिए