OpenAI के क्रॉलर्स को आपकी वेबसाइट को स्क्रैप करने से कैसे रोकें

OpenAI के क्रॉलर्स को आपकी वेबसाइट को स्क्रैप करने से कैसे रोकें
आप जैसे पाठक MUO को समर्थन देने में मदद करते हैं। जब आप हमारी साइट पर लिंक का उपयोग करके खरीदारी करते हैं, तो हम संबद्ध कमीशन कमा सकते हैं। और पढ़ें।

हालाँकि उपयोगकर्ता चैटजीपीटी को वर्तमान में मौजूद जानकारी की विशाल मात्रा के कारण पसंद करते हैं, लेकिन वेबसाइट मालिकों के बारे में ऐसा नहीं कहा जा सकता है।





दिन का एमयूओ वीडियो सामग्री जारी रखने के लिए स्क्रॉल करें

OpenAI का ChatGPT वेबसाइटों को स्क्रैप करने के लिए क्रॉलर का उपयोग करता है, लेकिन यदि आप एक वेबसाइट के मालिक हैं, और आप नहीं चाहते कि OpenAI का क्रॉलर आपकी वेबसाइट तक पहुंचे, तो इसे रोकने के लिए आप यहां कुछ चीजें कर सकते हैं।





OpenAI क्रॉलिंग कैसे काम करती है?

ए वेब क्रॉलर (स्पाइडर या सर्च इंजन बॉट के रूप में भी जाना जाता है) एक स्वचालित प्रोग्राम है जो जानकारी के लिए इंटरनेट को स्कैन करता है। फिर यह उस जानकारी को इस तरह संकलित करता है कि आपके खोज इंजन के लिए उस तक पहुंच आसान हो।





वेब क्रॉलर प्रत्येक प्रासंगिक यूआरएल के प्रत्येक पृष्ठ को अनुक्रमित करते हैं, आमतौर पर उन वेबसाइटों पर ध्यान केंद्रित करते हैं जो आपकी खोज क्वेरी के लिए अधिक प्रासंगिक हैं। उदाहरण के लिए, मान लें कि आप गूगल पर एक विशेष विंडोज़ त्रुटि खोज रहे हैं। आपके खोज इंजन का वेब क्रॉलर उन वेबसाइटों के सभी यूआरएल को स्कैन करेगा जिन्हें वह विंडोज़ त्रुटियों के विषय पर अधिक आधिकारिक मानता है।

टास्कबार विंडोज़ 10 में स्टीम गेम्स को कैसे पिन करें?

OpenAI के वेब क्रॉलर को GPTBot कहा जाता है, और इसके अनुसार OpenAI का दस्तावेज़ीकरण जीपीटीबॉट को अपनी वेबसाइट तक पहुंच प्रदान करने से एआई मॉडल को सुरक्षित और अधिक सटीक बनाने के लिए प्रशिक्षित करने में मदद मिल सकती है, और यह एआई मॉडल की क्षमताओं का विस्तार करने में भी मदद कर सकता है।



OpenAI को अपनी वेबसाइट क्रॉल करने से कैसे रोकें

अधिकांश अन्य वेब क्रॉलर की तरह, GPTBot को वेबसाइट में संशोधन करके आपकी वेबसाइट तक पहुंचने से रोका जा सकता है robots.txt प्रोटोकॉल (रोबोट बहिष्करण प्रोटोकॉल के रूप में भी जाना जाता है)। यह .txt फ़ाइल वेबसाइट के सर्वर पर होस्ट की जाती है, और यह नियंत्रित करती है कि वेब क्रॉलर और अन्य स्वचालित प्रोग्राम आपकी वेबसाइट पर कैसे व्यवहार करते हैं।

यहां क्या है इसकी एक छोटी सूची दी गई है रोबोट.txt फ़ाइल यह कर सकती है:





  • यह GPTBot को वेबसाइट तक पहुंचने से पूरी तरह से ब्लॉक कर सकता है।
  • यह किसी URL के केवल कुछ पेजों को GPTBot द्वारा एक्सेस होने से रोक सकता है।
  • यह GPTBot को बता सकता है कि वह किन लिंक्स का अनुसरण कर सकता है और किनका नहीं।

GPTBot आपकी वेबसाइट पर क्या कर सकता है, इसे नियंत्रित करने का तरीका यहां बताया गया है:

GPTBot को आपकी वेबसाइट तक पहुँचने से पूरी तरह से रोकें

  1. robot.txt फ़ाइल सेट करें , और फिर इसे किसी भी टेक्स्ट संपादन टूल से संपादित करें।
  2. अपनी साइट पर GPTBot जोड़ें robots.txt निम्नलिखित नुसार:
 User-agent: GPTBot 
Disallow: /

केवल कुछ पेजों को GPTBot द्वारा एक्सेस होने से रोकें

  1. स्थापित करें रोबोट.txt फ़ाइल बनाएं, और फिर इसे अपने पसंदीदा टेक्स्ट संपादन टूल से संपादित करें।
  2. अपनी साइट पर GPTBot जोड़ें robots.txt निम्नलिखित नुसार:
 User-agent: GPTBot 
Allow: /directory-1/
Disallow: /directory-2/

हालाँकि, यह ध्यान रखें कि परिवर्तन रोबोट.txt फ़ाइल एक पूर्वव्यापी समाधान नहीं है, और GPTBot द्वारा आपकी वेबसाइट से पहले ही एकत्रित की गई कोई भी जानकारी पुनर्प्राप्त नहीं की जा सकेगी।





OpenAI वेबसाइट मालिकों को क्रॉलिंग से ऑप्ट-आउट करने की अनुमति देता है

जब से एआई मॉडल को प्रशिक्षित करने के लिए क्रॉलर का उपयोग किया जाने लगा है, तब से वेबसाइट मालिक अपने डेटा को निजी रखने के तरीके ढूंढ रहे हैं।

कुछ लोगों को डर है कि एआई मॉडल मूल रूप से उनका काम चुरा रहे हैं, यहां तक ​​कि वेबसाइट पर कम विजिट के लिए भी इस तथ्य को जिम्मेदार ठहराया जा रहा है कि अब उपयोगकर्ताओं को उनकी वेबसाइट पर आए बिना ही अपनी जानकारी मिल जाती है।

कुल मिलाकर, आप एआई चैटबॉट्स को अपनी वेबसाइटों को स्कैन करने से पूरी तरह से रोकना चाहते हैं या नहीं, यह पूरी तरह से आपकी पसंद है।