தொழில்நுட்ப அகராதி: Crawl Budget- துழாவல் கணக்கு

இப்படி ஒரு காட்சியை கற்பனை செய்து பாருங்கள். தினமும் அல்லது அடிக்கடி, யாரேனும் ஒருவர் அல்லது ஒரு சிலர், வீடு,வீடாக வந்து தகவல்களை சேகரித்து சென்று கொண்டிருந்தால் எப்படி இருக்கும். வருபவர் எதுவும் கேட்பது கூட கிடையாது, வீட்டின் வெளியே குறிப்பிட்ட இடத்தில் நின்றபடி தேவையான தரவுகளை சேகரித்துக்கொள்கிறார். அவ்வளவு தான்.

நிஜ உலகில் இப்படி நிகழ்வதில்லை: ஆனால் இணைய உலகில் நிகழ்கிறது. அதாவது மனிதர்கள் அல்ல, பாட்கள் அல்லது வலை சிலந்திகள் பெரும்பாலான இணையதளங்களின் கதவைத்தட்டி, அவற்றின் உள்ளடக்கம் தொடர்பான தகவல்களை சேகரித்துச்செல்கின்றன. இப்படி சேகரிக்கப்படும் தகவல்கள் தான் தேடியந்திரங்களால் பட்டியலிடப்படுகின்றன.

தொழில்நுட்ப மொழியில் இத்தகைய பாட்கள், துழாவன்கள் என அழைக்கப்படுகின்றன. தவழான்கள் அல்லது தவழான்கள் என்றும் வைத்துக்கொள்ளலாம். ஆங்கிலத்தில் கிராளர். (Web crawler ).

இந்த கிராளர்கள் வலை சிலந்திகள் என்றும் அழைக்கப்படுகின்றன. இணைய கடலில் உலா வந்து இணைய பக்கங்கள் தகவல்களை இவை பட்டியலிடுவதை கொண்டே கூகுள் உள்ளிட்ட தேடியந்திரங்கள் இயங்குகின்றன. கூகுளின் வலை சிலந்திகள் கூகுள்பாட் –  Googlebot என குறிப்பிடப்படுகிறது. இப்போது சாட்ஜிபிடியும் தன் பங்கிற்கு வலைசிலந்திகளை உலாவ விட்டுள்ளது.

நிற்க, இந்த வலை சிலந்திகள் ஒரு தளத்தில் உள்ள எல்லா பக்கங்களையும் சேகரிப்பதில்லை. ஒவ்வொரு பக்கத்திலும் எந்த அளவு தகவல்களை சேகரிக்கலாம் என்பதை பல்வேறு அம்சங்கள் கொண்டு தீர்மானிக்கின்றன. இப்படி குறிப்பிட்ட இணையதளத்தில் செலவிடக்கூடிய நேரத்தையும், அவற்றில் சேகரிக்கப்படும் பக்கத்தையும் உணர்த்தும் கணக்கே கிராள் பட்ஜெட் எனப்படுகிறது.  தமிழில் துழாவன்கள் (தவழான்கள்) கணக்கு என புரிந்து கொள்ளலாம். துழாவனிகள் என்றும் கொள்ளலாம்.

ஒவ்வொரு இணையதளமும் இந்த கணக்கை மனதில் கொண்டு தங்கள் பக்கங்களை அமைக்க வேண்டும் என கருதப்படுகிறது. தேடியந்திரமயமாக்கலில் இதுவும் ஒரு முக்கிய உத்தி.

Crawl Budget- துழாவன்கள் பட்ஜெட்

தொடர்புடைய முந்தைய பதிவு: வெப் கிராளர் (Web Crawler) – இணைய தவழான்கள்

இப்படி ஒரு காட்சியை கற்பனை செய்து பாருங்கள். தினமும் அல்லது அடிக்கடி, யாரேனும் ஒருவர் அல்லது ஒரு சிலர், வீடு,வீடாக வந்து தகவல்களை சேகரித்து சென்று கொண்டிருந்தால் எப்படி இருக்கும். வருபவர் எதுவும் கேட்பது கூட கிடையாது, வீட்டின் வெளியே குறிப்பிட்ட இடத்தில் நின்றபடி தேவையான தரவுகளை சேகரித்துக்கொள்கிறார். அவ்வளவு தான்.

நிஜ உலகில் இப்படி நிகழ்வதில்லை: ஆனால் இணைய உலகில் நிகழ்கிறது. அதாவது மனிதர்கள் அல்ல, பாட்கள் அல்லது வலை சிலந்திகள் பெரும்பாலான இணையதளங்களின் கதவைத்தட்டி, அவற்றின் உள்ளடக்கம் தொடர்பான தகவல்களை சேகரித்துச்செல்கின்றன. இப்படி சேகரிக்கப்படும் தகவல்கள் தான் தேடியந்திரங்களால் பட்டியலிடப்படுகின்றன.

தொழில்நுட்ப மொழியில் இத்தகைய பாட்கள், துழாவன்கள் என அழைக்கப்படுகின்றன. தவழான்கள் அல்லது தவழான்கள் என்றும் வைத்துக்கொள்ளலாம். ஆங்கிலத்தில் கிராளர். (Web crawler ).

இந்த கிராளர்கள் வலை சிலந்திகள் என்றும் அழைக்கப்படுகின்றன. இணைய கடலில் உலா வந்து இணைய பக்கங்கள் தகவல்களை இவை பட்டியலிடுவதை கொண்டே கூகுள் உள்ளிட்ட தேடியந்திரங்கள் இயங்குகின்றன. கூகுளின் வலை சிலந்திகள் கூகுள்பாட் –  Googlebot என குறிப்பிடப்படுகிறது. இப்போது சாட்ஜிபிடியும் தன் பங்கிற்கு வலைசிலந்திகளை உலாவ விட்டுள்ளது.

நிற்க, இந்த வலை சிலந்திகள் ஒரு தளத்தில் உள்ள எல்லா பக்கங்களையும் சேகரிப்பதில்லை. ஒவ்வொரு பக்கத்திலும் எந்த அளவு தகவல்களை சேகரிக்கலாம் என்பதை பல்வேறு அம்சங்கள் கொண்டு தீர்மானிக்கின்றன. இப்படி குறிப்பிட்ட இணையதளத்தில் செலவிடக்கூடிய நேரத்தையும், அவற்றில் சேகரிக்கப்படும் பக்கத்தையும் உணர்த்தும் கணக்கே கிராள் பட்ஜெட் எனப்படுகிறது.  தமிழில் துழாவன்கள் (தவழான்கள்) கணக்கு என புரிந்து கொள்ளலாம். துழாவனிகள் என்றும் கொள்ளலாம்.

ஒவ்வொரு இணையதளமும் இந்த கணக்கை மனதில் கொண்டு தங்கள் பக்கங்களை அமைக்க வேண்டும் என கருதப்படுகிறது. தேடியந்திரமயமாக்கலில் இதுவும் ஒரு முக்கிய உத்தி.

Crawl Budget- துழாவன்கள் பட்ஜெட்

தொடர்புடைய முந்தைய பதிவு: வெப் கிராளர் (Web Crawler) – இணைய தவழான்கள்

About the author

CyberSimman

இண்டெர்நெட் சமூக மாற்றத்திற்கு வித்திடக்கூடிய ஜனநாயக தன்மை கொண்ட தொழில்நுட்பம் என்று சொல்லப்படுவதில் என‌க்கு மிகுந்த நம்பிக்கை உண்டு என்பதால் இண்டெர்நெட்டை எப்படியெல்லாம் பயன்படுத்திகொள்ள முடிகிறது என சுட்டிக்கட்டுவதை எனது கடமையாக‌வே கருதுகிறேன்... மேலும்

Related posts

Leave a Comment

Your email address will not be published. Required fields are marked *