இப்படி ஒரு காட்சியை கற்பனை செய்து பாருங்கள். தினமும் அல்லது அடிக்கடி, யாரேனும் ஒருவர் அல்லது ஒரு சிலர், வீடு,வீடாக வந்து தகவல்களை சேகரித்து சென்று கொண்டிருந்தால் எப்படி இருக்கும். வருபவர் எதுவும் கேட்பது கூட கிடையாது, வீட்டின் வெளியே குறிப்பிட்ட இடத்தில் நின்றபடி தேவையான தரவுகளை சேகரித்துக்கொள்கிறார். அவ்வளவு தான்.
நிஜ உலகில் இப்படி நிகழ்வதில்லை: ஆனால் இணைய உலகில் நிகழ்கிறது. அதாவது மனிதர்கள் அல்ல, பாட்கள் அல்லது வலை சிலந்திகள் பெரும்பாலான இணையதளங்களின் கதவைத்தட்டி, அவற்றின் உள்ளடக்கம் தொடர்பான தகவல்களை சேகரித்துச்செல்கின்றன. இப்படி சேகரிக்கப்படும் தகவல்கள் தான் தேடியந்திரங்களால் பட்டியலிடப்படுகின்றன.
தொழில்நுட்ப மொழியில் இத்தகைய பாட்கள், துழாவன்கள் என அழைக்கப்படுகின்றன. தவழான்கள் அல்லது தவழான்கள் என்றும் வைத்துக்கொள்ளலாம். ஆங்கிலத்தில் கிராளர். (Web crawler ).
இந்த கிராளர்கள் வலை சிலந்திகள் என்றும் அழைக்கப்படுகின்றன. இணைய கடலில் உலா வந்து இணைய பக்கங்கள் தகவல்களை இவை பட்டியலிடுவதை கொண்டே கூகுள் உள்ளிட்ட தேடியந்திரங்கள் இயங்குகின்றன. கூகுளின் வலை சிலந்திகள் கூகுள்பாட் – Googlebot என குறிப்பிடப்படுகிறது. இப்போது சாட்ஜிபிடியும் தன் பங்கிற்கு வலைசிலந்திகளை உலாவ விட்டுள்ளது.
நிற்க, இந்த வலை சிலந்திகள் ஒரு தளத்தில் உள்ள எல்லா பக்கங்களையும் சேகரிப்பதில்லை. ஒவ்வொரு பக்கத்திலும் எந்த அளவு தகவல்களை சேகரிக்கலாம் என்பதை பல்வேறு அம்சங்கள் கொண்டு தீர்மானிக்கின்றன. இப்படி குறிப்பிட்ட இணையதளத்தில் செலவிடக்கூடிய நேரத்தையும், அவற்றில் சேகரிக்கப்படும் பக்கத்தையும் உணர்த்தும் கணக்கே கிராள் பட்ஜெட் எனப்படுகிறது. தமிழில் துழாவன்கள் (தவழான்கள்) கணக்கு என புரிந்து கொள்ளலாம். துழாவனிகள் என்றும் கொள்ளலாம்.
ஒவ்வொரு இணையதளமும் இந்த கணக்கை மனதில் கொண்டு தங்கள் பக்கங்களை அமைக்க வேண்டும் என கருதப்படுகிறது. தேடியந்திரமயமாக்கலில் இதுவும் ஒரு முக்கிய உத்தி.
Crawl Budget- துழாவன்கள் பட்ஜெட்
தொடர்புடைய முந்தைய பதிவு: வெப் கிராளர் (Web Crawler) – இணைய தவழான்கள்
இப்படி ஒரு காட்சியை கற்பனை செய்து பாருங்கள். தினமும் அல்லது அடிக்கடி, யாரேனும் ஒருவர் அல்லது ஒரு சிலர், வீடு,வீடாக வந்து தகவல்களை சேகரித்து சென்று கொண்டிருந்தால் எப்படி இருக்கும். வருபவர் எதுவும் கேட்பது கூட கிடையாது, வீட்டின் வெளியே குறிப்பிட்ட இடத்தில் நின்றபடி தேவையான தரவுகளை சேகரித்துக்கொள்கிறார். அவ்வளவு தான்.
நிஜ உலகில் இப்படி நிகழ்வதில்லை: ஆனால் இணைய உலகில் நிகழ்கிறது. அதாவது மனிதர்கள் அல்ல, பாட்கள் அல்லது வலை சிலந்திகள் பெரும்பாலான இணையதளங்களின் கதவைத்தட்டி, அவற்றின் உள்ளடக்கம் தொடர்பான தகவல்களை சேகரித்துச்செல்கின்றன. இப்படி சேகரிக்கப்படும் தகவல்கள் தான் தேடியந்திரங்களால் பட்டியலிடப்படுகின்றன.
தொழில்நுட்ப மொழியில் இத்தகைய பாட்கள், துழாவன்கள் என அழைக்கப்படுகின்றன. தவழான்கள் அல்லது தவழான்கள் என்றும் வைத்துக்கொள்ளலாம். ஆங்கிலத்தில் கிராளர். (Web crawler ).
இந்த கிராளர்கள் வலை சிலந்திகள் என்றும் அழைக்கப்படுகின்றன. இணைய கடலில் உலா வந்து இணைய பக்கங்கள் தகவல்களை இவை பட்டியலிடுவதை கொண்டே கூகுள் உள்ளிட்ட தேடியந்திரங்கள் இயங்குகின்றன. கூகுளின் வலை சிலந்திகள் கூகுள்பாட் – Googlebot என குறிப்பிடப்படுகிறது. இப்போது சாட்ஜிபிடியும் தன் பங்கிற்கு வலைசிலந்திகளை உலாவ விட்டுள்ளது.
நிற்க, இந்த வலை சிலந்திகள் ஒரு தளத்தில் உள்ள எல்லா பக்கங்களையும் சேகரிப்பதில்லை. ஒவ்வொரு பக்கத்திலும் எந்த அளவு தகவல்களை சேகரிக்கலாம் என்பதை பல்வேறு அம்சங்கள் கொண்டு தீர்மானிக்கின்றன. இப்படி குறிப்பிட்ட இணையதளத்தில் செலவிடக்கூடிய நேரத்தையும், அவற்றில் சேகரிக்கப்படும் பக்கத்தையும் உணர்த்தும் கணக்கே கிராள் பட்ஜெட் எனப்படுகிறது. தமிழில் துழாவன்கள் (தவழான்கள்) கணக்கு என புரிந்து கொள்ளலாம். துழாவனிகள் என்றும் கொள்ளலாம்.
ஒவ்வொரு இணையதளமும் இந்த கணக்கை மனதில் கொண்டு தங்கள் பக்கங்களை அமைக்க வேண்டும் என கருதப்படுகிறது. தேடியந்திரமயமாக்கலில் இதுவும் ஒரு முக்கிய உத்தி.
Crawl Budget- துழாவன்கள் பட்ஜெட்
தொடர்புடைய முந்தைய பதிவு: வெப் கிராளர் (Web Crawler) – இணைய தவழான்கள்