Lielāko daļu laika, kad jums ir jābloķē piekļuve SeekportBot vai citiem crawl bots izmantojot vietni, iemesli ir vienkārši. Tīmekļa zirneklis veic pārāk daudz piekļuves īsā laika periodā un pieprasa tīmekļa servera resursus, vai arī tas nāk no meklētājprogrammas, kurā nevēlaties, lai jūsu vietne tiktu indeksēta.
Tas ir ļoti izdevīgi vietnei, kuru apmeklē rāpuļprogrammas. Šie tīmekļa zirnekļi ir paredzēti tīmekļa lapu satura izpētei, apstrādei un indeksēšanai meklētājprogrammās. Google un Bing izmanto šādus rāpuļprogrammas. Tomēr ir arī meklētājprogrammas, kas izmanto robotus, lai vāktu datus no tīmekļa lapām. Seekport ir viena no šīm meklētājprogrammām, kas tīmekļa lapu indeksēšanai izmanto rāpuļprogrammu SeekportBot. Diemžēl tas dažreiz to izmanto pārmērīgi un rada nevajadzīgu trafiku.
Saturu
Kas ir SeekportBot?
SeekportBot ir web crawler izstrādājis uzņēmums Seekport, kas atrodas Vācijā (bet izmanto IP no vairākām valstīm, tostarp Somijas). Šis robots tiek izmantots vietņu pārmeklēšanai un indeksēšanai, lai tās varētu parādīt meklētājprogrammu rezultātos. Seekport. Nefunkcionāla meklētājprogramma, cik es varu pateikt. Vismaz man tas nedeva nekādus rezultātus nevienai atslēgas frāzei.
SeekportBot Izmantot user agent:
"Mozilla/5.0 (compatible; SeekportBot; +https://bot.seekport.com)"
Kā bloķēt SeekportBot vai citu pārmeklēšanas robotu piekļuvi vietnei
Ja esat nonācis pie secinājuma, ka šim tīmekļa zirneklim vai citam, nav nepieciešams skenēt visu jūsu vietni un izveidot nevajadzīgu trafiku uz tīmekļa serveri, jums ir vairākas metodes, kā bloķēt viņu piekļuvi.
Ugunsmūris tīmekļa servera līmenī
Tās ir ugunsmūra lietojumprogrammas open-source ko var instalēt operētājsistēmās Linux un to var konfigurēt, lai bloķētu trafiku, pamatojoties uz vairākiem kritērijiem. IP adrese, atrašanās vieta, porti, protokoli vai lietotāja aģents.
APF (Advanced Policy Firewall) ir tāda programmatūra, ar kuras palīdzību jūs varat bloķēt nevēlamus robotus servera līmenī.
Tā kā SeekportBot un citi tīmekļa zirnekļi izmanto vairākus IP blokus, visefektīvākais bloķēšanas noteikums ir balstīts uz "user agent". Tātad, ja vēlaties bloķēt piekļuvi SeekportBot izmantojot APF, viss, kas jums jādara, ir izveidot savienojumu ar tīmekļa serveri, izmantojot SSHun pievienojiet filtra kārtulu konfigurācijas failā.
1. Atveriet konfigurācijas failu ar nano (vai citam izdevējam).
sudo nano /etc/apf/conf.apf
2. Meklējiet rindiņu, kas sākas ar “IG_TCP_CPORTS” un šīs rindas beigās pievienojiet lietotāja aģentu, kuru vēlaties bloķēt, kam seko komats. Piemēram, ja vēlaties bloķēt user agent "SeekportBot", rindai vajadzētu izskatīties šādi:
IG_TCP_CPORTS="80,443,22" && IG_TCP_CPORTS="$IG_TCP_CPORTS,SeekportBot"
3. Saglabājiet failu un restartējiet APF pakalpojumu.
sudo systemctl restart apf.service
"SeekportBot" piekļuve tiks bloķēta.
Filtrēt web crawls ar Cloudflare palīdzību - bloķējiet piekļuvi SeekportBot
Ar Cloudflare palīdzību man tā šķiet drošākā un ērtākā metode, ar kuras palīdzību var dažādos veidos ierobežot dažu botu piekļuvi vietnei. Metode, kuru arī izmantoju lietā SeekportBot lai filtrētu datplūsmu uz tiešsaistes veikalu.
Pieņemot, ka vietne jau ir pievienota Cloudflare un DNS pakalpojumi ir aktivizēti (tas ir, trafika uz vietni notiek caur Cloudflare), veiciet tālāk norādītās darbības.
1. Atveriet savu Clouflare kontu un dodieties uz vietni, kurai vēlaties ierobežot piekļuvi.
2. Dodieties uz: Security → WAF un pievienojiet jaunu noteikumu. Create rule.
3. Izvēlieties jaunās kārtulas nosaukumu, Field: User Agent - Operator: Contains - Value: SeekportBot (vai cits robota nosaukums) - Choose action: Block - Deploy.
Pēc dažām sekundēm jaunais noteikums WAF (Web Application Firewall) tas sāk stāties spēkā.
Teorētiski var iestatīt biežumu, ar kādu tīmekļa zirneklis piekļūst vietnei robots.txt, bet... tas ir tikai teorētiski.
User-agent: SeekportBot
Crawl-delay: 4
daudz web crawlerii (izņemot Bing un Google) neievēro šos noteikumus.
Visbeidzot, ja konstatējat tīmekļa rāpuļprogrammu, kas pārmērīgi piekļūst jūsu vietnei, vislabāk ir bloķēt tās kopējo piekļuvi. Protams, ja šis robots nav no meklētājprogrammas, kurā jūs interesē būt klāt.