ConfigServer Security &Firewall o csf in breve è una popolare soluzione firewall per i server cPanel. Combinato con alcune buone regole per mod_security, fa un ottimo lavoro.
Per evitare che csf blocchi temporaneamente/permanentemente gli IP di bot validi, dovresti modificare il file /etc/csf/csf.rignore
########################### ###############################
# Copyright 2006-2017, Way to the Web Limited
# URL:http://www.configserver.com
# E-mail:[email protected]
########################### ###############################
# Quello che segue è un elenco di domini e domini parziali che lfd elabora
# il monitoraggio verrà ignorato in base alle ricerche DNS inverse e in avanti. Un esempio di
# il suo utilizzo è impedire che i web crawler vengano bloccati da lfd, ad es.
# .googlebot.com e .crawl.yahoo.net
#
# È necessario utilizzare un nome di dominio completo (FQDN) o una desinenza univoca
# sottoinsieme del nome a dominio che deve iniziare con un punto (i caratteri jolly NON sono
# altrimenti consentito)
#
# Ad esempio, le seguenti sono tutte voci valide:
# www.configserver.com
# .configserver.com
# .configserver.co.uk
# .googlebot.com
# .crawl.yahoo.net
# .search.msn.com
#
# Le seguenti voci NON sono valide:
# *.configserver.com
# *google.com
# google.com (a meno che la ricerca non sia ESATTAMENTE google.com senza sottodomini
#
# Quando un indirizzo IP candidato viene controllato, viene eseguita una ricerca DNS inversa
# l'indirizzo IP. Viene quindi eseguita una ricerca DNS in avanti sul risultato del file
# ricerca DNS inversa. L'indirizzo IP verrà ignorato solo se:
#
# 1. I risultati della ricerca finale corrispondono all'indirizzo IP originale
# E
# 2a. I risultati della ricerca rDNS corrispondono all'FQDN
# O
# 2b. I risultati della ricerca rDNS corrispondono al sottoinsieme parziale del dominio
#
# Nota:se le ricerche DNS sono troppo lente o non restituiscono i risultati attesi
# l'indirizzo IP verrà conteggiato come di consueto per il trigger di blocco
#
Aggiungi le seguenti righe a /etc/csf/csf.rignore file:
.googlebot.com
.crawl.yahoo.net
.search.msn.com
.google.com
.yandex.ru
.yandex.net
.yandex.com
.crawl.baidu.com
.crawl.baidu.jp
csf sta bloccando gli IP quando un host viene bloccato per un certo numero di volte da una regola mod_security. Quindi, dobbiamo andare alla radice del problema:creeremo regole mod_security per consentire buoni bot.
Per questo, modificheremo i file mod_security .conf. Se stai usando cPanel EasyApache 4, aggiungi le seguenti righe al file /etc/apache2/conf.d/modsec/ modsec2.user.conf
HostnameLookups On
SecRule REMOTE_HOST "@endsWith .googlebot.com" "allow,log,id:5000001,msg:'googlebot'"
SecRule REMOTE_HOST "@endsWith .google.com" "allow,log,id:5000002,msg:'googlebot'"
SecRule REMOTE_HOST "@endsWith .search.msn.com" "allow,log,id:5000003,msg:'msn bot'"
SecRule REMOTE_HOST "@endsWith .crawl.yahoo.net" "allow,log,id:5000004,msg:'yahoo bot'"
SecRule REMOTE_HOST "@endsWith .yandex.ru" "allow,log,id:5000005,msg:'yandex bot'"
SecRule REMOTE_HOST "@endsWith .yandex.net" "allow,log,id:5000006,msg:'yandex bot'"
SecRule REMOTE_HOST "@endsWith .yandex.com" "allow,log,id:5000007,msg:'yandex bot'"
SecRule REMOTE_HOST "@endsWith .crawl.baidu.com" "allow,log,id:5000008,msg:'baidu bot'"
SecRule REMOTE_HOST "@endsWith .crawl.baidu.jp" "allow,log,id:5000009,msg:'baidu bot'"
Dopo aver aggiunto queste righe, riavviare il server Web Apache. Dopo qualche tempo, vedrai le voci nei registri del server. Basta andare su WHM->Centro sicurezza->Strumenti ModSecurity™->Elenco risultati o dalla riga di comando:
root@web [/]# grep "500000" /usr/local/apache/logs/error_log | tail -30
Risorse:
https://webmasters.googleblog.com/2006/09/how-to-verify-googlebot.html
https://yandex.com/support/webmaster/robot-workings/check-yandex-robots.xml
https://www.bing.com/webmaster/help/how-to-verify-bingbot-3905dc26
https://github.com/SpiderLabs/ModSecurity/wiki/