contenuto del raschietto (aka web scraping, web harvesting, web data mining ecc.) è la procedura per copiare i dati da un sito web. I "raschietti" (tergicristalli) contenuto sono le persone o il software che copiano i dati. Il web scraping non è una brutta cosa.

In effetti, tutti i browser web sono fondamentalmente scraper di contenuti. Esistono molti scopi legittimi per eseguire scraping dei contenuti, come l'indicizzazione web per i motori di ricerca, ad esempio.

Guarda il nostro articolo su Come impedire a Google di indicizzare il tuo blog WordPress

La vera preoccupazione è se i raschiatori di contenuti sul tuo sito Web siano dannosi o meno. I concorrenti potrebbero voler rubare i tuoi contenuti e pubblicarlo come appartenente a loro. Se riesci a distinguere gli utenti legittimi dai cattivi, hai maggiori possibilità di proteggerti. Questo articolo spiega le basi del web scraping e alcuni metodi per sbarazzarsene (o almeno ridurne l'importanza).

Ma prima, se non hai mai installato WordPress, scopri Come installare un blog WordPress in 7 passaggi et Come trovare, installare e attivare un tema WordPress sul tuo blog 

Quindi torniamo al perché siamo qui.

Tipi di ruspe contenuti

Esistono molti modi diversi per scaricare i dati dagli scraper di contenuti. È importante conoscere i diversi metodi e la tecnologia che utilizzano. I metodi vanno dalla bassa tecnologia (una persona manualmente, copiando e incollando il contenuto) a robot sofisticati (software automatizzato in grado di simulare l'attività umana in un browser). Ecco un riepilogo di ciò che potresti dover fare:

  • Spiders: La scansione del Web è una parte importante del funzionamento degli scraper di contenuti. Un ragno come Googlebot inizierà raccogliendo una singola pagina Web e passando da un collegamento all'altro per scaricare le pagine Web.
  • script di shell: Puoi usare Linux Shell per creare scraper di contenuti con script come GNU Wget per scaricare contenuti.
  • Raschietto HTML: sono simili agli script di shell. Questo tipo di raschietto è molto comune. Funziona ottenendo la struttura HTML di un sito Web per trovare i dati.
  • Schermate di visualizzazione: Uno screen wiper è un programma che acquisisce i dati da un sito Web imitando il comportamento di un utente umano che utilizza un computer per navigare in Internet.
  • copia umana: qui è dove una persona copia manualmente i contenuti dal tuo sito web. Se hai mai pubblicato online, potresti aver notato che il plagio è diffuso. Dopo che l'adulazione iniziale svanisce, la realtà che qualcuno trae profitto dal tuo lavoro si adatta.

Ci sono diversi modi per fare lo stesso. Le categorie di raschiatori sopra elencate non costituiscono un elenco esaustivo. Inoltre, c'è molta sovrapposizione tra le categorie.

Leggi anche il nostro articolo su Come e perché una verifica qualitativa dei contenuti

Come proteggere il tuo blog

Proteggi un blog dagli scraper di contenuti

1. Limitazione e blocco della tariffa

Puoi combattere molti robot rilevando prima il problema. È tipico per un robot automatizzato spam sul tuo server con un numero di richieste eccezionalmente alto. La limitazione della velocità, come suggerisce il nome, limita le richieste del server da un singolo client impostando una regola.

Puoi fare cose come misurare i millisecondi tra le richieste. Se l'interazione con il tuo sito web è troppo veloce, allora sai che è un bot. Da allora in poi bloccare questo indirizzo IP. Puoi bloccare gli indirizzi IP in base a una serie di criteri, incluso il loro paese di origine.

2. Registrazione e connessione

Registrazione e accesso sono un modo popolare per tenere i contenuti lontani da occhi indiscreti. Puoi ostacolare il progresso dei robot. Tutto quello che devi fare è condizionare l'accesso ai tuoi contenuti a una connessione. Le basi della sicurezza della connessione si applicano qui. Tieni presente che le pagine che richiedono registrazione e accesso non verranno indicizzate dai motori di ricerca.

3. Honeypots e dati falsi

In informatica, gli "honeypot" sono operazioni di puntura virtuale. Riunisci i potenziali aggressori impostando trappole con un honeypot, per rilevare il traffico proveniente dai content scrapers. Ci sono un numero infinito di modi per farlo.

Ad esempio, puoi aggiungere un link invisibile alla tua pagina web. Successivamente, crea un algoritmo che blocchi l'indirizzo IP del client che ha fatto clic sul collegamento. Honeypot più sofisticati possono essere difficili da configurare e mantenere. La buona notizia è che ci sono molti progetti Honeypot open source in giro. Dai un'occhiata a questo fantastico elenco di favolosi honeypot su GitHub.

4. Utilizzare un CAPTCHA

Captcha significa " Completamente automatizzato prova di Turing pubblico per raccontare Computers and Humans Apart fondamentalmente, un test per distinguere tra umani e robot. I captcha possono essere noiosi, ma sono anche utili. Puoi utilizzare un per bloccare le aree che pensi che un bot potrebbe voler prendere di mira, come un pulsante di posta elettronica sul tuo modulo di contatto. Ci sono molti buoni plugin Captcha disponibili su WordPress, incluso il " Captcha Da Jetpack.

Scopri anche alcuni plugin WordPress premium  

Puoi usare altro plugin di WordPress per dare un aspetto moderno e per ottimizzare la gestione del tuo blog o sito web.

Ti offriamo qui alcuni plugin WordPress premium che ti aiuteranno a farlo.

1. Stripe per Arforms

ARForms ha una nuova estensione che accetta pagamenti tramite il gateway di pagamento Stripe. Si chiama "ARForms Stripe". Quest'ultimo integra input e pagamenti in un unico processo.

Striscia per arforms

è possibile fatturare i clienti con un importo dinamico immediatamente dopo l'invio del modulo ARForms.

Leggi anche il nostro articolo su Come utilizzare banda su WooCommerce e facile Digital Download

Devi solo creare un modulo con ARForms, configurarlo con Stripe e tutto è fatto! Puoi impostare il pagamento tramite Stripe in pochissimo tempo.

Download | Demo | Web hosting

2.AX Stream sociale

Se vuoi visualizzare più feed di social media sul tuo sito Web, quindi il plug-in Consiglio sociale di WordPress ti consentirà di farlo fornendoti sei modi per visualizzare l'attività del tuo account. Potrai anche beneficiare del supporto per 17 social network e diversi layout personalizzabili.

Il plugin wordpress per social stream di Axe

Le sue caratteristiche sono tra le altre: 6 diverse modalità di visualizzazione dei feed, supporto per la maggior parte dei social network, layout completamente reattivo, supporto per banner pubblicitari, Supporto multilingue, un gestore di temi, documentazione dettagliata, ecc ...

Download | Demo | Web hosting

3. Mappe del mondo interattive

Mappe del mondo interattive ti aiuta a creare tutte le mappe di geolocalizzazione che desideri, continenti, paesi o regioni ... e questo con indicatori interattivi e colorati.

Mappe Interattive Mondo

È compatibile con le ultime versioni di WordPress e si adatta perfettamente al Plugin Visual Composer.

Scopri la nostra Plugin 8 WordPress per personalizzare l'aspetto del tuo sito web

Grazie a Interactive World Maps, sarai in grado di visualizzare diversi tipi di regioni come: una mappa di tutto il mondo, un continente o un subcontinente, un paese e molto altro.

Download Demo | Web hosting

Altre risorse consigliate

Ti invitiamo inoltre a consultare le risorse seguenti per approfondire la presa e il controllo del tuo sito Web e blog.

Conclusione

Ecco! Questo è tutto per questo tutorial, spero che ti aiuti a creare un pratico elenco di cose da fare per proteggere efficacemente il tuo blog WordPressNon esitate a condividi il suggerimento con i tuoi amici sui tuoi social network.

Tuttavia, sarai anche in grado di consultare il nostro risorse, se hai bisogno di più elementi per realizzare i tuoi progetti di creazione di siti Internet, consultando la nostra guida su Creazione di blog WordPress.

Ma, nel frattempo, parlaci del tuo commentaires e suggerimenti nella sezione dedicata.

...