Processo editoriale — dati-pubblici.it

1. Selezione delle fonti

Su dati-pubblici.it aggreghiamo solo dati provenienti da fonti istituzionali pubbliche: ministeri, regioni, enti pubblici economici, autorità indipendenti, portali UE, agenzie governative. Niente blog, niente forum, niente fonti commerciali, niente "ho sentito dire".

Per ognuna delle 13 categorie del sito (bandi, concorsi, appalti, aste, bonus, leggi, sentenze, scadenze, sanità, catasto, carburanti, trasparenza PA, conti pubblici) puoi vedere l'elenco completo delle fonti utilizzate nella pagina Le nostre fonti.

Una nuova fonte entra nel sito solo dopo che abbiamo verificato:

che è effettivamente pubblica e istituzionale (URL ufficiale .gov.it, .europa.eu, sito di un ente pubblico riconosciuto);
che il dato è strutturato e ricorrente (non un PDF una tantum);
che il sito sorgente non vieta esplicitamente l'aggregazione automatica (rispettiamo i robots.txt e i termini d'uso pubblicati);
che il dato aggiunge valore al lettore (non lo replichiamo se è già ben presentato altrove e non possiamo migliorarlo).

2. Aggiornamento dei dati

Ogni notte alle 22:00 ora italiana una pipeline automatica scarica i nuovi dati pubblicati dalle fonti, li normalizza in uno schema comune (per esempio: settore ATECO, codice CPV, materia giuridica, ente erogatore, scadenza in formato ISO) e li scrive sul database del sito. Entro le 7:00 del mattino successivo il sito è aggiornato e visibile.

Frequenze diverse per categorie diverse:

Bandi, concorsi, leggi, sentenze, scadenze, bonus: aggiornamento giornaliero.
Appalti, trasparenza PA: aggiornamento giornaliero (ANAC, BDAP).
Carburanti: aggiornamento ogni 8 giorni (frequenza dei dati MIMIT).
Catasto OMI: aggiornamento semestrale (frequenza Agenzia delle Entrate).
Sanità: aggiornamento mensile (strutture, farmaci AIFA).
Conti pubblici: aggiornamento trimestrale (Eurostat) e annuale (RGS).

Su ogni record di dettaglio mostriamo la data di ultimo aggiornamento e il link diretto alla fonte ufficiale. Se il record proviene da una fonte che ha avuto un'interruzione, viene marcato pubblicato = false e nascosto dal sito finché non torna disponibile (vedi /qualita/).

3. Validazione di qualità

Prima della pubblicazione ogni record passa attraverso filtri automatici che escludono:

pagine di errore HTTP catturate erroneamente dallo scraper (es. "We apologize for the inconvenience");
titoli con HTML entity non decodificate (es. ’);
descrizioni troncate prima di 50 caratteri o senza spazi;
date manifestamente errate (es. data di aggiudicazione futura);
codici tributo con lunghezza non a 4 cifre per le scadenze fiscali;
record duplicati (deduplicazione per slug normalizzato).

La pagina pubblica /qualita/ mostra in tempo reale, per ognuna delle 13 categorie, quanti record sono pubblicati, quanti sono stati esclusi dal validatore e perché.

4. Contenuti editoriali

I dati aggregati sono la base, ma non sono tutto. Sopra la lista di ciascuna pagina-indice di categoria pubblichiamo un blocco editoriale originale di 400-600 parole che spiega:

cosa è la categoria (definizione semplice);
chi può/dovrebbe consultarla;
come leggere i dati e cosa significano i campi;
da dove provengono i dati e chi è la fonte;
la situazione aggiornata al momento della visita (numeri live).

Inoltre nella sezione /guide/ pubblichiamo guide approfondite (800-1500 parole) su temi pratici: come partecipare a un bando, come funziona una scadenza fiscale, come leggere una sentenza, come fare un'istanza di accesso civico, come muoversi tra le aste giudiziarie, e così via.

Ogni guida ha:

un autore identificato con bio e ruolo;
una data di pubblicazione e una di ultimo aggiornamento;
almeno 3 fonti istituzionali linkate nel testo;
un disclaimer YMYL dove il tema lo richiede (finanza, fisco, diritto, sanità);
cross-link a 2+ pagine del sito (categorie, dettagli specifici).

5. Uso di assistenti AI

Nel rispetto della trasparenza, dichiariamo che parte della stesura tecnica e dei riassunti automatici (es. llm_riassunto_breve delle sentenze, match score dei bandi) è generata o assistita da modelli di intelligenza artificiale.

Il contenuto editoriale visibile (blocchi categoria, guide, FAQ, pagine istituzionali) è scritto, riletto e modificato a mano dalla redazione prima della pubblicazione. Niente è messo online "as-is" dall'output di un modello.

6. Gestione degli errori

Se trovi un dato sbagliato, una scheda incomprensibile o una citazione legale errata, scrivici a [email protected] indicando:

la URL della pagina con l'errore;
cosa è errato e — se possibile — la fonte ufficiale corretta;
il tuo contatto se vuoi essere informato della correzione.

Le segnalazioni vengono gestite entro 7 giorni lavorativi. Se l'errore è in un dato proveniente da una fonte (es. un titolo di bando mal scritto sul portale ministeriale), correggiamo lato sito e segnaliamo alla fonte; se è un nostro errore di scraping o di redazione, correggiamo subito.

7. Cosa NON facciamo

Non vendiamo dati personali a terzi.
Non profiliamo gli utenti per finalità commerciali nostre (gli annunci AdSense sono gestiti da Google, vedi privacy).
Non pubblichiamo dossier su singole persone aggregando informazioni da fonti diverse. I dati sono strutturati per ente, non per individuo.
Non pubblichiamo contenuti generati al volo da AI senza revisione umana.
Non riscriviamo le sentenze in modo da farle sembrare quello che non sono. Il testo originale è sempre linkato.
Non sostituiamo né simuliamo il parere di professionisti (commercialisti, avvocati, medici).

Vedi anche

Chi siamo — chi c'è dietro al progetto.
Le nostre fonti — elenco completo per categoria.
Qualità dei dati — stato live del validatore.
Privacy Policy — come trattiamo i dati di chi visita il sito.