Caro Mirco, ecco poche righe che riassumono il contesto di CDF e le richieste. Mi perdonerai se non ho il tempo di scrivere un documento lungo, che e' comunque disponibile in latex (quasi testo...) in: http://www.ts.infn.it/~belforte/offline/plan.tex (se lo vuoi in postscript.. http://www.ts.infn.it/~belforte/offline/plan.ps ) Inizio dall'elenco delle richieste, segue una descrizione del contesto. LE RICHIESTE -------------- La rete: La banda necessaria per CDF tra l'Italia e Fermilab: 10 Mbit/sec l'anno prossimo, a crescere fino a 40-50 Mbit/sec al momento che avremo il data set finale (circa 1PB nel 2002/3) La banda necessaria all'interno dell'INFN: circa 5 volte quanto necessario con gli USA, ma anche un fattore 10 sarebbe desiderabile. Il supporto software locale: Soprattutto system management: linux, Root, servers SUN o SGI, SMQL Aiuto per la importazione dell'ambiente di lavoro FNAL e la distribuzione del codice. Piccolo costo di licenze. Il supporto software sulla rete: Privilegiare l'interattivo sulla rete Supporto per controllo e monitor remoto attraverso strumenti di QOS od in alternativa links dedicati temporanei stile ISDN per videolink Videoconferenze etc.: Ancora codec. Serve un MCU italiano. LO SCENARIO ------------ 1) ACCESSO AI DATI L'analisi CDF e' centrata su n-tuple (in realta' Root files) sul disco locale del PC di ogni persona (linux). E' irrilevante se le n-tuple sono davvero files di PAW, Root, o semplici campioni di dati ridotti per mettere a punto la selezione. Il punto importante e' che sono files di pochi GB che permettono un veloce accesso interattivo. Quando il tempo di processamento di un data set passa da pochi minuti a un'ora o piu', non e' piu' importante che i dati siano locali. Le n-tuple verranno create con job batch che girano su macchine collegate ai dischi dati con link ad alta velocita', quindi al Fermilab dove i dati sono su SAN basata su FC, o su nastri robotizzati su SCSI locale. In ogni caso protocollo SCSI (niente tcp/ip come con sistemi di storage net-centrici tipo Enstore od HPSS). Le n-tuple verranno poi copiate sui dischi locali dei PC in italia attraverso la rete o spedite su cassetta per DHL. Data set di uso frequente saranno replicati su disk servers locali nelle sezioni. Immaginiamo 3 di questi servers (PI,PD,BO e.g.) con uno/due TeraBytes di disco ognuno. 2)BISOGNI DI MASS STORAGE CDF usera' nastri 8mm di nuova tecnologia (non i vecchi exabyte) con capacita' di circa 50-100 GB/nastro. Pianifichiamo di dotare ogni PC di un lettore, ma di non avere nessun robot in Italia. I disk servers nelle sezioni useranno array di dischi RAID (SCSI, ma teniamo d'occhio IDE per il prezzo) connessi su Ultra SCSI locale. Non si prevede nessun particolare bisogno di mass storage in grandi quantita'. Probabilmente non sara' mai necessario ne' utile avere dei robot per nastri in Italia. 3)BISOGNI DI CPU Non abbiamo ancora un piano per il MonteCarlo. Estrapolando dal passato immagino che quanto predisposto per l'analisi dei dati sia sufficiente anche per il MonteCarlo. Molto MC, come in passato, verra' prodotto a Fermilab usando stavola anche la farm della ricostruzione. 4)BISOGNI DI RETE Bisogna poter copiare efficientemente le n-tuple sulla rete. Efficientemente vuol dire un'ora per un file di un giga-byte, ovvero 1 Mega-bit/sec per utente. Questo non dovrebbe essere un problema se la rete con gli USA cresce nell'immediato futuro come previsto oggi, e se la rete italiana GARR le si adegua. Per la rete locale l'accesso veloce tra i vari PC desktop e' importante, ma di nuovo fast-ethernet con 100Mbit/porta fully switched dovrebbe essere una reata' ovunque nel giro di due anni. 5)SOFTWARE Il codice per il Run 2 e' di fatto quasi tutto OO. C++ e' lo standard per l'offline, l'online usa Java sulle macchine unix e C per i sistemi real-time. Una diffusione delle competeze di software OO nelle sezioni e' la benvenuta, ma non vedo una traduzione di questo in un esplicito supporto locale, al di la' della installazione dei compilatori. Volendo si puo' proporre di assumere un guru OO in ogni sezione, come ha fatto Fermilab, ma mi sembra irrealistico. L'ambiente di lavoro sara' prevalentemente linux, ma CDF supporta anche SUN e Silicon Graphics, e questi sono i sistemi operativi preferiti per dei data servers multi-cpu di medie dimensioni (almeno al momento attuale, ma certo con l'ingresso sul mercato delle cpu Intel a 64bit le cose possono rapidamente cambiare in un "tutto linux"). Oltre al supporto "base" per linux, servira' aiuto dal system manager per installare e mantenere l'evironment di lavoro clonato dal Fermilab, CDF si basa sulla replica di "tutto" sul computer locale, non su AFS, ed alcune operazioni richiedono privilegi e/o conoscenze da system manager. A tua disposizione per chiarimenti od ulteriori richieste Stefano