DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Ieri ho provato Gemini 3 tramite accesso anticipato. Alcune considerazioni - Innanzitutto, di solito consiglio cautela con i benchmark pubblici perché, secondo me, possono essere facilmente manipolabili. Dipende dalla disciplina e dall'autocontrollo del team (che nel frattempo è fortemente incentivato a fare altrimenti) per non sovradattare i set di test tramite elaborate acrobazie su dati adiacenti al set di test nello spazio di embedding dei documenti. Realisticamente, poiché tutti gli altri lo fanno, la pressione per farlo è alta. Parla con il modello. Parla con gli altri modelli (Cavalca il ciclo LLM - usa un LLM diverso ogni giorno). Ieri ho avuto una prima impressione positiva riguardo alla personalità, alla scrittura, al coding del vibe, all'umorismo, ecc., un potenziale molto solido come driver quotidiano, chiaramente un LLM di livello 1, congratulazioni al team! Nei prossimi giorni/settimane, sono molto curioso e in attesa di un ensemble su valutazioni private, che molte persone/organizzazioni sembrano ora costruire per conto proprio e occasionalmente riportare qui.

Principali

Ranking

Preferiti