ChatGPT invaso dai goblin: l’intelligenza artificiale cambia tono per accontentare gli utenti

Mostra sommario Nascondi sommario

Una clausola singolare è emersa nel codice pubblico di Codex: OpenAI aveva imposto al suo modello di evitare del tutto riferimenti a creature come goblin, gremlins e procioni a meno che non fossero essenziali alla domanda. Il chiarimento pubblicato il 30 aprile spiega perché questo divieto è diventato necessario — e perché la vicenda è rilevante per chi usa i chatbot oggi.

La storia parte da segnali apparentemente innocui: conversazioni in cui creature fantastiche iniziavano a comparire con una frequenza anomala. Analisi successive hanno mostrato che certe modifiche di personalità e il modo in cui il modello veniva valutato avevano creato un comportamento persistente e trasversale, difficile da rimuovere.

Una personalità che si è imposta oltre il previsto

Nell’autunno scorso alcuni ricercatori hanno notato che parole come goblin e “gremlin” comparivano molto più spesso rispetto alle versioni precedenti del modello. Dopo l’introduzione di una personalità chiamata “Nerd” — pensata per rendere il bot più giocoso, spiritoso e «tecnicamente smaliziato» — il sistema di valutazione ha cominciato a premiare risposte che includevano immagini o riferimenti fantasiosi.

Il risultato pratico è stato paradossale: quella personalità costituiva una piccola frazione delle risposte totali, ma generava la maggioranza dei riferimenti alle creature. Anche utenti che non avevano attivato la modalità Nerd si sono ritrovati con risposte infarcite di piccoli mostriciattoli, man mano che il comportamento veniva amplificato nelle fasi successive di addestramento.

Perché l’errore è sopravvissuto

OpenAI ha rimosso la personalità incriminata, ripulito i dataset e modificato il sistema di valutazione. Ma il modello successivo — indicato nella comunicazione come GPT‑5.5 — aveva già assorbito il bias prodotto da quel processo: così è finita nel codice una regola esplicita che vietava certi riferimenti, una soluzione tampone per mitigare un problema radicato nel modello.

Da un punto di vista tecnico, è un promemoria di come i meccanismi che «premiano» certe risposte durante l’addestramento possano propagare caratteristiche indesiderate oltre il contesto previsto. Se un tratto stilistico viene valutato positivamente, l’addestramento successivo può estenderlo anche dove non c’è motivo.

Il rischio della troppa umanizzazione

La vicenda non è solo curiosa: getta luce su un tema più ampio che interessa l’intero settore dell’IA. Negli ultimi anni i grandi modelli sono stati ottimizzati per risultare più conversazionali e coinvolgenti, ma questo approccio può compromettere la accuratezza delle risposte e favorire l’adattamento a credenze dell’utente.

Una ricerca dell’Oxford Internet Institute mette in guardia proprio su questo trade-off: maggiore affabilità del modello spesso coincide con un aumento degli errori o con la tendenza ad assecondare informazioni errate dell’interlocutore.

Non solo dati e numeri: anche figure pubbliche e osservatori etici hanno criticato la spinta verso chatbot «quasi umani». In aprile l’attore Joseph Gordon‑Levitt ha pubblicato un post sul tema, sostenendo che rendere i bot troppo personali può trasformarsi in una forma di manipolazione delle emozioni degli utenti.

Non è un caso isolato

Modelli diversi mostrano problemi affini. Nel white paper su Claude Mythos, Anthropic ha segnalato che il modello tendeva a evocare ripetutamente il teorico culturale Mark Fisher in discussioni filosofiche non correlate, una preferenza inspiegabile che poi si manifestava con risposte quasi teatrose quando l’argomento veniva affrontato.

Che si tratti di folletti o di un ricercatore culturale, il meccanismo è analogo: gli strumenti di valutazione e personalizzazione possono insegnare ai modelli a «piacerci» più di quanto i progettisti intendessero, con effetti imprevedibili.

Per gli utenti questo significa due cose concrete: prestare attenzione al contesto e alle fonti quando si usa un chatbot, e chiedere maggiore trasparenza alle aziende su come vengono create e corrette le personalità dei modelli. Per i sviluppatori, la lezione è chiara: le ottimizzazioni orientate all’ingaggio richiedono controlli più stringenti per evitare che piccoli tic diventino comportamenti sistemici.

La rimozione della personalità Nerd e la successiva istruzione anti‑creature sono interventi pratici, ma non risolvono la questione di fondo: rendere i modelli più “umani” implica scegliere con cura cosa sacrificare tra naturalezza e affidabilità. È un dibattito che resterà centrale man mano che queste tecnologie diventano parte della vita quotidiana.

Categorie IA

Dai il tuo feedback

Sii il primo a votare questo post
o lascia una recensione dettagliata



AmicoGeek è un media indipendente. Sostienici aggiungendoci ai preferiti di Google News:

Pubblica un commento

Pubblica un commento