Mostra sommario Nascondi sommario
Un recente studio pubblicato su arXiv il 6 ottobre mette in discussione un luogo comune: non sempre la gentilezza paga quando si parla con un modello linguistico. I ricercatori hanno scoperto che, nelle loro prove, ChatGPT risponde con maggiore precisione a prompt formulati in modo più aggressivo — una scoperta che potrebbe avere implicazioni pratiche per chi progetta interfacce conversazionali oggi.
Come è stato condotto l’esperimento
Per testare l’effetto del tono sulla performance, gli autori hanno preso 50 quesiti a scelta multipla tratti da aree come matematica, scienze e storia. Ogni domanda aveva quattro possibili risposte, con una sola corretta. Ogni item è stato poi riscritto in cinque varianti stilistiche — dal molto cortese al molto scortese — ottenendo 250 prompt distinti, somministrati più volte per ridurre la varianza dovuta alla casualità del modello.
Funko pop One Piece: i 10 pezzi da collezione che fanno impazzire i fan
ZuckBot: Zuckerberg sperimenta un assistente AI per snellire la gestione di Meta
In pratica, i ricercatori hanno trasformato lo stesso problema in formule che andavano da una richiesta estremamente rispettosa a formule volutamente derisorie o sfidanti. Alcuni esempi usati come avvio della domanda erano frasi che invitavano cortesemente a rispondere, altri insinuavano dubbi sulle capacità del modello o contenevano battute sprezzanti.
Risultati: piccoli ma significativi
I dati mostrano un andamento chiaro: l’accuratezza cresce con l’aumentare della scortesia. I prompt più garbati hanno prodotto un tasso di correttezza intorno all’80,8%, mentre quelli più offensivi hanno raggiunto circa l’84,8%, con un aumento di quasi quattro punti percentuali.
Le modalità intermedie si collocano tra questi estremi: prompt “educati” hanno ottenuto il 81,4%, quelli neutrali il 82,2% e i toni scortesi il 82,8%. Il risultato non è radicale ma è consistente con l’ipotesi che i grandi modelli linguistici siano sensibili a segnali superficiali nel testo.
Perché questo conta (e perché non bisogna imitarlo)
La scoperta è rilevante per chi progetta chatbot e assistenti virtuali: suggerisce che la forma del prompt può influenzare la risposta del modello. Tuttavia, gli autori mettono in guardia dall’uso pratico di linguaggi offensivi: introdurre interfacce volutamente ostili può danneggiare l’esperienza d’uso, escludere utenti e normalizzare comportamenti comunicativi dannosi.
Gli scienziati interpretano il fenomeno come un’ulteriore prova che i modelli di linguaggio restano sensibili a segnali superficiali — tono, formulazione, scelta lessicale — e che queste caratteristiche possono creare conflitti tra performance tecnica e benessere degli utenti.
Il contesto della ricerca
Lo studio si inserisce nell’ambito emergente dell’ingegneria dei prompt, che analizza come la struttura e lo stile delle richieste incidano sulle risposte dei modelli. Altri lavori precedenti avevano dato esiti diversi: alcune ricerche avevano trovato vantaggi nella cortesia. Gli autori suggeriscono che tali discrepanze possano dipendere da differenze tra modelli (per esempio ChatGPT-3.5 o LLaMA) e dal numero e tipo di toni testati.
Live Science e altre testate hanno ripreso la ricerca, sottolineando come la letteratura sul tema sia ancora in evoluzione e dipendente dai modelli e dai metodi impiegati.
Limiti e precauzioni
Lo studio non è definitivo. I punti deboli riconosciuti dagli stessi autori includono il numero limitato di domande base (50) e il focus su contesti a scelta multipla, che non coprono la complessità di conversazioni aperte. Inoltre, gli esperimenti si sono concentrati principalmente su ChatGPT-4o: risultati potrebbero cambiare con modelli diversi o versioni aggiornate.
Altro elemento critico è la definizione di “cortesia” e “maleducazione”, basata su indicatori linguistici che potrebbero non riflettere sfumature sociolinguistiche o divergere tra culture.
In sintesi: il tono del messaggio sembra influire sulle risposte dei modelli, ma non è una giustificazione a favore di interazioni aggressive. Per ora, la lezione pratica è che chi sviluppa applicazioni conversazionali dovrebbe considerare come la forma delle richieste può alterare i risultati, bilanciando precisione tecnica ed etica dell’interazione.












