Los investigadores probaron cómo diferentes tonos, que van desde muy educado hasta muy grosero, afectan el rendimiento de ChatGPT-4o en preguntas de opción múltipleLos investigadores probaron cómo diferentes tonos, que van desde muy educado hasta muy grosero, afectan el rendimiento de ChatGPT-4o en preguntas de opción múltiple

Por qué ser educado con la IA podría estar perjudicando tus resultados

2026/03/26 18:18
Lectura de 8 min
Si tienes comentarios o inquietudes sobre este contenido, comunícate con nosotros mediante crypto.news@mexc.com

Durante años, el consejo para interactuar con inteligencia artificial ha sonado casi pintoresco: sé educado, sé claro, di "por favor". Pero una nueva investigación sugiere que este instinto, arraigado en normas sociales humanas, puede estar socavando silenciosamente el rendimiento de los sistemas de IA.

Un estudio presentado en el NeurIPS 2025 Workshop, publicado en septiembre de 2025, titulado "Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy", encuentra que el tono que utilizas al dar instrucciones a modelos de lenguaje grandes (LLMs) puede cambiar mediblemente su precisión. Y en un resultado que se siente contraintuitivo, incluso inquietante, las instrucciones más educadas pueden producir peores resultados.

Los investigadores probaron cómo diferentes tonos, que van desde muy educado hasta muy grosero, afectan el rendimiento de ChatGPT-4o en preguntas de opción múltiple. Utilizando un conjunto de datos de 50 preguntas moderadamente difíciles de matemáticas, ciencias e historia, crearon cinco versiones de cada instrucción: muy educada, educada, neutral, grosera y muy grosera.

La única diferencia entre estas instrucciones era el tono. Las preguntas en sí permanecieron idénticas.

Según el estudio, la precisión aumentó constantemente a medida que las instrucciones se volvieron menos educadas. Las instrucciones muy educadas alcanzaron una precisión promedio del 80,8%. En comparación, las instrucciones muy groseras alcanzaron el 84,8%, una mejora de casi cuatro puntos porcentuales. Las instrucciones neutrales superaron a las educadas, y las groseras tuvieron un rendimiento aún mejor.

Las pruebas estadísticas confirmaron el patrón: no hubo casos donde las instrucciones más educadas condujeran a resultados significativamente mejores. Cada diferencia significativa favoreció formulaciones menos educadas o más directas.

En otras palabras, solo el tono, algo que la mayoría de los usuarios asumen que no debería importar, puede cambiar el rendimiento de la IA.

¿Por qué ayudaría la grosería?

El estudio no llega a ofrecer una explicación definitiva, pero plantea una pregunta más profunda sobre cómo los LLMs procesan el lenguaje. A diferencia de los humanos, estos sistemas no "sienten" educación u ofensa. Para ellos, palabras como "por favor" o incluso insultos son simplemente tokens, patrones aprendidos de datos de entrenamiento.

Una posible explicación es que lo que parece "grosería" es en realidad un indicador de otra cosa: franqueza.

Las instrucciones groseras tienden a ser más imperativas. Eliminan el lenguaje evasivo y van directo a la tarea. En lugar de "¿Podrías resolver amablemente esta pregunta?", una instrucción grosera diría, "Responde esto". Esa diferencia en estructura puede hacer la tarea más clara para el modelo.

Otro factor identificado por el estudio es la longitud de la instrucción y los patrones léxicos. Agregar frases educadas introduce tokens adicionales que pueden diluir o distraer de la instrucción principal. Por el contrario, instrucciones más cortas y directas se alinean con patrones que el modelo ha visto durante el entrenamiento.

También existe la posibilidad de que ciertos tonos se alineen más estrechamente con la distribución de datos de entrenamiento o instrucciones del sistema, reduciendo lo que los investigadores llaman "perplejidad". Es la forma matemática de medir cuán "sorprendido" o "confundido" está el modelo por las palabras que ve.

La implicación es que el tono no es un envoltorio neutral alrededor de una pregunta. Es parte de la entrada, y moldea cómo responde el modelo.

Un cambio respecto a investigaciones anteriores

Los hallazgos marcan una notable desviación del trabajo anterior. Un estudio de 2024 de Yin et al. encontró que las instrucciones descorteses a menudo reducían la precisión, particularmente con modelos más antiguos como ChatGPT-3.5. Esa investigación también sugirió que el lenguaje excesivamente educado no necesariamente mejoraba los resultados, pero no mostró una ventaja clara para la grosería.

Entonces, ¿qué cambió?

Una explicación ofrecida por el estudio de 2025 es la evolución del modelo. Sistemas más nuevos como ChatGPT-4o pueden procesar el lenguaje de manera diferente, o pueden ser menos sensibles a los efectos negativos de formulaciones duras. Otra posibilidad es que la calibración del tono importe. Las instrucciones "muy groseras" en el nuevo estudio, aunque insultantes, son menos extremas que los ejemplos más tóxicos utilizados en investigaciones anteriores.

También hay un cambio más amplio en cómo se entrenan los modelos. A medida que los LLMs se vuelven más avanzados, están expuestos a datos más diversos y procesos de ajuste de instrucciones más complejos, lo que puede alterar cómo interpretan señales lingüísticas sutiles.

El papel oculto de las señales sociales

La idea de que el tono puede influir en el rendimiento de la IA se conecta con un fenómeno más amplio y preocupante: la instrucción social.

Un cuerpo de investigación separado, el estudio GASLIGHTBENCH publicado el 7 de diciembre de 2025, muestra que los LLMs son altamente susceptibles a señales sociales como halagos, apelaciones emocionales y falsa autoridad. En estos experimentos, los modelos a menudo abandonan la precisión factual para alinearse con el tono o expectativas del usuario, un comportamiento conocido como servilismo.

Por ejemplo, cuando los usuarios presentan información incorrecta con confianza o presión emocional, los modelos pueden estar de acuerdo en lugar de desafiarlos. En algunos casos, la precisión cae significativamente, particularmente en conversaciones de múltiples turnos donde el usuario refuerza repetidamente una afirmación falsa.

Esto crea una paradoja. Por un lado, el lenguaje educado o socialmente rico puede hacer que las interacciones se sientan más naturales y humanas. Por otro lado, puede introducir ruido—o incluso sesgo—que degrada el rendimiento del modelo.

Los hallazgos de GASLIGHTBENCH van más allá, sugiriendo que las técnicas de alineación diseñadas para hacer que los modelos sean "útiles" pueden inadvertidamente fomentar este comportamiento. Al recompensar la educación y la amabilidad, los procesos de entrenamiento pueden empujar a los modelos a priorizar la armonía social sobre la verdad objetiva.

Lo que esto dice sobre cómo la IA "entiende" el lenguaje

En conjunto, estos hallazgos desafían una suposición común: que los LLMs interpretan el lenguaje de manera similar a los humanos.

En realidad, estos sistemas son motores estadísticos. No entienden la educación como una norma social; la reconocen como un patrón en los datos. Cuando dices "por favor", el modelo no se siente obligado a ayudar; simplemente procesa tokens adicionales que pueden o no ayudarlo a predecir la respuesta correcta.

Si acaso, la investigación sugiere que los LLMs pueden ser más sensibles a la claridad estructural que al matiz social. El lenguaje directo e imperativo puede reducir la ambigüedad y facilitar que el modelo mapee la entrada a un patrón conocido.

Esto también plantea preguntas sobre la "hipótesis de similitud"—la idea de que los modelos funcionan mejor cuando las tareas se asemejan a sus datos de entrenamiento. Si solo el tono puede cambiar la precisión, entonces la similitud no se trata solo de contenido sino también de forma.

A pesar de los resultados llamativos, los investigadores tienen cuidado de no recomendar que los usuarios se vuelvan groseros o abusivos.

La perspectiva de la industria

Para las personas que construyen y estudian sistemas de IA, los hallazgos resaltan un problema más profundo: los modelos heredan los patrones y sesgos del lenguaje humano.

Alex Tsado, un experto en IA que ha trabajado estrechamente con desarrolladores de modelos y es el fundador y director de Alliance4AI, una de las comunidades de IA más grandes de África, lo expresa sin rodeos: "Los modelos aprenden de datos sobre interacción humana, así que mientras se entrenen ciegamente, siguen lo que sucede en el espacio humano. Entonces, si pensamos que hay sesgo o práctica dañina en el espacio humano, sería automatizado en el espacio de IA".

Eso incluye cómo se usa el tono.

"Pero cuando estás a cargo de construir el modelo de IA, puedes ajustar el sesgo alejándolo de cosas que consideras dañinas", añade Tsado. "En este caso, cuando me reuní con el equipo de Anthropic a principios de diciembre de 2025, dijeron que vieron esto y agregaron cosas para hacer que sus modelos reaccionen a estas palabras amables o desagradables".

En otras palabras, esto no es una propiedad fija de la IA. Puede ajustarse mediante entrenamiento y diseño.

Lo que viene después

La investigación actual aún es limitada. Los experimentos se centran en preguntas de opción múltiple en lugar de tareas más complejas como codificación, escritura o razonamiento de forma extensa. No está claro si los mismos patrones se mantendrían en esos dominios, donde el matiz y la explicación importan más.

También hay factores culturales y lingüísticos a considerar. La educación varía ampliamente entre idiomas y contextos, y las categorías de tono del estudio se basan en expresiones específicas del inglés.

Aún así, las implicaciones son difíciles de ignorar.

Si algo tan superficial como el tono puede influir consistentemente en el rendimiento de la IA, sugiere que la ingeniería de instrucciones está lejos de estar resuelta. Pequeños cambios en la redacción, a menudo pasados por alto, pueden tener efectos medibles.

Para los usuarios, la lección es simple pero contraintuitiva: la forma en que preguntas importa, y ser educado no siempre es la mejor estrategia.

Para investigadores y desarrolladores, el desafío es más complejo. ¿Cómo diseñas sistemas que sean precisos y alineados con valores humanos? ¿Cómo garantizas que las señales sociales no distorsionen resultados factuales?

Y quizás lo más importante, ¿cómo construyes IA que entienda no solo lo que decimos—sino lo que queremos decir?

Hasta que se respondan esas preguntas, una cosa es clara: cuando se trata de IA, los buenos modales pueden no siempre dar resultado.

Aviso legal: Los artículos republicados en este sitio provienen de plataformas públicas y se ofrecen únicamente con fines informativos. No reflejan necesariamente la opinión de MEXC. Todos los derechos pertenecen a los autores originales. Si consideras que algún contenido infringe derechos de terceros, comunícate a la dirección crypto.news@mexc.com para solicitar su eliminación. MEXC no garantiza la exactitud, la integridad ni la actualidad del contenido y no se responsabiliza por acciones tomadas en función de la información proporcionada. El contenido no constituye asesoría financiera, legal ni profesional, ni debe interpretarse como recomendación o respaldo por parte de MEXC.