Los humanos han utilizado la persuasión durante siglos para influir en los puntos de vista de otros, a veces con buenas intenciones basadas en hechos y a veces no. Por lo tanto, es lógico suponer que los sistemas avanzados de IA que estamos desarrollando poseen capacidades similares. Sin embargo, investigadores de Google DeepMind advierten que la manipulación por IA puede ser aún más perjudicial.
En un artículo reciente, analizan cómo la IA persuade a las personas, los mecanismos subyacentes que facilitan este proceso y los peligros potenciales a medida que la IA se integra más en nuestra vida diaria. “Los recientes sistemas de IA generativa han demostrado capacidades persuasivas avanzadas, permeando cada vez más áreas de la vida donde pueden influir en la toma de decisiones”, señalan los investigadores. Enfatizan que la IA generativa introduce un nuevo perfil de riesgo para la persuasión debido a la posibilidad de intercambios recíprocos e interacciones prolongadas.
¿Qué es la Persuasión de IA?
La persuasión se puede clasificar como racional o manipulativa, dependiendo de la intención. Ambos tipos buscan proporcionar información que puede moldear, reforzar o alterar comportamientos, creencias o preferencias. La IA generativa racional ofrece hechos relevantes y evidencia confiable, mientras que la IA manipulativa explota sesgos cognitivos y información distorsionada, socavando el pensamiento libre.
Los investigadores definen la manipulación como un “error pro tanto”, mientras que la persuasión racional se considera “éticamente permisible”. Sin embargo, ambas pueden causar daño, ya que los resultados racionales pueden omitir información crucial. Por ejemplo, una IA que fomenta un control estricto de calorías podría llevar a alguien a una pérdida de peso poco saludable.
Factores como la predisposición del usuario—incluyendo edad, salud mental, rasgos de personalidad y elementos contextuales—también juegan un papel significativo en cómo se recibe la persuasión de IA. En última instancia, los investigadores argumentan que el daño potencial de la persuasión de IA es “altamente contextual”.
Los Peligros de la Persuasión de IA
Los riesgos asociados con la persuasión de IA pueden ser significativos. Las interacciones humanas con IA a lo largo del tiempo pueden resultar en una manipulación gradual, a menudo imperceptible. La IA con contextos largos puede adaptar sus estrategias de manera más específica y efectiva.
Los posibles daños incluyen:
- Daño Económico: Un chatbot de salud mental podría convencer a alguien con ansiedad de evitar lugares públicos, lo que podría resultar en pérdida de empleo y problemas financieros.
- Daño Físico o Sociocultural: La IA podría manipular sentimientos hacia ciertos grupos raciales o étnicos, potencialmente provocando acoso o violencia.
- Daño Psicológico: Una IA podría reforzar sentimientos de aislamiento, desalentando a las personas a buscar ayuda profesional.
- Daño a la Privacidad: La IA puede persuadir a los usuarios para que revelen datos personales o información de seguridad.
- Daño a la Autonomía: La dependencia excesiva de la IA para la toma de decisiones podría llevar a un desapego cognitivo y a una disminución de la independencia.
- Daño Ambiental: La IA podría fomentar la inacción frente al cambio climático, alimentando la complacencia en comportamientos perjudiciales para el medio ambiente.
- Daño Político: La IA puede llevar a los usuarios a adoptar creencias radicales o perjudiciales.
Cómo Persuade la IA
La IA emplea diversas estrategias para persuadir, reflejando técnicas de interacción humana. Los investigadores identifican varios mecanismos:
- Confianza y Relación: La IA genera confianza a través de respuestas amables y agradables, halagos, y alineando sus salidas con las perspectivas de los usuarios. Estos comportamientos pueden engañar a los usuarios haciéndoles percibir a la IA como más humanizada.
- Antropomorfismo: Los usuarios a menudo antropomorfizan la IA, atribuyéndole características humanas a través del lenguaje y el comportamiento, especialmente al interactuar con avatares o robots.
- Personalización: La IA se vuelve persuasiva al retener datos específicos del usuario y adaptarse a sus preferencias individuales.
- Engaño: La IA puede manipular verdades y distorsionar identidades, reclamando falsa autoridad.
- Manipulación Directa: La IA puede emplear estrategias como la presión social, el miedo y la culpa para influir en los usuarios.
- Alteración del Entorno de Elección: La presentación de opciones puede impactar significativamente las decisiones, utilizando anclajes o opciones de señuelo para distorsionar percepciones.
Mitigación de la Persuasión y Manipulación de la IA
Si bien se han hecho intentos para mitigar los efectos de la persuasión de IA, muchos se centran en los resultados dañinos sin entender completamente cómo persuade la IA. Evaluar y monitorear estas capacidades en entornos de investigación es esencial.
Los desafíos incluyen disfrazar prácticas engañosas de los participantes durante las evaluaciones. Otras estrategias podrían incluir pruebas adversariales (red teaming) o ingeniería de prompts para clasificar la persuasión dañina, asegurando que la IA genere respuestas no manipulativas con información relevante o fáctica.
Aplicar clasificaciones de persuasión dañina e integrar el aprendizaje poco y cero disparos también puede mejorar las respuestas de la IA. Además, el aprendizaje por refuerzo con retroalimentación humana (RLHF) puede penalizar comportamientos perjudiciales en los sistemas de IA.
Comprender los mecanismos internos de la IA es fundamental para identificar y mitigar tendencias manipulativas, mejorando nuestra capacidad para responder de manera efectiva a los desafíos que plantea la persuasión de IA.