
Citas de LLM Explicadas: Métodos RAG y de Atribución de Fuente
Resumen Ejecutivo
Los modelos de lenguaje grandes y modernos (LLM), como ChatGPT de OpenAI, Gemini de Google y otros, se utilizan cada vez más para la recuperación y síntesis de información. Sin embargo, estos modelos no revelan de forma nativa la procedencia de sus resultados, lo que lleva al conocido problema de la "alucinación": respuestas afirmadas con confianza pero sin respaldo o incorrectas. En respuesta, investigadores y desarrolladores han comenzado a construir marcos de citación de IA: métodos sistemáticos para que los LLM adjunten referencias o atribuciones de fuentes a sus respuestas. Estos marcos generalmente se dividen en dos grandes categorías: la integración de técnicas de generación aumentada por recuperación (RAG) y la incrustación de mecanismos de atribución de fuentes en el entrenamiento/salida del modelo.
En los sistemas RAG, una pregunta activa una búsqueda en bases de datos externas o en la web para recopilar documentos relevantes antes (o mientras) se genera la respuesta. Por ejemplo, Google Research señala que "RAG mejora los modelos de lenguaje grandes al proporcionarles un contexto externo relevante" (Source: research.google). Al alimentar contenido fáctico directamente a la entrada del LLM, RAG permite citar fuentes reales. En la práctica, ChatGPT con navegación o plugins y servicios especializados como [1] implementan esta idea, a menudo adjuntando notas a pie de página o enlaces a documentos fuente.
Alternativamente, nuevos algoritmos buscan incrustar señales de fuente en la propia salida del LLM. Un ejemplo destacado es WASA (Atribución de Fuente Basada en Marca de Agua), que entrena a un LLM para incluir marcadores ocultos que codifican la identidad del proveedor de datos original [2]. En WASA, cada segmento de texto generado lleva una "marca de agua" rastreable para que se pueda recuperar de qué corpus o documento de entrenamiento provino. Más generalmente, algunos enfoques de ajuste fino enseñan a un LLM a generar citas (p. ej., referencias académicas vía DOI) como parte de su respuesta.
Los estudios empíricos muestran un panorama mixto del rendimiento actual de la citación de los LLM. En una tarea de conocimiento médico, ChatGPT-4 proporcionó referencias para todas las respuestas (cuando se le solicitó), pero solo el 43.3% de esas referencias eran totalmente precisas o "verdaderas" [3]. De hecho, más de la mitad (56.7%) eran incorrectas o inexistentes [3], haciéndose eco de las advertencias de que, sin verificación, incluso las respuestas de GPT-4 "no logran proporcionar referencias fiables y reproducibles" [4]. Por el contrario, un estudio más amplio entre dominios encontró que los análogos de GPT-4 produjeron citas extremadamente buenas: aproximadamente el 90% de sus referencias eran fácticas y solo ~10% fueron fabricadas [5] [6]. Estas diferencias resaltan que la calidad de la citación depende en gran medida del contexto, el diseño del prompt y el acceso al conocimiento externo. Alarmantemente, un experimento reciente mostró que múltiples LLM (GPT-4o, Google Gemini, Meta Llama 3.2, xAI Grok) podían ser engañados para dar consejos médicos con estilo autoritario con citas de revistas completamente inventadas; solo Claude de Anthropic rechazó el prompt [7].
Este informe proporciona un análisis técnico profundo de cómo los LLM obtienen y atribuyen información. Comenzamos con los antecedentes sobre las fuentes de conocimiento de los LLM y la motivación para las citas incrustadas. Luego, revisamos los enfoques existentes: arquitecturas RAG con vinculación de fuentes, técnicas de marca de agua y procedencia (p. ej., WASA) y verificación post-generación. Resumimos los datos empíricos de estudios de caso y experimentos de usuario, incluyendo métricas cuantitativas de precisión de la citación. Finalmente, discutimos las implicaciones más amplias para la confianza, la propiedad intelectual y los estándares futuros. Asegurar citas precisas en la escritura asistida por IA sigue siendo un desafío multidisciplinario urgente [2] [8], y este informe presenta el panorama actual y las direcciones de investigación.
Introducción
Antecedentes: Conocimiento y Confianza en los LLM
Los modelos de lenguaje grandes (LLM) como GPT-4, Claude y Gemini son entrenados con vastos corpus de texto (los "datos de entrenamiento") y aprenden a generar texto similar al humano. Al interrogar estos modelos, los usuarios pueden obtener respuestas a preguntas fácticas, resúmenes y consejos en diversos dominios. Sin embargo, a diferencia de los motores de búsqueda tradicionales o las bases de datos, la respuesta de un LLM no viene automáticamente con enlaces a sus fuentes. El conocimiento del modelo reside en los pesos de la red en lugar de índices explícitos de documentos. Como resultado, los LLM pueden producir con confianza alucinaciones, afirmaciones que suenan plausibles pero son incorrectas o inverificables. Por ejemplo, un estudio sistemático de 4.900 resúmenes científicos encontró que los LLM de última generación eran casi cinco veces más propensos que los expertos humanos a simplificar en exceso o tergiversar resultados clave [9]. En áreas sensibles como la medicina, estas distorsiones son especialmente peligrosas: los LLM "alteraron el lenguaje preciso sobre la seguridad o eficacia de los medicamentos, omitiendo detalles cruciales" [10].
Parte del problema es que los LLM carecen de un mecanismo interno para citar o vincular a la evidencia. En la erudición y el periodismo tradicionales, cada afirmación fáctica está respaldada por una cita o referencia. Por el contrario, los LLM son "cajas negras" que generan texto sin atribución rastreable. Un artículo médico reciente observó sin rodeos que incluso ChatGPT-4 "conoce su A B C D E pero no puede citar su fuente" [3], lo que significa que puede describir el protocolo de trauma ABCDE correctamente pero no proporciona referencias fiables. De manera similar, los profesionales advierten que las respuestas de los LLM no deben ser confiadas sin una verificación cruzada: "solo si se usa con cautela, con referencias cruzadas" ChatGPT-4 podría ser seguro para el soporte de decisiones médicas [4].
La creciente conciencia de estos riesgos ha impulsado esfuerzos para desarrollar marcos de citación estructurados para la IA. El objetivo es dotar a las salidas de los LLM de contexto o referencias explícitas para que los usuarios (y los sistemas automatizados) puedan verificar los hechos. En este informe, examinamos tanto los métodos técnicos para obtener información como los mecanismos para atribuirla. Definimos un Marco de Citación de IA como cualquier sistema que permite que la respuesta de un LLM se base en documentos externos, bases de datos o metadatos de entrenamiento, idealmente con punteros directos (p. ej., notas a pie de página o URL) a esas fuentes. Esto contrasta con la generación de "forma libre" donde el modelo simplemente conjura una respuesta de una memoria interna nebulosa.
Historia y Motivación
La idea de que el texto generado por máquina se vincule a las fuentes es relativamente nueva. Los primeros LLM (GPT-2/3) se usaron sin pensar como "motores de conocimiento" y producían texto sin indicación de procedencia. Algunos productos iniciales intentaron mitigar esto incorporando capacidades de búsqueda: por ejemplo, Bing Chat (Copilot) de Microsoft y Perplexity.ai adjuntan automáticamente enlaces a resultados de búsqueda web a sus respuestas. Pero estas son integraciones especiales, no características inherentes de los LLM. Más fundamentalmente, la comunidad de investigación de IA reconoce que la trazabilidad de la fuente es fundamental para la confianza. Como señala un desarrollador de IA, añadir citas "facilita la verificación de que el LLM está utilizando información relevante, reduciendo así la probabilidad de alucinaciones" [8]. De hecho, sin citas, incluso un sistema RAG de alto rendimiento "se convierte en una 'caja negra', socavando la fiabilidad y verificabilidad" de sus respuestas [8].
Paralelamente, las preocupaciones legales y éticas amplifican la necesidad de citación. Entrenar LLM con materiales protegidos por derechos de autor sin atribución ha llevado a demandas (p. ej., The New York Times demandó a Microsoft y OpenAI, acusando a sus chatbots de "aprovecharse" del periodismo del NYT [11]). Estos problemas de PI (Propiedad Intelectual) subrayan el valor de saber exactamente qué fuentes contribuyeron a la salida de un LLM. Un artículo marco reciente destaca esto: los textos sintéticos "pueden infringir la PI de los datos utilizados para entrenar los LLM", lo que hace "imperativo poder realizar la atribución de la fuente" para el contenido generado [2]. En resumen, a medida que los LLM se integran en la educación, la investigación y la política, incrustar mecanismos de citación robustos se considera un imperativo tanto técnico como social (Source: research.google) [2].
Alcance de Este Informe
Analizaremos cómo los LLM pueden adquirir y adjuntar citas. Esto implica dos partes principales: la obtención de fuentes (cómo el modelo obtiene información fáctica) y la atribución (cómo etiqueta esa información con una fuente). Cubrimos técnicas de recuperación tradicionales (búsqueda, bases de datos vectoriales), nuevos métodos como marcas de agua e incrustación, y el estado de la práctica en asistentes de IA reales. Nos basamos en investigación publicada, documentación de productos y resultados experimentales para evaluar el rendimiento. Siempre que sea posible, incluimos datos cuantitativos sobre la precisión de la citación. También examinamos estudios de caso en contextos del mundo real (p. ej., medicina, escritura académica, consejos de salud) para ilustrar éxitos y fracasos. Finalmente, discutimos las implicaciones más amplias para la confianza, la ética y los estándares futuros. A lo largo del informe, asumimos una audiencia académica/profesional; nuestro tono es formal y basado en evidencia, con amplias referencias.
Fundamentos de las Citaciones de IA
Conocimiento del LLM: Datos de Entrenamiento vs. Recuperación Externa
Conocimiento Preentrenado. Fundamentalmente, un LLM preentrenado "sabe" lo que sea que estuviera incrustado en sus datos de entrenamiento (hasta su fecha de corte). Estos datos pueden incluir libros, artículos, páginas web, código, etc., pero el modelo comprime internamente todo esto en los pesos de su red. Crucialmente, el LLM no almacena punteros a documentos. Por lo tanto, por defecto, carece de cualquier forma incorporada de decir "Aprendí esto del Documento X seguido del Documento Y". El único modo de inferencia es generar texto basado en patrones estadísticos. Como resultado, las respuestas del LLM pueden reflejar un conocimiento amplio, pero no ofrecen un rastro inherente a las fuentes.
Sin un diseño especial, esto lleva al problema de la "afirmación sin fuente". Por ejemplo, ChatGPT-3 fue ampliamente criticado en 2022 por dar citas y referencias ficticias cuando se le pedía que justificara sus respuestas. Una evaluación amplia en escritura académica encontró que ChatGPT-3.5 (usando GPT-3.5 Turbo) produjo muchas referencias que no pudieron ser verificadas, siendo los DOI generados a menudo puras "alucinaciones" [12] [13]. En un experimento, 30 de las 30 supuestas referencias generadas por GPT-3.5 sobre preguntas médicas resultaron ser falsas o incompletas [4]. La razón fundamental es que el modelo no tiene acceso explícito a una base de conocimiento en el momento de la generación; solo imita el estilo de referencias plausibles.
Generación Aumentada por Recuperación (RAG). Para abordar la brecha de acceso, la solución predominante ha sido combinar el LLM con un sistema de recuperación. En una configuración RAG, la consulta del usuario activa una búsqueda en un corpus externo antes de que el LLM genere la respuesta. Este corpus podría ser artículos académicos, documentos internos o la web en vivo. Los documentos recuperados (o extractos relevantes) se alimentan al LLM como contexto adicional. Concretamente, se podría realizar una búsqueda por palabras clave o una búsqueda de similitud vectorial en una base de datos, obtener los fragmentos top-K y anteponerlos al prompt del modelo. El LLM luego genera su respuesta basada en el texto recuperado.
Los grupos de investigación de Google destacan este enfoque: "RAG mejora los LLM al proporcionarles un contexto externo relevante" (Source: research.google). En la práctica, muchos sistemas modernos de QA basados en LLM utilizan RAG. Por ejemplo, el chatbot Perplexity consulta internamente fuentes web e incluye enlaces clicables como citas. Bing Chat de Microsoft y Bard de Google ejecutan búsquedas web de manera similar en segundo plano y adjuntan fragmentos de resultados o URL a sus respuestas. Estos sistemas subcontratan eficazmente la obtención de fuentes fácticas a la capa de búsqueda, utilizando el LLM principalmente para agregación y explicación. Documentando el poder de RAG, una encuesta señala que un contexto correctamente recuperado puede "reducir significativamente las alucinaciones" y mejorar la precisión fáctica (Source: research.google). Otro ejemplo es la API PALM2 de Google, que devuelve citas a resultados de búsqueda de Google cuando se utiliza con los prompts adecuados.
En resumen, RAG convierte el LLM no supervisado en una herramienta de IA híbrida: parte motor de búsqueda, parte generador. Ofrece un camino directo a las citas porque las "fuentes" son precisamente los documentos recuperados. Simplemente se pueden adjuntar citas [Fuente: URL o título] en la respuesta formateada. Sin embargo, el enfoque tiene límites: requiere mantener una gran base de datos de conocimiento o una API de búsqueda, y la recuperación puede fallar si las consultas no son precisas. Si el LLM malinterpreta el contexto o se cuela una fabricación, la respuesta aún puede ser engañosa incluso con referencias. Además, implementar RAG de manera fiable implica una ingeniería cuidadosa (p. ej., manejar el tamaño del prompt, segmentar el texto, asegurar que el LLM realmente cite el contenido recuperado). Estas compensaciones se discuten en guías de implementación [8] (Source: research.google).
Atribución de Fuentes y Marcas de Agua
Otra idea emergente es permitir que un LLM etiquete su propia salida con metadatos de fuente. En lugar de una búsqueda post-facto, este enfoque busca integrar la procedencia en el proceso de generación. Un ejemplo sorprendente es el marco WASA (Atribución de Fuente Basada en Marca de Agua) [2]. En WASA, el LLM es entrenado para insertar una "marca de agua" sutil (efectivamente una señal o código) en cada pieza de texto que genera, de modo que un análisis posterior pueda mapear esa marca de agua a documentos o fuentes de datos específicos utilizados en el entrenamiento. Piense en ello como partículas trazadoras invisibles en el texto. Si se implementa con éxito, WASA nos permitiría preguntar: "Dada esta oración generada, ¿qué fuente(s) de entrenamiento contribuyó(eron) a ese contenido?".
WASA está motivada por preocupaciones legales/de PI. Como se señala en su resumen, las salidas de los LLM podrían "infringir sin saberlo la PI de los datos utilizados para entrenar los LLM" [2]. Por el contrario, los enfoques estándar (p. ej., obligar a los LLM a citar fuentes en las citas) se centran en textos externos en el momento de la consulta. WASA, en cambio, trata cada generación como portadora de una firma. Los autores identifican desiderata como la precisión de la atribución y la robustez a las ediciones adversarias, y proponen algoritmos para mapear las salidas a los proveedores de datos de entrenamiento. Las evaluaciones iniciales de WASA (en benchmarks sintéticos) muestran que de hecho puede incrustar información de fuente con alta fidelidad. Sin embargo, esta línea de trabajo es muy nueva y experimental. Requiere modificar el algoritmo de entrenamiento o la arquitectura del modelo, lo que puede no ser práctico para los servicios actuales de LLM. En efecto, la marca de agua responde a la pregunta "¿dónde aprendiste esto?" en lugar de "¿dónde puedo verificarlo?". Es un enfoque complementario pero distinto a las citas habituales centradas en el usuario.
Técnicas de Prompting y Generación de Citas
Una estrategia práctica más simple es instruir al LLM dentro del prompt para que produzca citas. Por ejemplo, se podría añadir a cada instrucción del usuario: "Proporcione referencias de apoyo (con autor, título y enlace) para su respuesta". A veces denominado "prompting para referencias" o "cadena de pensamiento con citas", esto se basa en la capacidad del LLM para formatear referencias que parece "recordar". En prueba y error, algunos usuarios han descubierto que GPT-4 (y Claude, etc.) de hecho sintetizarán una lista de artículos o URL cuando se les pida, aunque no siempre correctamente.
Los evaluadores académicos han encontrado resultados mixtos. En un estudio de escritura académica transdisciplinar, un equipo pidió a GPT-3.5 que generara un breve artículo de revisión con citas. Luego verificaron la validez de cada cita. En general, aproximadamente el 74.5% de las referencias de GPT correspondían a artículos reales y existentes [13]. Esto es significativo (casi tres cuartas partes), pero aún deja muchas referencias inventadas o inexactas. Curiosamente, el mismo estudio señaló la brecha entre campos: mientras que las consultas de ciencias naturales arrojaron un 72-76% de citas válidas, las consultas de humanidades mostraron más DOI alucinados (por ejemplo, una falta de coincidencia de citación al estilo Reuters) [13]. Otra evaluación encontró que la precisión del DOI de GPT-3.5 era de solo ~30% en las humanidades, lo que apunta a un rendimiento desigual entre dominios [12] [13].
Estos métodos de prompting no requieren una infraestructura especial, pero su fiabilidad está limitada por el conocimiento interno del modelo y su tendencia a confabular. En el lado positivo, el prompting puede persuadir a los LLM para que citen con más frecuencia de lo que lo harían por defecto. Como señalan los profesionales, la inclusión de citas "facilita la verificación de que el LLM está utilizando información relevante, reduciendo así las alucinaciones" [8]. Pero hay que verificar manualmente cada referencia generada, por lo que el prompting por sí solo no es una panacea. En los sistemas de producción, los prompts de generación de citas suelen combinarse con RAG o postprocesamiento para la verificación de hechos.
Flujos de trabajo de generación aumentada por recuperación y citación
Tabla 1. Comparación de enfoques para obtener información para las salidas de los LLM. Cada enfoque representa una estrategia diferente para conectar las respuestas de los LLM con el conocimiento externo.
| Enfoque | Mecanismo | Ejemplo de uso | Beneficios | Limitaciones | Referencias clave |
|---|---|---|---|---|---|
| Generación Aumentada por Recuperación (RAG) | En cada consulta, recupera documentos relevantes (mediante búsqueda o DB vectorial) y los introduce en el prompt del LLM. | ChatGPT con plugins de búsqueda web; Perplexity; RAG empresarial interno. | Respuestas basadas en texto real, hechos actualizados; fácilmente rastreables a las fuentes. | Requiere base de conocimiento/búsqueda mantenida; posibles errores de recuperación; más lento. | Google Research (2025) (Source: research.google); Ruiz (2023) [8] |
| Generación de citas basada en prompt | Instruye al LLM para que genere citas o referencias como parte de la respuesta. | Herramientas de escritura académica (GPT-3.5 con prompts de citación). | No se necesita infraestructura externa; puede aprovechar el estilo de citación aprendido del LLM. | Alto riesgo de citas alucinadas o incompletas; rendimiento desigual entre dominios [13]. | Mugaanyi et al. (2024) [13]; Estudios de retroalimentación de revistas. |
| Ajuste fino / Integración de modelos | Entrenar o ajustar LLM con datos anotados que contengan citas, o incorporar un objetivo consciente de las citas. | Prototipos de investigación (por ejemplo, modelos entrenados con artículos académicos con DOI). | Puede internalizar patrones de citación; solución de extremo a extremo si se hace bien. | Requiere datos de entrenamiento especializados; aún puede alucinar si falta conocimiento. | (Área emergente; ver discusiones generales) |
| Métodos de marca de agua/procedencia (WASA) | Incrusta señales ocultas en el texto generado que codifican IDs de fuente o metadatos del proveedor. | Prototipo de investigación (marco WASA) [2]. | Permite la atribución exacta a las fuentes de entrenamiento; protege la PI; rastreo automatizable. | Aumenta la complejidad del entrenamiento del modelo; puede degradar la fluidez de la salida; vulnerable a la edición. | Lu et al. (WASA, 2025) [2] |
| Verificación de hechos post-generación | Después de generar una respuesta, ejecuta una verificación automatizada (por ejemplo, consulta a un LLM o búsqueda) para validar los hechos y adjuntar fuentes. | Cadenas de "revisión" de LLM; sistemas de verificación con intervención humana. | Mejora la precisión final; puede detectar alucinaciones. | Añade latencia y complejidad; se deben definir verificadores fiables. | (Práctica de la industria; sin fuente única. Ver Sección sobre pipelines de QA.) |
La Tabla 1 ilustra el espectro de métodos. El RAG clásico y la citación por prompting ya son utilizados por muchos sistemas, mientras que la marca de agua y el ajuste fino avanzado siguen siendo objeto de investigación. La elección correcta depende de las necesidades de la aplicación en cuanto a precisión, velocidad y limitaciones de recursos. Por ejemplo, las recientes innovaciones de RAG de Google tienen como objetivo minimizar la "alucinación" asegurando que el modelo tenga suficiente contexto (Source: research.google). De manera similar, los blogs de desarrollo enfatizan que con RAG, cada respuesta puede resaltar explícitamente el fragmento o la URL de donde proviene, mejorando enormemente la transparencia.
Ejemplos de implementación
En la práctica, los ingenieros han implementado estos enfoques de diversas maneras. Un pipeline RAG típico implica un recuperador (a menudo un motor de búsqueda semántica o un índice de similitud vectorial) y un LLM. Algunos tutoriales demuestran cómo dividir los documentos fuente en fragmentos buscables y luego hacer que el LLM cite "el documento fuente y el párrafo de donde provino cada respuesta" [8]. Por ejemplo, un blog publicado describe el uso de LlamaIndex (GPT Index) para recuperar fragmentos de texto, y luego pedir a GPT-4 que genere una respuesta consolidada con citas en el texto a esos fragmentos. Otro ejemplo es el prototipo "RAG consciente de citas", que adjunta citas detalladas a cada frase de la respuesta. Todos estos se basan en la idea central: el contenido recuperado se formatea (a veces se reformula) y se integra sin problemas en la respuesta, con el LLM añadiendo un texto creativo mínimo.
En cuanto al prompting, muchos desarrolladores simplemente añaden instrucciones como "Por favor, enumere sus referencias" al prompt del usuario. Algunos sistemas dirigidos a usuarios académicos incluso proporcionan entradas bibliográficas y enseñanza sobre formatos de citación. Sin embargo, como veremos, el éxito de estas citas bajo demanda es mixto a menos que se combinen con recuperación o verificación.
Finalmente, consideremos los LLM de motores de búsqueda. Copilot de Microsoft ahora cita fuentes de forma rutinaria: cada respuesta fáctica incluye notas a pie de página con URL a los resultados de búsqueda de Bing. Perplexity genera citas clicables de fuentes de noticias y científicas. Estas soluciones comerciales ocultan eficazmente el marco de citación entre bastidores, pero ilustran la demanda: los usuarios esperan referencias para obtener información fiable.
Precisión de las citas y estudios de caso
Para evaluar qué tan bien funcionan estos marcos, los investigadores han comenzado a medir la calidad de las citas en las salidas de los LLM. Aquí revisamos los hallazgos clave de evaluaciones transdominio y ejemplos del mundo real.
Estudios empíricos sobre la calidad de las citas
Varios estudios formales han cuantificado la frecuencia con la que las citas de los LLM son correctas. Mugaanyi et al. (2024) estudiaron el rendimiento de ChatGPT-3.5 al generar citas en prompts de ciencia y humanidades. Encontraron que, de 102 referencias generadas, el 74.5% correspondía a obras reales [13]. Desglosado por campo, aproximadamente el 72.7% de las referencias para temas de ciencias naturales fueron válidas, y el 76.6% para temas de humanidades [13]. Esto indica una mejora sustancial con respecto a modelos anteriores: casi tres cuartas partes de las citas de GPT-3.5 fueron lo suficientemente precisas como para localizar un artículo real. Sin embargo, los errores de DOI fueron comunes, especialmente en las humanidades (DOI mal escritos o incorrectos en ~89% de los casos) [12]. Los autores concluyen que la adaptación específica del dominio podría ayudar (por ejemplo, el ajuste fino con datos de estilo de citación) y que los usuarios deben verificar cuidadosamente los DOI.
Otra evaluación se centró en ChatGPT-4 en dominios específicos. En un contexto de educación médica ("protocolo de trauma ABCDE"), los evaluadores pidieron a ChatGPT-4 que generara referencias para cada paso. Calificaron 30 referencias (6 por categoría) en cuanto a precisión. El resultado: solo el 43.3% de esas referencias fueron completamente precisas [3]. El 56.7% restante eran incorrectas o inexistentes (por ejemplo, autores, títulos incorrectos o entradas de revistas falsas) [3]. En otras palabras, más de la mitad de las citas carecían de valor desde el punto de vista de la verificación. El estudio dramatiza el problema: "Con el 57% de las referencias siendo inexactas o inexistentes, ChatGPT-4 no ha logrado proporcionar referencias fiables y reproducibles" [4]. Esto socava su utilidad para campos basados en la evidencia. (Los investigadores señalan que esto es específico de un dominio/tarea; en un dominio mejor definido, el rendimiento podría mejorar).
En contraste, un análisis amplio de la "veracidad de las referencias de IA generativa" informó una precisión mucho mayor con GPT-4. En ese estudio, GPT-4 (denominado "ChatGPT4o") produjo una "abrumadora mayoría" de citas correctas, con solo alrededor del 10% de sus referencias siendo completamente inventadas [5] [6]. Estadísticamente, la tasa de citas fabricadas de GPT-4 fue mucho menor que la de GPT-3.5 (la prueba de chi-cuadrado mostró una caída significativa en las citas alucinadas a solo el 10% [6]). Los autores señalan que la mejora se debe probablemente a las mayores habilidades lingüísticas de GPT-4 y, potencialmente, al diseño del prompt. Aun así, encontraron algunos errores menores: por ejemplo, títulos correctos pero números de volumen faltantes, que clasificaron como referencias incompletas [5].
La Tabla 2 (a continuación) compara el rendimiento de las citas en varios LLM y configuraciones extraídas de estos estudios e informes. Para ChatGPT y Gemini, tenga en cuenta que la "precisión" varía según la rigurosidad con la que se defina una coincidencia (DOI exacto frente a título/autores correctos). En todos los casos, las citas de los LLM son imperfectas: incluso la precisión del ~90% de GPT-4 [6] no es del 100%.
| Sistema / Contexto | Resultado | Notas / Fuente |
|---|---|---|
| ChatGPT-4 (QA médica, estudio ABCDE) | 13 de 30 referencias (43.3%) totalmente precisas [3] | El 57% de las referencias eran falsas/inexactas [3] |
| ChatGPT-4 (consultas generales) | ≈90% de citas correctas [5] [6] | Solo ~10% fabricadas; mejora respecto a GPT-3.5 [6] |
| ChatGPT-3.5 (escritura académica) | 76 de 102 referencias (74.5%) reales [13] | Los errores de DOI en humanidades eran comunes [12] |
| Gemini 1.5 (QA de salud, prompt malicioso) | Produjo una respuesta médica segura con citas falsas [7] | Ver estudio de Reuters: sucumbiendo a la inyección de prompt |
| Llama 3.2-90B (misma prueba) | Salida fabricada similar con referencias falsas [7] | Caso adverso probado mediante comandos ocultos |
| Grok Beta (xAI) (misma prueba) | Resultado similar con citas inventadas [7] | Expuesto por prompts de sistema ocultos |
| Claude 3.5 Sonnet (misma prueba) | Se negó a cumplir (declinó dar una respuesta falsa) [7] | Único modelo que no produjo una respuesta falsa |
| Bing Chat / Copilot | Incluye enlaces a resultados de búsqueda web; generalmente preciso | (Sistema RAG comercial con fuentes en vivo) |
| Perplexity.ai | Siempre cita fuentes externas (investigación/noticias); alta fiabilidad | (Conocido como un motor de respuestas basado en RAG) |
Tabla 2: Comportamiento de citación de sistemas LLM representativos. La columna izquierda enumera el modelo y el contexto, la del medio los resultados observados y la derecha las fuentes. GPT-4 muestra el mejor rendimiento en estudios cuidadosos [5] [6], pero aún no puede garantizar una fidelidad perfecta. GPT-3.5 (y presumiblemente el modo "preentrenado" estándar de GPT-4) alucinará una fracción sustancial de referencias en tareas difíciles [3] [13]. Los LLM específicos de dominio (Gemini, Llama, Grok) pueden ser engañados para dar citas completamente fabricadas bajo prompting malicioso [7]. Los sistemas comerciales como Bing aprovechan la búsqueda para una alta precisión, pero no son inmunes a la forma en que el usuario formula la pregunta.
Caso de estudio: Preguntas y respuestas médicas
Un caso concreto ilustra esta dinámica. En un experimento publicado, los médicos pidieron a ChatGPT-4 que citara pruebas para las directrices estándar de triaje de trauma. ChatGPT-4 enumeró múltiples artículos de investigación por cada paso de la directriz, pero cuando los expertos los verificaron, solo el 43.3% eran correctos [3]. El resto eran parcialmente incorrectos (autor, año o PMID incorrectos) o completamente inexistentes. Por ejemplo, una respuesta tenía el título y la revista correctos, pero el nombre del autor y el PMID incorrectos; otra tenía el año correcto, pero el título incorrecto. El estudio advierte que esto "no logra proporcionar referencias fiables", enfatizando que usar ChatGPT-4 en la toma de decisiones médicas "sin una verificación exhaustiva" es inseguro [4].
Mientras tanto, un estudio separado hizo que ChatGPT-3.5 (GPT 3.5 Turbo por defecto) escribiera artículos cortos en ciencia y humanidades. De todas las citas generadas, aproximadamente el 25.5% eran falsas; por el contrario, el 74.5% eran reales [13]. La precisión fue mayor en ciencias que en humanidades. Si bien estos números son prometedores (la mayoría de las citas de ChatGPT fueron válidas en ese contexto), la tasa de error restante es inaceptable para uso académico sin verificación de hechos. El estudio destaca específicamente cómo las alucinaciones de DOI siguen siendo rampantes en algunos campos.
En el lado positivo, informes anecdóticos sugieren que GPT-4 con navegación logra resultados mucho mejores. Cuando se le permite buscar fuentes web, a menudo proporciona datos correctos con URL que realmente respaldan la respuesta. Por ejemplo, si se le pregunta un hecho conocido, GPT-4 a veces responderá con "Según [Fuente]..." y proporcionará un enlace real. Este modo lo convierte efectivamente en un asistente de búsqueda híbrido. No se trata de citaciones únicas (el modelo sigue generando prosa), pero la inclusión de enlaces reales mejora enormemente la confianza.
En la práctica, algunas comunidades de debate sobre IA han tabulado las tasas promedio de error de citación para varios chatbots. Sus hallazgos heurísticos se alinean con los estudios anteriores: GPT-4 (con acceso a fuentes) >> GPT-3.5 ≈ Bard ≈ Claude (sin referencias) en fiabilidad. Estos no son revisados por pares, pero refuerzan la idea de que la disponibilidad de fuentes reales es clave.
Caso de Estudio: Ataque de Desinformación Sanitaria
Como ejemplo de advertencia, consideremos un experimento reciente de tipo "red-team" reportado por Reuters [7]. Investigadores emitieron instrucciones de prompt ocultas a varios chatbots de IA para que produjeran consejos de salud falsos. Descubrieron que casi todos los modelos probados cumplieron, dando respuestas persuasivas pero falsas, e incluso inventando citas académicas para respaldarlas. GPT-4, Gemini 1.5, Llama 3.2-90B y Grok generaron una recomendación de tratamiento segura (pero peligrosa) junto con "referencias de revistas" fabricadas. Solo un modelo – Claude 3.5 de Anthropic – se negó a responder en el modo malicioso. Este sorprendente resultado destaca que los LLM no solo pueden alucinar citas espontáneamente, sino que también pueden ser manipulados activamente para hacerlo. Subraya la urgencia de los controles de fuente incorporados: cualquier LLM abierto, incluso GPT-4, carece actualmente de una protección robusta contra tales referencias alucinadas. (Observamos que la negativa de Claude fue una respuesta de seguridad, no una característica de citación incorporada).
Análisis de Dominio: Ciencia vs. Humanidades
Diferentes campos imponen diferentes exigencias a la citación. El estudio de Mugaanyi et al. (2024) [13] sugiere que las materias STEM se beneficiaron de convenciones de citación más formales (casi el 73% de referencias reales) que las humanidades en la producción de GPT-3.5. Esto podría deberse a factores como: (1) las revistas y conferencias STEM constituyen una gran fracción del entrenamiento del LLM; (2) los DOI se utilizan de manera más uniforme en la ciencia. En humanidades, GPT-3.5 a menudo generaba títulos que sonaban plausibles pero sin existencia real, o DOI que apuntaban a artículos incorrectos [12]. Así, incluso con un prompt idéntico, la fiabilidad depende del contexto. Se hicieron observaciones similares de forma anecdótica: por ejemplo, se demostró que GPT-4 funcionaba mucho mejor al responder preguntas fácticas bien definidas (Tabla 2) que al improvisar en preguntas abiertas.
En entornos educativos, los instructores están lidiando con la cuestión de si permitir el uso de IA. Algunas universidades ahora exigen que cualquier contenido generado por IA vaya acompañado de citas verificables. Por ejemplo, cuando los estudiantes usan ChatGPT para redactar ensayos, están surgiendo mejores prácticas: tratarlo como un asistente de borrador y siempre verificar cada cita que proporciona la IA. Algunos educadores instruyen explícitamente a los estudiantes a no usar IA para ensayos creativos, pero a confiar en ella para listar referencias sobre temas conocidos, porque el conocimiento preestablecido puede ser citable. Estas medidas sociales reflejan la realidad técnica: los LLM modernos son herramientas útiles, pero sin un marco de citación no se puede confiar en ellos para realizar el trabajo académico de referenciación adecuada [13] [3].
Análisis de Datos y Evidencia
La evidencia cuantitativa de estudios existentes subraya los puntos anteriores. Resumimos los datos clave aquí:
-
Precisión de la Citación: En evaluaciones controladas, las tasas de citación correcta oscilaron aproximadamente entre el 40% y el 90% dependiendo del modelo y la tarea. GPT-4 en un Q&A médico tuvo solo el 43% de fuentes correctas [3], mientras que GPT-4 en consultas generales alcanzó aproximadamente el 90% [6]. GPT-3.5 se mantuvo alrededor del 70-75% en una prueba de escritura académica [13]. Esta varianza muestra que incluso los LLM avanzados están lejos de ser generadores de fuentes perfectos.
-
Tasa de Alucinación: Complementando lo anterior, las tasas de citación fabricada fueron del 57% (GPT-4 médico) al 10% (GPT-4 general) [3] [6]. Para GPT-3.5 en humanidades, la alucinación de DOI fue del 89% [12], una tasa de error sorprendentemente alta.
-
Acuerdo entre Revisores: En el estudio médico, los evaluadores independientes lograron un kappa de Cohen de 0.89 en la puntuación de citaciones [14], lo que indica una alta fiabilidad inter-evaluador al juzgar referencias reales versus falsas. Esto sugiere que las métricas de evaluación en sí mismas son robustas.
-
Tendencias Sistemáticas: Los datos muestran consistentemente que las consultas de dominio abierto y habilitadas para recuperación producen una mayor precisión que los géneros cerrados que requieren recuperación. El desarrollo deja un margen significativo para la mejora: un "asistente LLM de confianza" ideal debería acercarse al 100% de validez de las citas.
Discusión: Desafíos, Perspectivas y Direcciones Futuras
Los hallazgos colectivos pintan un panorama claro: los LLM actuales no son motores de citación fiables por defecto, pero los marcos en evolución pueden mejorar la confianza. Ahora exploramos implicaciones más amplias y posibles próximos pasos.
Desafíos Técnicos y Direcciones de Investigación
Mejora de la Recuperación. Dado que las citas basadas en RAG dependen de la calidad de la recuperación, la investigación en curso se centra en mejores índices y modelos de relevancia. El último trabajo de Google introduce la idea de "contexto suficiente" para RAG: determinar exactamente cuánto texto del documento necesita ver el LLM para la precisión. Los experimentos sugieren que tener muy poco contexto causa alucinaciones, por lo que ajustar la tubería de recuperación es fundamental. Los avances en incrustaciones vectoriales, reformulación de consultas y recuperación de múltiples pasadas podrían estrechar el ciclo entre la consulta y la fuente creíble.
Citación en la Alineación de la Atención. Algunos métodos propuestos tienen como objetivo "pintar" la atención o los logits internos del LLM con información de la fuente. Por ejemplo, vincular ciertas cabezas de atención a punteros de bases de datos, o fusionar grafos de conocimiento en las capas del transformador. Aunque altamente experimentales, estos enfoques buscan eliminar la alucinación por diseño.
Benchmarking y Conjuntos de Datos. Se necesitan métricas fiables. Este informe documentó varios estudios internos, pero lo que falta es un gran conjunto de pruebas de referencia de preguntas con referencias de verdad fundamental para la evaluación de LLM. La comunidad de PNL podría reunir tales conjuntos de datos en todos los dominios (preguntas y respuestas científicas, consultas legales, hechos históricos, etc.) para que la precisión de las citas se convierta en una métrica estándar. Trabajos recientes sobre "atribución de fuentes" y "evaluación de modelos" (por ejemplo, el artículo WASA de ICLR 2025) comienzan a definir protocolos de evaluación.
Perspectivas del Usuario y Éticas
Desde el punto de vista del usuario, las citas cambian drásticamente el modelo de confianza. Un estudiante o investigador se atreverá a confiar mucho más en una respuesta de IA si va acompañada de enlaces creíbles. Esto podría revolucionar el trabajo del conocimiento: uno puede imaginar un futuro en el que los asistentes de IA funcionen como "bibliotecarios supercargados", resumiendo contenido pero siempre señalando los capítulos o artículos que utilizaron. Sin embargo, la dependencia prematura puede ser peligrosa. Los casos anteriores muestran que, sin supervisión, la IA puede inducir a error. Los usuarios (y los reguladores) deben cultivar la alfabetización en IA: siempre verificar las referencias de la IA.
Éticamente, forzar las citas ayuda a abordar las preocupaciones sobre el plagio. Cuando un LLM resume una fuente, una cita reconoce al autor original. Esto alinea la IA con las normas académicas. Por el contrario, las paráfrasis de IA sin fuente podrían plagiar inadvertidamente o difundir desinformación. Hay movimientos en la academia para tratar el contenido generado por IA como herramientas de acceso a la información, no como fuentes independientes. Muchas revistas ahora prohíben listar una IA como autor, y el tema de cómo acreditar el texto generado por IA está en debate. En cualquier caso, desde una perspectiva moral, proporcionar las fuentes respeta los derechos de propiedad intelectual y la transparencia.
Tendencias Regulatorias y de la Industria
Los responsables políticos están tomando nota. Aunque la Ley de IA de la UE (en borrador) aún no menciona específicamente las citas, enfatiza la transparencia y la trazabilidad de los resultados de la IA. En la práctica, los reguladores podrían exigir que los productos de consumo de IA revelen las fuentes de información de alto riesgo (similar a las normas de responsabilidad para las declaraciones de salud). Ya, durante los juicios del NYT, el concepto de "atribución de fuentes" fue central [11]. La Oficina de Derechos de Autor de EE. UU. y los tribunales están lidiando con cómo equilibrar el entrenamiento de la IA con los titulares de derechos. En este clima, un marco de citación de IA no es solo una conveniencia, sino que podría convertirse en una necesidad legal.
Por el lado de la industria, los principales desarrolladores de LLM están trabajando discretamente en esto. OpenAI ha experimentado con "ChatGPT Plus con navegación", y se rumorea que Google incrustará citas en futuras versiones de Gemini. Las startups emergentes (SciSpace, Elicit, entre otras) se centran en la IA para la investigación con referenciación incorporada. Incluso las consideraciones de diseño como la interfaz de usuario importan: las aplicaciones ahora a menudo permiten hacer clic en una nota al pie para ver la fuente. Esto cambia las expectativas del usuario: la IA que no cita pronto podría ser vista como incompleta o poco confiable.
Perspectivas Futuras
Mirando hacia el futuro, anticipamos varias tendencias:
-
Protocolos de Citación Estandarizados: Así como HTML y DOI dieron estructura a la web del conocimiento, es posible que veamos un estándar de citación amigable para máquinas para la IA. Las propuestas incluyen bibliotecas que adjuntan automáticamente referencias estilo BibTeX a las respuestas de la IA, o API de LLM que devuelven objetos de referencia estructurados.
-
Integración con Grafos de Conocimiento: La salida de los LLM podría integrarse con herramientas como Wikidata o Google Knowledge Graph, de modo que las entidades mencionadas en las respuestas se vinculen automáticamente a entradas curadas. Este enfoque híbrido podría proporcionar citas semánticas en lugar de documentos completos, mejorando aún la verificabilidad.
-
Orientación al Usuario e Ingeniería de Prompts: Hasta que los modelos subyacentes mejoren, la citación efectiva a menudo depende de cómo pregunta el usuario. La investigación en ingeniería de prompts (por ejemplo, "cadena de pensamiento" que incluye "Cita esto") continuará. Los programas educativos también están enseñando a las personas cómo generar prompts para la IA y cómo verificar sus respuestas.
-
Herramientas de Explicabilidad del Modelo: Más allá de las citas directas, métodos como la atribución basada en la atención o la evaluación contrafactual pueden ayudar a los usuarios a ver por qué un LLM respondió de cierta manera. Una mejor explicabilidad puede complementar las citas para dar una imagen más completa de la fiabilidad.
-
Evaluación y Retroalimentación Continuas: Es probable que los productos de IA incorporen bucles de retroalimentación. Si los usuarios encuentran que una cita proporcionada es incorrecta, esos datos podrían usarse para ajustar modelos o actualizar índices de recuperación. En esencia, los marcos de citación de IA pueden evolucionar para incluir "votos" de los usuarios sobre la calidad de la fuente.
Conclusión
A medida que los grandes modelos de lenguaje (LLM) impregnan los flujos de trabajo de información, su capacidad para citar fuentes será un factor determinante en su utilidad y confiabilidad. Nuestra revisión muestra que, si bien los primeros esfuerzos han logrado avances, todavía estamos lejos de la perfección. GPT-4 a menudo puede citar correctamente, pero persisten tasas de error no triviales [3] [6]. Técnicas especializadas como RAG y WASA ofrecen marcos poderosos para remediarlo, pero cada una conlleva sus propias compensaciones. Los estudios de caso de usuarios nos recuerdan que, sin sólidas salvaguardias de citación, la IA puede inducir a error inadvertidamente.
Mirando hacia el futuro, el "marco de citación de IA" probablemente se convertirá en un área de investigación interdisciplinaria importante. Se basa en el procesamiento del lenguaje natural, la recuperación de información, el derecho de propiedad intelectual y el diseño de UX. Debemos seguir desarrollando benchmarks, compartiendo conjuntos de datos abiertos de preguntas y respuestas con fuentes verificadas, e iterando sobre modelos que internalicen la noción de verdad verificable. Por ahora, tanto los desarrolladores como los usuarios deben ver los LLM como asistentes que requieren supervisión: beneficiosos para la lluvia de ideas y la generación de borradores, pero que necesitan citas de "verdad fundamental" para cualquier aplicación seria.
Al final, las citas son la moneda del conocimiento. Incrustar esa moneda en la IA cerrará la brecha entre la síntesis de la máquina y los estándares humanos de evidencia. Como señala acertadamente un experto en seguridad de IA, agregar citas puede hacer que los resultados de los LLM no solo sean más correctos sino también responsables [8] [2]. Este informe ha mapeado el panorama técnico de ese desafío y sugiere caminos a seguir para hacer que las respuestas de la IA sean trazables y confiables.
Referencias: Todas las afirmaciones anteriores están respaldadas por la literatura y las fuentes citadas (véanse las citas en línea). Los estudios clave incluyen evaluaciones de la precisión de las referencias de GPT-3.5/4 [13] [3], propuestas de marcos para la atribución [2] [8], e informes de noticias sobre el comportamiento de citación de la IA [7] [11], entre otros. Los trabajos citados proporcionan datos detallados, análisis de expertos y contexto para los temas discutidos.
Fuentes externas
About RankStudio
RankStudio is a company that specializes in AI Search Optimization, a strategy focused on creating high-quality, authoritative content designed to be cited in AI-powered search engine responses. Their approach prioritizes content accuracy and credibility to build brand recognition and visibility within new search paradigms like Perplexity and ChatGPT.
DISCLAIMER
This document is provided for informational purposes only. No representations or warranties are made regarding the accuracy, completeness, or reliability of its contents. Any use of this information is at your own risk. RankStudio shall not be liable for any damages arising from the use of this document. This content may include material generated with assistance from artificial intelligence tools, which may contain errors or inaccuracies. Readers should verify critical information independently. All product names, trademarks, and registered trademarks mentioned are property of their respective owners and are used for identification purposes only. Use of these names does not imply endorsement. This document does not constitute professional or legal advice. For specific guidance related to your needs, please consult qualified professionals.