Durante años, la búsqueda de vulnerabilidades en programas informáticos complejos ha sido una tarea reservada a especialistas que dedican semanas e incluso meses a revisar millones de líneas de código. Sin embargo, ese escenario comienza a cambiar. Los modelos de inteligencia artificial ya no solo ayudan a escribir o depurar código, sino que también empiezan a detectar fallos de seguridad por sí mismos.
Un ejemplo reciente lo ha mostrado Anthropic con Claude Opus 4.6, su modelo más avanzado, que fue puesto a prueba analizando el navegador Firefox. El experimento resulta especialmente relevante porque Firefox, desarrollado por Mozilla y utilizado por cientos de millones de personas en todo el mundo, es uno de los proyectos de código abierto más revisados y auditados dentro del ecosistema digital.
Durante dos semanas de pruebas, el sistema identificó 22 vulnerabilidades distintas en el código del navegador. Según los datos compartidos por ambas organizaciones, Mozilla clasificó 14 de ellas como fallos de alta gravedad, lo que significa que, en determinadas condiciones, podrían haber servido como base para ataques informáticos si alguien hubiese desarrollado el código necesario para explotarlos.
La mayoría de estos problemas ya fueron corregidos en Firefox 148, la versión publicada en febrero, mientras que el resto será solucionado en actualizaciones posteriores. Desde Mozilla explicaron que el experimento no solo permitió detectar errores, sino también evaluar el potencial de la inteligencia artificial como herramienta de apoyo para mejorar la seguridad del software.
El trabajo de Claude no se limitó a una simple búsqueda automática de errores. En una primera fase, el modelo fue entrenado para reproducir vulnerabilidades históricas del navegador, con el objetivo de comprobar si era capaz de reconocer patrones reales de fallos. Posteriormente, se le pidió analizar la versión actual del código para identificar problemas que aún no habían sido reportados por la comunidad.
El análisis comenzó en el motor de JavaScript del navegador y luego se extendió a otras áreas del sistema. En total, el modelo revisó miles de archivos del proyecto incluidos numerosos archivos escritos en C++ y generó una extensa lista de posibles vulnerabilidades que luego fueron evaluadas por investigadores humanos.
Uno de los datos más llamativos del experimento es que Claude encontró más fallos de alta gravedad en dos semanas de análisis que los que el proyecto Firefox suele recibir en aproximadamente dos meses a través de sus canales tradicionales de reporte. En total, el equipo de Anthropic envió 112 informes al sistema de seguimiento de errores de Mozilla, aunque no todos correspondían finalmente a vulnerabilidades confirmadas.
Más allá del caso concreto de Firefox, el experimento abre un nuevo debate dentro de la comunidad tecnológica. Las herramientas basadas en inteligencia artificial están mejorando rápidamente su capacidad para detectar vulnerabilidades en software complejo, lo que podría ayudar a los desarrolladores a corregir errores con mayor rapidez. Al mismo tiempo, también plantea preguntas sobre cómo estas mismas tecnologías podrían ser utilizadas en el futuro tanto para proteger como para atacar sistemas digitales.

