Los sistemas de inteligencia artificial (IA), en particular las redes neuronales artificiales, han demostrado ser herramientas muy prometedoras para descubrir patrones en grandes cantidades de datos que de otro modo serían difíciles de detectar. Durante la última década, las herramientas de IA se han aplicado en una amplia gama de entornos y campos.
Entre sus muchas aplicaciones posibles, los sistemas de IA podrían utilizarse para descubrir relaciones físicas y expresiones simbólicas (es decir, fórmulas matemáticas) que describan estas relaciones.
Para descubrir estas fórmulas, los físicos actualmente necesitan analizar exhaustivamente los datos brutos, por lo que automatizar este proceso podría ser muy ventajoso.
Investigadores de la Universidad de Tsinghua, la Universidad de Pekín y otros institutos en China han desarrollado un marco de IA capaz de derivar automáticamente representaciones físicas simbólicas a partir de datos sin procesar. Este nuevo modelo, denominado PhyE2E, se presentó en un artículo publicado en Nature Machine Intelligence .
«Nuestro objetivo era impulsar la IA más allá del ajuste de curvas y hacia el descubrimiento comprensible para los humanos: devolver ecuaciones compactas y consistentes en unidades que los científicos puedan leer, probar y sobre las que puedan construir», dijo Yuan Zhou, coautor principal del artículo, a Phys.org.
«Nos centramos primero en la física espacial, donde los extensos y bien organizados registros de observación nos permiten comprobar si las ecuaciones aprendidas realmente se ajustan a la naturaleza. El enfoque en sí es general y esperamos que se extienda a otras ciencias.»
Un modelo que representa simbólicamente datos físicos
PhyE2E, el nuevo marco de IA presentado por Zhou y sus colegas, se entrenó con datos físicos y ecuaciones matemáticas. Durante el entrenamiento, el modelo aprendió cómo se verían las fórmulas plausibles relacionadas con la física, ajustando ecuaciones físicas ampliamente establecidas y luego generando otras mediante la síntesis de diversas variantes consistentes con las unidades.
«PhyE2E utiliza un transformador para traducir los datos directamente a una expresión simbólica y sus unidades», explicó Zhou.
«Aplica una estrategia de divide y vencerás que examina las derivadas de segundo orden de una red ‘oráculo’ ligera para dividir un problema complejo en subfórmulas más simples y realiza un breve refinamiento MCTS/GP para ordenar las constantes y la estructura. El resultado es una ecuación compacta, interpretable y dimensionalmente consistente.»
Como parte de su estudio reciente, los investigadores probaron su marco de trabajo tanto con datos sintéticos generados por un modelo de lenguaje grande (LLM) como con datos astrofísicos reales recopilados por la NASA.
Finalmente, lograron obtener fórmulas que describen relaciones físicas en datos relacionados con cinco escenarios reales de física espacial. Cabe destacar que las fórmulas obtenidas coincidían con las derivadas por físicos o incluso parecían representar los datos mejor.
Por ejemplo, al analizar datos publicados por la NASA en 1993, el modelo logró una fórmula mejorada que explica matemáticamente los ciclos solares. Además, pudo representar eficazmente las relaciones entre la radiación solar, la temperatura y los campos magnéticos.
Una herramienta prometedora para el descubrimiento científico
En esencia, el nuevo modelo de IA desarrollado por este equipo de investigación aprende a descomponer problemas complejos de física en partes más simples. A partir de ecuaciones existentes y bien establecidas, puede generar nuevas fórmulas que describen eficazmente la relación entre diferentes variables.
«Si bien es trivial escribir una expresión larga que interpole los datos, y resulta tentador optar por expresiones muy cortas, ninguna de las dos garantiza un significado físico; muchas fórmulas candidatas incluso violan la consistencia dimensional (de unidades)», dijo Zhou.
«Aprovechamos los recientes avances en modelos de lenguaje de gran tamaño para aprender una distribución a priori sobre ecuaciones conocidas y consistentes en unidades, y luego la ajustamos para que el sistema proponga expresiones compactas y físicamente plausibles que aporten una visión genuina. Consideramos esto un primer paso hacia la abstracción y la extensión de la experiencia científica para permitir el descubrimiento automatizado.»
PhyE2E podría pronto utilizarse para analizar otros datos experimentales y astrofísicos, lo que podría generar fórmulas que describan mejor fenómenos o interacciones físicas específicas. En el futuro, también podría adaptarse y aplicarse a otras disciplinas, contribuyendo potencialmente al descubrimiento científico en diversos campos.
«Ahora estamos ampliando el marco a operadores que tienen en cuenta el cálculo (por ejemplo, derivadas/integrales para leyes de estilo EDP), reforzando la robustez ante datos de laboratorio más ruidosos», añadió Zhou.
«En términos más generales, el objetivo central de nuestra investigación es avanzar en la metodología neurosimbólica para que las predicciones de las redes neuronales profundas sean interpretables. Al mismo tiempo, esperamos que la integración de la explicabilidad como principio de diseño pueda mejorar la capacidad de un sistema de IA para descubrir leyes científicas más precisas y fiables.»