World Foundation Models (WFMs)

English

What are World Foundation Models (WFMs)?

World Foundation Models (WFMs) are AI models that simulate or generate dynamic environments that replicate the real world in some aspect. These models are fundamental for systems that have a physical impact on the real world, such as robots or autonomous vehicles.

For these AIs to operate in the physical world, they first need safe training environments, in order to learn how real-world conditions act in their specific domain before they can actually act in the real world. In this way, WFMs provide these training environments, acting as an important intermediary for training AI models that operate in the physical world.

In building WFMs, a two-step approach is used—pre-training and post-training—that balances generalization capability with specialization. In the first phase, the model is exposed to a wide variety of video data, absorbing large-scale real-world patterns. This creates a foundation capable of understanding diverse contexts. Then, this general knowledge is refined with domain-specific data, such as robotics or autonomous driving. Thus, the model adapts to the nuances of the real operating environment without losing its versatility.

Português

O que são World Foundation Models (WFMs)?

World Foundation Models (WFMs) são modelos de IA que simulam ou geram ambientes dinâmicos que simulam o mundo real em algum aspecto. Esses modelos são fundamentais para sistemas que possuem um impacto físico no mundo real, como robôs ou veículos autônomos.

Para que essas IAs possam operar no mundo físico, elas primeiro precisam de ambientes de treinamento seguros, de forma a aprender como as condições do mundo real atuam na sua área de atuação específica antes de poderem agir de fato no mundo real. Dessa forma, WFMs proporcionam esses ambientes de treinamento, agindo como intermediário importante para o treinamento de modelos de IA com atuação no mundo físico.

Na construção de WFMs, usamos uma abordagem em duas etapas, de pré-treinamento e pós-treinamento, que equilibra a capacidade de generalização com a especialização. Na primeira fase, o modelo é exposto a uma grande variedade de dados de vídeo, absorvendo padrões do mundo real em larga escala. Isso cria uma base capaz de entender diversos contextos. Depois, refinamos esse conhecimento geral com dados específicos de uma área de atuação, como a robótica ou direção autônoma. Assim, o modelo se adapta às nuances do ambiente real de atuação, sem perder sua versatilidade.