A inteligência artificial para geração de vídeo avança em ritmo acelerado, e quem acompanha esse universo sabe que as ferramentas pagas dominam quando o assunto é qualidade.
Porém, existe uma alternativa gratuita, de código aberto e que roda diretamente no seu computador: o LTX 2.3. Essa versão atualizada chega com melhorias relevantes em movimento, nitidez, compreensão de prompts e, o que é mais impressionante, geração de áudio integrado ao vídeo.
Neste artigo você vai entender o que mudou, como instalar, como configurar e como criar prompts eficientes para extrair o melhor dessa ferramenta.
O que é o LTX 2.3 e por que ele se destaca
O LTX 2 é considerado a única inteligência artificial de código aberto capaz de gerar vídeos com áudio embutido e que funciona localmente no PC, sem custo algum.
Enquanto ferramentas como o Kling ou o Sora exigem assinatura, o LTX permite que qualquer pessoa com um computador razoável produza vídeos gerados por IA sem pagar nada.
A versão 2.3 trouxe atualizações em quatro frentes principais:
- Detalhamento visual mais apurado
- Movimentos mais fluidos e consistentes
- Melhor compreensão de prompts complexos
- Suporte nativo a vídeos no formato vertical (9:16)
Além disso, o sistema de upscale agora é automático.
Assim que o vídeo termina de ser gerado, o modelo LTX 2.3 Step Upscale já inicia o processo de melhoria de resolução sem nenhuma ação manual do usuário.
Resultados práticos: o que o LTX 2.3 faz bem e onde ainda falha
Cenas simples com pouco movimento
Nesse tipo de conteúdo, o LTX 2.3 performa muito bem.
Vídeos de personagens respirando, olhando para a câmera, tomando café ou simplesmente caminhando em cenários urbanos ficam com boa consistência visual e os efeitos sonoros ambientes funcionam de forma satisfatória.
Em testes com uma imagem de pessoa parada, apenas respirando com efeitos de glitch, o resultado foi nítido e o áudio acompanhou o movimento.
Em outro teste com duração de 9 segundos, um personagem andando enquanto a câmera o seguia ficou coerente com o prompt, incluindo detalhes como o vento agindo sobre a roupa.
Cenas complexas com física e múltiplos movimentos
Aqui o LTX ainda apresenta limitações claras.
Em um teste com um personagem de super-herói pulando entre prédios, os pés não tocavam as superfícies corretamente, e em alguns momentos o personagem parecia correr e voar ao mesmo tempo.
Cenas com muitos elementos simultâneos, física complexa ou múltiplas câmeras ainda resultam em bugs visíveis.
Comparação com IAs pagas
Ao ser comparado com ferramentas pagas como o Sora 2.0, o LTX perde em realismo de pele, física de detalhes e ausência do aspecto artificial.
Modelos pagos tendem a gerar imagens mais próximas da realidade, com imperfeições naturais que tornam o resultado mais crível.
O LTX ainda apresenta aquela aparência muito “limpa” e sintética, com pele muito lisa e movimentos que fogem do comportamento humano real em situações mais exigentes.
Mesmo assim, para uma ferramenta gratuita e open source, a proximidade com os resultados pagos é surpreendente em cenários controlados.
Como instalar o LTX 2.3 no seu PC
Para rodar o LTX 2.3 localmente, você precisa do ComfyUI instalado na sua máquina.
Ele é o principal software para executar modelos de IA no computador e serve como base para o LTX funcionar.
Com o ComfyUI aberto, siga estes passos:
- Clique no ícone do ComfyUI e acesse “Browse Templates”
- Pesquise por “LTX 2.3” na barra de busca
- Escolha entre o workflow I2V (imagem para vídeo) ou T2V (texto para vídeo)
- Clique em baixar e arraste o arquivo para dentro do ComfyUI
- Quando solicitado, baixe as dependências clicando em cada uma delas
- Aguarde ficarem verdes e clique em “Restart ComfyUI”
Caso os templates não apareçam diretamente, acesse o blog oficial do ComfyUI e pesquise por “LTX 2.3 ComfyUI” para encontrar os links de download.
Como configurar o LTX 2.3 corretamente
Resolução
O padrão recomendado é 1280×720. É possível gerar em Full HD (1920×1080), mas isso exige uma placa de vídeo mais potente.
Ajuste conforme o hardware disponível.
Duração do vídeo (em frames)
A duração não é configurada em segundos, mas em quantidade de frames.

Fonte: Imagem gerada por IA. Modelo: black-forest-labs/flux.2-klein-4b
Para calcular corretamente, use a fórmula:
duração_em_segundos × FPS = total de frames
Exemplo: 15 segundos × 24 FPS = 360 frames
Insira esse valor no campo “Length” do workflow.
Steps (passos de refinamento)
O valor padrão é 20. Para mais qualidade, aumente para 40. Para geração mais rápida com qualidade menor, reduza para 15. Quanto maior o número, mais tempo de processamento, mas mais detalhes no resultado final.
CFG (liberdade criativa)
O valor padrão é 4. Aumentar para 5 ou 5.5 dá mais liberdade criativa à IA, resultando em mais movimentos e variações.
Reduzir para 3.5 faz a IA seguir o prompt com mais fidelidade.
Evite valores extremos nos dois sentidos.
Gerar variações do mesmo prompt
Para obter versões diferentes sem alterar o prompt, vá em “Control After Generate” e selecione “Randomize”.
Assim, cada clique em gerar produz uma variação nova, o que aumenta as chances de encontrar um resultado satisfatório.
Como criar prompts eficientes para o LTX 2.3
Seja específico e detalhado
O LTX 2.3 conta com um encoder de texto mais robusto, capaz de interpretar instruções complexas.
Em vez de escrever “uma mulher em um café”, prefira algo como:
Uma mulher na casa dos 30 anos senta-se junto a uma janela de um pequeno café.
A chuva escorre pelo vidro atrás dela.
Iluminação interna quente e suave.
Ela mexe lentamente o café enquanto olha para o celular.
O fundo está levemente desfocado.
Descreva posições espaciais
Especifique direita, esquerda, primeiro plano, plano de fundo e distâncias entre os elementos.
Exemplo:
Duas pessoas estão de pé, uma de frente para a outra, em uma calçada tranquila.
O homem mais alto está à esquerda, com as mãos nos bolsos.
A mulher está à direita, segurando uma bicicleta.
Casas desfocadas ao fundo.
Descreva movimentos, não apenas a cena
Evite prompts que apenas descrevem a imagem estática.
Inclua o que se move, como se move e o que a câmera faz.
Descreva também texturas de tecido, cabelo e superfícies para obter mais riqueza visual.
Personalize o áudio
O LTX 2.3 melhorou significativamente a geração de áudio.
Descreva no prompt o tipo de som ambiente desejado, a intensidade, o tom e, se houver diálogo, indique as falas diretamente.
Isso aumenta a coerência entre o áudio gerado e o visual.
Resumindo
O LTX 2.3 é, sem dúvida, a melhor ferramenta de geração de vídeo com áudio integrado disponível gratuitamente para rodar no PC.
Ele se sai muito bem em cenas simples, com movimentos sutis e ambientes controlados.
Em cenas complexas com física avançada, ainda apresenta falhas visíveis, mas a evolução em relação às versões anteriores é nítida.
Para quem quer explorar geração de vídeo com IA sem gastar nada, o LTX 2.3 via ComfyUI é o caminho mais acessível e funcional disponível hoje.
Basta configurar corretamente, criar prompts detalhados e gerar variações até encontrar o resultado ideal.
Fonte do conteúdo: este artigo foi escrito a partir do estudo e análise do vídeo do YouTube https://www.youtube.com/watch?v=ppXI_O9Y8vI
