Produzir vídeos de histórias animadas com inteligência artificial pode parecer um processo longo e trabalhoso, mas existe uma forma de transformar tudo isso em um fluxo rápido, organizado e altamente escalável.
A diferença entre canais que publicam conteúdo todos os dias e aqueles que demoram dias para finalizar um único vídeo não está no talento, mas sim no método.
Neste artigo, você vai descobrir um passo a passo completo para criar até 20 cenas animadas com personagens consistentes, narração profissional e movimentos de câmera cinematográficos, tudo com ferramentas acessíveis e, em grande parte, gratuitas.
Passo 1: Gerando a História e os Roteiros de Cena
O primeiro passo é acessar o ChatGPT e solicitar a criação de uma história infantil.
Após obter a história, você pede ao ChatGPT que transforme o conteúdo em um roteiro dividido em 20 cenas.
Cada cena deve conter três elementos:
- O número da cena
- O texto exato da narração
- Um prompt de imagem no estilo Disney Pixar
Esse formato facilita a edição posterior, pois você saberá exatamente em qual momento do áudio cada cena deve aparecer.
Em seguida, solicite ao ChatGPT que liste apenas os prompts de imagem, sem incluir rótulos como “prompt de imagem”.
Isso é importante para a etapa de automação que vem a seguir.
Exemplo de instrução para o ChatGPT:
Crie uma história infantil sobre um menino chamado Lucas e seu cachorro Bento.
Depois, divida a história em 20 cenas com: número da cena, texto de narração
e prompt de imagem no estilo Disney Pixar.
Passo 2: Automatizando a Geração de Imagens com Auto Whisk
Aqui está o grande diferencial desse método.
Em vez de gerar cada imagem manualmente, você utiliza uma extensão do Chrome chamada Auto Whisk, disponível na Chrome Web Store.
Após instalar e fixar a extensão na barra de tarefas do navegador, acesse o site do Google Whisk e entre na ferramenta.
O funcionamento é simples e poderoso: a extensão interpreta cada quebra de linha como um novo prompt.
Isso significa que você pode colar todos os 20 prompts de uma vez e gerar todas as imagens automaticamente, com apenas um clique no botão iniciar.
Configurações recomendadas:
- Idioma: inglês (não há suporte para português)
- Proporção: paisagem (ideal para vídeos no YouTube)
- Número de imagens por prompt: 1
As imagens geradas são salvas automaticamente na pasta de downloads do seu computador, organizadas pela extensão.
Passo 3: Resolvendo o Problema de Consistência dos Personagens
Ao gerar as imagens pela primeira vez, é comum perceber que os personagens mudam de aparência entre as cenas.
O menino pode ter características diferentes em cada imagem, e animais podem até mudar de espécie.
Esse é um problema real que compromete a qualidade do vídeo.
A solução está no uso de imagens de referência.
Antes de gerar as 20 cenas, você precisa criar uma imagem de cada personagem com fundo branco e postura neutra, como se estivesse em pé para uma foto.
Para isso:
- Acesse o ChatGPT e peça prompts no estilo Disney Pixar para cada personagem da história
- Acesse o site do Google Whisk e gere as imagens dos personagens individualmente
- Faça o download das imagens aprovadas

Fonte: Imagem gerada por IA. Modelo: black-forest-labs/flux.2-klein-4b
Com as imagens de referência em mãos, volte à extensão Auto Whisk, cole todos os 20 prompts e, antes de iniciar, ative a opção de imagem de referência.
Adicione as imagens dos personagens e insira os nomes deles para que a IA consiga identificá-los corretamente em cada cena.
O resultado é impressionante: os personagens permanecem visualmente idênticos em todas as cenas.
Passo 4: Criando a Locução com Google AI Studio
Com as imagens prontas, é hora de produzir o áudio da narração.
Volte ao ChatGPT e peça que ele escreva apenas o texto da narração do vídeo, sem títulos, introduções ou formatações extras.
Em seguida, acesse o Google AI Studio e siga estes passos:
- Selecione a opção de locutor único
- Cole o texto da narração no campo indicado
- Adicione instruções de narração, como ritmo, tom e emoção desejados
- Escolha a voz que melhor combina com o conteúdo
- Clique em executar e aguarde a geração
- Faça o download do áudio gerado
Essa ferramenta entrega uma qualidade de voz surpreendente, sem custo adicional, e elimina a necessidade de gravar narração manualmente.
Passo 5: Adicionando Movimentos de Câmera com Grok
Nesta etapa, as imagens estáticas ganham vida com movimentos de câmera cinematográficos.
Para isso, você vai utilizar o Grok, ferramenta de geração de vídeo por IA.
Antes de começar, peça ao ChatGPT que analise o roteiro das 20 cenas e sugira um movimento de câmera específico para cada uma, baseado em uma lista de 38 tipos de movimentos cinematográficos.
O ChatGPT retornará um prompt de movimento para cada cena, como zoom lento, travelling lateral ou plano aéreo descendente.
Configuração importante no Grok:
Antes de iniciar, acesse seu perfil, vá em configurações, selecione comportamento e desative a geração automática de vídeo.
Isso evita que a ferramenta processe imagens sem sua confirmação.
Para cada cena:
1. Acesse a seção Imagine no Grok
2. Faça o upload da imagem correspondente
3. Cole o prompt de movimento de câmera sugerido pelo ChatGPT
4. Gere o vídeo e faça o download
Repita o processo para todas as 20 cenas.
O resultado são clipes curtos com movimentos fluidos e profissionais.
Passo 6: Editando Tudo no CapCut
Com todos os elementos prontos, áudio, imagens animadas e clipes de vídeo, é hora de montar o vídeo final no CapCut.
O processo é direto:
- Importe o áudio da narração e todos os clipes gerados
- Encaixe cada clipe no trecho correspondente da narração
- Ajuste a duração dos clipes para que coincidam com o ritmo do áudio
- Adicione transições suaves entre as cenas
- Exporte o vídeo no formato e resolução desejados
O CapCut é gratuito, intuitivo e funciona tanto no computador quanto no celular, o que facilita ainda mais o processo de produção.
Resumindo
Criar vídeos de histórias animadas com IA não precisa ser um processo lento ou complicado.
Com o método apresentado neste artigo, você utiliza o ChatGPT para gerar histórias e roteiros estruturados, a extensão Auto Whisk para automatizar a geração de até 20 imagens de uma vez, imagens de referência para garantir a consistência visual dos personagens, o Google AI Studio para produzir narração profissional, o Grok para adicionar movimentos de câmera cinematográficos e o CapCut para a edição final.
Seguindo esse fluxo, é possível reduzir drasticamente o tempo de produção e criar conteúdo de qualidade de forma consistente, o que é exatamente o que separa os canais que crescem dos que ficam estagnados.
Fonte do conteúdo: este artigo foi escrito a partir do estudo e análise do vídeo do YouTube https://www.youtube.com/watch?v=CRYID-1Da6Y.
