Um formato de vídeo curto está dominando as redes sociais e gerando dezenas de milhões de visualizações: os chamados “skeleton shorts”, ou vídeos educacionais com personagem esqueleto animado.
Canais estrangeiros com centenas de milhares de inscritos já exploram essa tendência há algum tempo, mas criadores brasileiros que trouxeram o conceito para o português estão colhendo resultados surpreendentes — alguns acumulando mais de 22 milhões de views com apenas 14 vídeos publicados.
Neste artigo, você vai aprender exatamente como replicar esse modelo do zero, utilizando ferramentas de inteligência artificial gratuitas e acessíveis.
Os skeleton shorts funcionam porque combinam três elementos altamente eficazes para o consumo em plataformas de vídeo curto: informação útil, visual inusitado e ritmo acelerado.
O personagem esqueleto cria uma identidade visual marcante e levemente humorística, enquanto o conteúdo educacional retém a atenção do espectador até o final.
Essa combinação é altamente dopaminética — exatamente o que os algoritmos do YouTube Shorts, TikTok e Instagram Reels priorizam.
Além disso, a barreira de entrada é baixa.
Com as ferramentas certas, qualquer pessoa consegue produzir esse tipo de conteúdo sem câmera, sem estúdio e sem habilidades avançadas de edição.
Etapa 1: Criando o roteiro e os prompts com ChatGPT
O primeiro passo é definir o tema do seu vídeo e gerar todo o conteúdo necessário com ajuda de inteligência artificial.
Existe uma versão do ChatGPT já configurada especificamente para esse formato, chamada Skeleton Shots, que entrega automaticamente a ideia, o roteiro cena por cena, os prompts de geração de imagem e o texto de narração.
Para usar, basta acessar o chat e enviar dois comandos simples:
- Informe o tema do vídeo.
Por exemplo: “Aborde os riscos de consumir cerveja diariamente.”
2. Em seguida, envie o seguinte comando:
Forneça os prompts para a criação de imagens e, logo abaixo de cada prompt de cada cena, um texto para a narração.
O resultado será uma lista organizada com cada cena, seu respectivo prompt de imagem e o texto que será narrado.
Tudo pronto para usar nas próximas etapas.
Uma dica importante: às vezes o prompt gerado pode ter pequenas imprecisões visuais.
Por exemplo, se a cena pede que o esqueleto segure a própria cabeça, mas o prompt gerado resulta em ele segurando uma cabeça diferente, basta ajustar manualmente com uma instrução mais clara, como “segurando a própria cabeça”.
São correções simples que fazem grande diferença no resultado final.
Etapa 2: Gerando as imagens com IA gratuita
Para criar as imagens de cada cena, a ferramenta recomendada é o Whisk, inteligência artificial de geração de imagem do Google, disponível gratuitamente no navegador, sem necessidade de assinatura.
O diferencial do Whisk é a função de “assunto”, onde você carrega uma imagem de referência do personagem esqueleto — que pode ser baixada gratuitamente em pacotes prontos — e a IA mantém a consistência visual do personagem em todas as cenas geradas.
O processo é o seguinte:
- Escolha o modelo de esqueleto que melhor combina com o tema do seu vídeo (há opções com faixa, mais realistas, estilo academia, entre outros).
- Carregue a imagem do esqueleto escolhido no campo “assunto” do Whisk.
- Configure a resolução para 9×16 (formato vertical para mobile).
- Mantenha a opção “referência precisa” ativada.
- Cole o prompt gerado pelo ChatGPT e clique em gerar.
Você pode gerar múltiplas variações de cada cena e escolher a que ficou melhor.
Salve cada imagem em uma pasta organizada por cenas (imagem 0, imagem 1, imagem 2, e assim por diante).
Uma dica extra: adicione sempre uma cena zero com uma pergunta de abertura, como “O que acontece se você beber cerveja todos os dias?”.

Fonte: Imagem gerada por IA. Modelo: black-forest-labs/flux.2-klein-4b
Esse recurso prende a atenção logo nos primeiros segundos e aumenta significativamente a taxa de retenção.
Etapa 3: Gerando as narrações com Google AI Studio
Para as vozes, o Google AI Studio é a opção mais acessível e com menos limitações do que alternativas pagas como o Eleven Labs.
A ferramenta permite escolher entre diferentes vozes, ajustar a velocidade e o estilo da narração.
Configurações recomendadas:
- Modelo: Gemini 2.5 Flash (boa qualidade com menor consumo de créditos)
- Modo: Single speaker (um narrador)
- Temperatura: 1.1 (equilíbrio entre naturalidade e entonação)
- Voz sugerida: Enceladus (soa próxima ao estilo dos vídeos virais do gênero)
No campo de estilo, insira em inglês algo como:
Professional announcer voice, fast pace for short viral video
No campo de texto, cole a narração de cada cena em português.
Gere o áudio, ouça o resultado e, se estiver satisfeito, baixe e salve na pasta de narrações com o número correspondente à cena.
Etapa 4: Animando as imagens com Grok
Com imagens e áudios prontos, é hora de animar as cenas.
O Grok, da xAI, permite gerar vídeos a partir de imagens estáticas de forma gratuita.
Basta acessar a seção “Imagine”, carregar a imagem e clicar em “fazer vídeo”.
Após a geração, utilize a função “upscale” para melhorar a qualidade do vídeo antes de baixar.
Uma técnica importante para contornar o limite de 6 segundos por geração sem pagar planos premium: salve o último frame do vídeo gerado como imagem e use essa imagem para gerar um novo vídeo a partir do ponto onde o anterior terminou.
Repita o processo quantas vezes precisar para cobrir toda a duração da narração.
Você também pode personalizar os movimentos do personagem com prompts como “esqueleto confuso”, “esqueleto dançando” ou “zoom no esqueleto bebendo cerveja”, deixando o vídeo mais dinâmico e atrativo.
Etapa 5: Edição final no CapCut
Com todos os vídeos e áudios prontos, importe tudo para o CapCut (ou qualquer editor de sua preferência) na ordem correta das cenas.
Configure o projeto em 9×16 e desative o áudio original dos vídeos gerados pela IA, mantendo apenas as narrações.
Elementos essenciais para incluir na edição:
- Legendas automáticas (use a função Auto Captions do CapCut, selecione todas as legendas e aplique um template gratuito de linha única)
- Efeitos sonoros sincronizados com as cenas (dica: ao gerar os vídeos no Grok, adicione no prompt “gerar apenas efeitos sonoros” para obter sons temáticos prontos)
- Música de fundo sem direitos autorais (o YouTube Studio oferece uma biblioteca de áudio gratuita; para o estilo desses vídeos, busque por “science fiction” na biblioteca)
- Efeitos de transição entre cenas
Mantenha o volume da música bem abaixo da narração e adicione zoom em momentos-chave para aumentar o dinamismo.
Resumindo
Criar skeleton shorts virais é totalmente possível sem investimento financeiro e sem experiência técnica avançada.
O fluxo completo envolve: gerar roteiro e prompts no ChatGPT, criar imagens consistentes no Whisk, produzir narrações no Google AI Studio, animar as cenas no Grok e editar tudo no CapCut.
Com organização, pastas bem nomeadas e atenção aos detalhes de cada etapa, você consegue produzir conteúdo de alta qualidade que tem grande potencial de viralização.
O formato já está comprovado — falta apenas você aplicar o método ao seu nicho e começar a publicar.
Fonte do conteúdo: este artigo foi escrito a partir do estudo e análise do vídeo do YouTube https://www.youtube.com/watch?v=eAw7q4pa9eA.
