Ângulos e distância de câmeras no Stable Diffusion

E alguns exemplos de como usar

STABLE DIFFUSIONINTELIGÊNCIA ARTIFICIAL

9/12/20235 min ler

Nem só de Midjourney que vive um prompteiro de imagens. O Stable Diffusion recentemente lançou a sua mais nova versão, a XL, que bate de frente com o queridinho dos brasileiros. Como a SD não é muito popular por aqui, decidi trazer um pouco sobre o principal aspecto que torna essa IA de código aberto um dos carros chefes dentre os geradores de imagem.

Com o Stable Diffusion, temos a opção de obter uma liberdade de controle de ângulos e distância de câmeras através do prompt. Além de usar o ControlNet, os prompts podem ser usados para introduzir termos cinematográficos de controle e distância de ângulo.

Distância da câmera

Para comparar você pode usar o recurso na interface Automatic1111, para usar o Stable Diffusion com o script X/Y/Z para gerar o mesmo prompt (masterpiece, 1girl) com variações de distância, assim conseguimos ter um pouco de noção de como o prompt influencia na imagem gerada.

Alguns prompts podem te dar resultados semelhantes, mas usando eles combinados com outros prompts pode te ajudar a alcançar o resultado que deseja.

  • extreme close-up, medium close-up e close-up tendem a focar em detalhes específicos do rosto, se você adicionar mais detalhes do rosto, como cores dos olhos ou cabelos, poderá ter resultados bem detalhados.

  • medium-shot, long shot, upper body e medium full shot deram quase o mesmo resultado, sendo que full shot supostamente deveria nos dar uma imagem de corpo inteiro, poderíamos ter adicionado detalhes de roupas como calça, calçados e detalhes sobre o cenário para a IA entender que se trata de uma imagem de corpo todo.

  • establishing shot tende a focar em mais elementos da cena além do personagem, como background, por exemplo. Se você adicionar mais detalhes do cenário em seu prompt, o resultado será incrível.

  • point-of-view ou pov pode ser usado para simular o ponto de vista de outra pessoa que está interagindo com o personagem

  • cowboy shot nos dá um retrato com um enquadramento perfeito ao termo cinematográfico em questão, apesar de adicionar elementos visual a mais. Se usar esse enquadramento, recomendo adicionar os elementos indesejados no negative prompt

  • full body claramente entendeu o propósito aqui, nos dando uma imagem de corpo inteiro

Depois de determinar a distância, é hora de escolher o ângulo da câmera. Começando pelo básico e adicionando outras opções de ângulos. No resultado abaixo vemos que vários ângulos se repetem e alguns geram resultados literais aos seus termos. Porém com mais detalhes e um prompt mais preciso, os resultados podem ser satisfatórios. Lembrando que o prompt usado para teste de cada ângulo é o mesmo do exemplo anterior (masterpiece, 1girl).

Depois de determinar a distância, é hora de escolher o ângulo da câmera. Começando pelo básico e adicionando outras opções de ângulos. No resultado abaixo vemos que vários ângulos se repetem e alguns geram resultados literais aos seus termos. Porém com mais detalhes e um prompt mais preciso, os resultados podem ser satisfatórios. Lembrando que o prompt usado para teste de cada ângulo é o mesmo do exemplo anterior (masterpiece, 1girl).

  • front view e straight on te entrega resultados frontais, mas nem sempre perfeitos.

  • bilaterally simmetrical nos entrega um resultado quase surrealista de lados refletidos, mas usando o prompt symmetrical gera resultados onde o lado esquerdo e direito são simetricamente iguais com muito mais precisão.

  • side view pode ser da perspectiva do lado esquerdo ou direito.

  • from behind e back view te dá resultados com o personagem de costas

  • overhead shot, high angle, from above e slighly above entregam resultados com a vista de cima do personagem com high angle entregando uma vista maior do cenário.

  • from below te dá resultados de shots tirados de baixo com a vista do céu distorcida semelhante ao bird’s eye view, mesmo sem mencionar o termo no prompt

  • bird’s eye view entrega imagens tiradas de um ângulo alto, entregando muito do background.

  • wide angle te dá uma imagem com ângulo inclinado, você pode usar o termo cinematográfico dutch angle para ter resultados semelhantes.

  • fisheyes view tem muita distorção e a imagem vem sempre com peixes. Use o prompt negativo para corrigir isso.

  • macro view é um termo auto explicativo. Te dando imagens com uma lente macro. Se usado com imagens realistas te entrega um resultado perfeito.

  • top down view possui a perspectiva direta de cima, você pode usar o termo top view para ter resultados semelhantes.

  • hero view tem um ângulo propositalmente distorcido que vem de inspirações de ilustrações. O personagem acaba quase sempre com um uniforme de herói (?).

  • worm’s eye view é algo totalmente estranho com um resultado, talvez seja útil em alguma imagem com o tema de terror.

  • selfie é um termo auto explicativo, gerando resultados onde o personagem está tirando uma foto de si mesmo.

Alguns exemplos de combinações

1boy, 20yo, (establishing shot:1.5), (side view:1.5), walking in a cyberpunk city at night, outdoors

1boy, 20yo, (selfie:1.5), (from above:1.5), close-up, walking in a cyberpunk city at night, outdoors

1girl, 20yo, (top down:1.5), close-up, selfie

O ideal é que você sempre realize testes diferentes prompts para ir chegando no resultado que deseja. Claro, sempre tem a opção de usar o ControlNet para ter um resultado mais preciso e mais rápido, mas saber criar um prompt preciso e entender como a IA interpreta esses termos é importante. Você pode até mesmo testá-los no Midjourney ou em outras IA para ver como cada uma interpreta o termo em seus prompts.