Leonardo AI verovert de wereld van generatieve kunst enorm snel. Deze AI-tool heeft zelfs al een plek in mijn persoonlijke top 5 gekregen. Het is net wat veelzijdiger dan de meeste andere tools. Hoewel Leonardo AI draait op Stable Duffusion, hebben zij als een van de weinigen er een écht gebruiksvriendelijk jasje over weten te maken. Gebruikers hebben (bijna) alle mogelijkheden die je binnen een eigen install van Stable Diffusion ook hebt. Veel daarvan zie je terug in het Image Guidance tabblad. Hier vind je krachtige opties, zoals Image to Image, Style reference, Content Reference, Depth to Image en nog veel meer. Dit zijn allemaal bekende ControlNet feautures. In deze blog bekijk ik deze en geef ik per Image Guidance een voorbeeld.
Wat is ControlNet (kort)
ControlNet is een methode om extra informatie toe te voegen aan tekst-naar-afbeelding modellen zoals Stable Diffusion. Deze extra informatie helpt het model om een afbeelding te genereren die beter voldoet aan uw wensen. Denk daarbij aan een referentieafbeelding, een schets of informatie over de diepte van de afbeelding.
Alle soorten ControlNet Image Guidance opties in Leonardo AI
Wanneer je een prompt gaat maken en genereren, zie je bij Leonardo AI het tabblad Image Guidance staan. Hier kan je tot vier afbeeldingen uploaden. Ik raad overigens aan om één, maximaal twee afbeeldingen te gebruiken. Je vinkt vervolgens aan wat voor soort Image Guidance het moet worden. Je hebt de keuze uit:
- Image to Image
- Style Reference
- Content Reference
- Depth to Image
- Edge to Image
- Pose to Image
- Tekst Image Input
Hieronder zal ik al deze vormen van ControlNet Image Guidance uitleggen en er een duidelijk voorbeeld bij geven.
Tip: Het beste resultaat behaal je als de referentieafbeelding hetzelfde formaat heeft als de nieuwe afbeelding die je gaat genereren.
Image to Image
- Wat: AI bekijkt het kleurpatroon en het algehele uiterlijk van een invoerafbeelding en gebruikt dit om uw afbeeldingsgeneraties te begeleiden.
- Strength: van 0 tot 0.90 in te stellen
Dit is wellicht de meest bekende optie, maar zeker niet altijd de beste. Een lage strength zorgt dat de afbeelding minder goed wordt opgevolgd als referentie en er meer creatieve vrijheid is voor Leonardo AI. Bij een hoge waarde wordt de afbeelding wel goed opgevolgd. Ik heb hieronder een referentieafbeelding gemaakt. Deze heb ik bij Image Guidance #1 ingesteld als referentie.
Vervolgens heb ik een Strength van 0.30 gebruikt, omdat ik niet wil dat de output volledig hetzelfde wordt qua compositie en kleuren. Ik geef mezelf hier meer vrijheid mee in de tekstprompt. Ik geef aan:
A woman standing in the forest, trees in the background, outside
Gemaakt met: Leonardo Anime XL, 1024x768, Anime filter
Je ziet dat de look and feel redelijk hetzelfde zijn.
Als ik de strength omhoog zou zetten, bijvoorbeeld naar 0.80, dan wordt de originele afbeelding steeds meer gevolgd. Je krijgt dan – met dezelfde prompt als eerst – een soortgelijke afbeelding, maar dan met een nieuw onderwerp en wat nieuwe elementen. De vrouw staat dan niet buiten tussen de bomen, maar in een soort boskeuken.
Style Reference
- Wat: Pakt de stijl uit een referentieafbeelding en injecteert deze in de nieuwe gegenereerde afbeelding
- Strength: Low, Mid, High, Ultra, Max
Bij een stijlreferentie gaat het niet om de vormen, pose en compositie in de afbeelding, maar puur om de stijl. In het voorbeeld wat ik hierboven gaf is er een anime / Studio Ghibli-achtige stijl gebruikt. Ik probeer deze nu te gebruiken in een hele nieuwe afbeelding met behulp van de Style Reference. Ik vul weer de originele afbeelding in als Image Guidance. Vervolgens vul ik een nieuwe prompt in.
A cyclist in a Dutch landscape
Content Reference
- Wat: Verwijst naar de inhoud van de invoerafbeelding als leidraad voor uw gegenereerde afbeelding
- Strength: Low, Mid, High
- Meer info: Bekijk de uitgebreide blog over Content Reference in Leonardo AI
- Video bekijken:
Dit is een van de nieuwste toevoegingen aan Leonardo AI. De algemene beschrijving is wat ingewikkeld. Het is eigenlijk vrij eenvoudig. Je uploadt een afbeelding en Leonardo AI probeert de pose, vorm en positie van de elementen in de afbeelding aan te houden. Je kan deze zelf opnieuw opvullen door middel van een Text-to-Image prompt. Ik zie het als een soort krachtigere Image-to-Image. Als voorbeeld heb ik weer de afbeelding genomen van de man in de keuken. Deze heb ik met een simpele prompt omgezet naar een foto, maar wel met dezelfde compositie. Dit is een van mijn meest favoriete ControlNet functies in Leonardo AI.
Depth to Image
- Wat: Detecteert de dieptekenmerken van elk invoerbeeld en gebruikt dit om uw beeldgeneratie te begeleiden.
- Strength: 0 tot en met 2.00
Waar Content Reference bestaat uit een combinatie van ControlNet opties, haalt Depth to Image maar één ding uit de referentieafbeelding: de diepte. Ik merk wel dat Depth to Image vaak ook andere kenmerken overneemt, zoals de vorm en compositie. Dit is een van de redenen waarom ik deze optie zelden gebruik. Het is wel handig als je een bepaalde diepte in je afbeelding wilt hebben. AI heeft soms de neiging om dingen heel dichtbij te plaatsen op een foto. Ik kan dit het beste uitleggen aan de hand van een voorbeeld. Voor de afwisseling in dit artikel heb ik een andere afbeelding gemaakt!
Stonehenge travel poster, summer, modern illustration, in the style of graphic novel inspired illustrations, in the style of otherworldly scenes, oriental minimalism, minimalist landscapes,bright colors, sunshine, muted colors, less detailed
Gemaakt met: Leonardo Lightning XL, 1024x768, Anime filter
Ik heb deze afbeelding bij Image Guidance ingevuld en daarbij het woord Stonehenge vervangen door Eiffeltower. Je ziet dat in de output de afbeelding qua diepte erg overeenkomt.
Links referentieafbeelding Depth To Image / Rechts de nieuwe afbeelding met Image Guidance On. Gemaakt op 0.23 strength.
Edge to Image
- Wat: Detecteert randen in elk invoerbeeld en gebruikt dit om uw beeldgeneratie te begeleiden.
- Strength: 0.00 tot en met 2.00
Edge to Image maakt als een ware een blauwdruk van je referentieafbeelding. In de nieuwe afbeelding worden de contouren gebruikt om een nieuwe afbeelding te maken. Het gaat hier dus echt om de compositie van de afbeelding. Ik moet eerlijk toegeven dat ik hier de voorkeur geef aan Content Reference, omdat dit net wat krachtiger lijkt te zijn. Je kan met Edge to Image erg goed de compositie van het originele beeld behouden, maar de artistieke stijl van de nieuwe afbeelding wel veranderen. In dit voorbeeld heb ik de eerste afbeelding uit het bovenstaande voorbeeld genomen en ben ik overgeschakeld naar de PhotoReal modus, om zo van anime/cartoon naar een realistische foto te gaan, zonder de compositie te verliezen.
Goed om te weten: een strength van 0.25 was hier voldoende om de compositie te behouden.
Pose to Image
- Wat: Detecteert de pose van alle tekens in elke invoerafbeelding en gebruikt deze om het genereren van uw afbeeldingen te begeleiden.
- Strength: 0.00 tot en met 2.00
Bij Pose to Image wordt alleen gekeken naar de poses van karakters in de referentieafbeelding. Je kan dan in dezelfde houding een nieuwe afbeelding genereren. Er wordt dan niet gekeken naar diepte en overige compositie. Wil je dit wel? Dan gebruik je de Content Reference. Deze functie houdt namelijk óók rekening met pose, naast compositie. In het onderstaande voorbeeld heb ik een AI-gegenereerde selfie omgezet van vrouw naar man, maar wel in een soortgelijke houding.
Tip: Om de pose goed over te nemen gebruik ik vaak een strength van 1.00 of hoger.
Tekst Image Input
- Wat: Neemt witte tekst op een zwarte achtergrond op en gebruikt deze om het genereren van uw afbeeldingen te begeleiden.
- Strength: 0.00 tot en met 2.00
Je kan bij de laatste Image Guidance optie in Leonardo AI een afbeelding met zwarte letters op een witte achtergrond te uploaden. Je stelt vervolgens de strength in en geeft daarbij een prompt. Je kan in deze prompt de tekstkleur natuurlijk aanpassen.
Tip: In de documentatie van Leonardo AI staat dat je een witte tekst op een zwarte achtergrond moet uploaden, maar dit is denk ik een foutje. Dit moet andersom zijn, omdat je dan echt het beste resultaat krijgt.