Für den folgenden Beitrag hat mein AI-Assistant zusätzlich eine Podcast-Folge erstellt. Wer lieber hört, statt liest, kann den Podcast über folgenden Link hören (ACHTUNG: Podcast ist ausschliesslich von AI erstellt, keine Garantie für Richtigkeit).
KI-Technologien, wie ChatGPT können nicht nur Texte generieren, sondern erstellen auch Bilder für uns. Zusätzlich gibt es spezifische KI-Tools, wie Midjourney, DALL-E oder Leonardo.ai, die sich ausschliesslich auf das Erstellen von Bildern fokussiert haben. In diesem Beitrag zeige ich euch, wie ihr mit den richtigen Prompts einzigartige Bilder mit einer KI erstellt.
Zur Wiederholung
Was sind KI-Tools?
KI-Technologien oder auch KI-Tools oder Apps genannt sind Programme, die die Methoden der Künstlichen Intelligenz (KI) nutzen, um ihren Nutzern einen Mehrwert zu bieten. Ein bekanntes Beispiel für KI-Technologien ist ChatGPT. Das KI-Tool hat vor allem wegen seiner hohen Benutzerfreundlichkeit und der kostenlosen Nutzungsmöglichkeiten in den letzten zwei Jahren deutlich an Bekanntheit gewonnen. Diese Art der KI-Tools, nutzt eine besondere Art der Künstlichen Intelligenz – die Generative Künstliche Intelligenz. Dank dem Einsatz von Generative KI sind moderne KI-Technologien in der Lage neue Inhalte zu produzieren, die es vorher in dieser Form nicht gab. KI-Technologien unterstützen ihre Nutzer auf eine komplett neue Art und Weise und sind in der Lage imm mehr menschliche Prozesse zu skalieren. ChatGPT ist sehr generisch und wenig auf einzelne Usecases fokussiert. Es gibt aber eine Vielzahl weiterer Generative KI-Technologien, die sich auf sehr konkrete Anwendungen, wie Podcast- Erstellung, Meetingnotes-Verarbeitung, Recherchen, Bild-Erstellung und viele weitere fokussiert haben. Eine kommentierte Übersicht zu geprüften KI-Technologien für relevante Anwendungen findet ihr in der Generative KI-Technologien Übersicht.
Welche KI-Technologien gibt es für Bilder?
Midjourney
Midjourney ist derzeit wohl das beliebteste Bild-KI-Tool am Markt. Bislang galt das Tool jedoch als ein Profi-Tool ohne Gratis-Version. Seit Ende August 2024 können jedoch alle User mit einem Googel Account Midjourney Web (kostenlos) nutzen*. Mit dem Link: midjourney.com/imagine kann sich jeder ein kostenloses Konto erstellen und KI-Bilder generieren lassen. ltest du aber besonders auf die Bildrechte aufpassen.
*Die kostenlose Variante gab es leider nur für knapp 5 Tage, nun gibt es auch wieder ein kleines Abo bei Midjourney.
DALL-E
DALL-E ist die Bild-KI von Open AI. Derzeit können User DALL-E nur in GPT 4 benutzen und es gibt keine kostenlose Variante.
Für gute Ergebnisse beschreibe die Stimmung, um das richtige Gefühl zu erzeugen. Dazu gehört auch die Lichtverhältnisse oder die Tageszeit zu beschreiben. Ausserdem können User DALL-E ebenfalls dazu auffordern, Dinge aus deinen Bildern auszuschliessen oder keine eigenständigen Details zu ergänzen. Sollen Gruppen von Personen abgebildet werden, sage DALL-E wie viele, da der Bot sonst dazu neigt, möglichst viele Menschen in ein Bild zu pressen.
DALL-E hat den Nachteil, dass es dir per Default quadratische Bilder ausgibt. Andere Seitenverhältnisse im Prompt zu bestimmen, funktioniert nur mässig.
Stable Diffusion
https://stablediffusionweb.com/#google_vignetteStable Diffusion ist ein Open-Source-Tool von Stability AI. Im Free Plan können User zwei Bilder gleichzeitig generieren lassen. Im Premium-Abo hat man immer die Wahl zwischen vier Bildern. Diese werden für sieben Tage gespeichert. User können auch Bilder hochladen und diese dann umwandeln lassen.
Canva Magic Media
In der Pro Version von Canva können Nutzer ebenfalls Bilder mit einer KI generieren lassen. Canva stützt sich dabei ebenfalls auf Stable Diffusion. Der Vorteil hier ist, dass man hier vier Bilder gleichzeitig generieren kannst. Ausserdem verfügt Canva über eine DALL-E-Integration. User können also beide KIs nutzen und schauen, welche besser funktioniert.
Leonardo
Leonardo ermöglicht Kunst, Bilder und Videos mit Hilfe von KI zu kreieren. Das Tool hilft kreativen Visionen umzusetzen und von Anime über fotorealistische Porträts bis zu 3D-Texturen alles visualisieren zu können. Es wird eine breite Palette an KI-Werkzeugen angeboten und die Plattform nutzt verschiedenste Modelle, die speziell auf unterschiedliche Stile und Anforderungen abgestimmt sind und Dir so eine hohe Flexibilität beim Generieren von Bildern bietet. Zu den Hauptfunktionen von Leonardo zählen: Kunst- und Bildgenerierung: Mit einfachen Textanweisungen bist Du in der Lage alles von detaillierten Illustrationen bis zu komplexen Grafiken anfertigen zu lassen. Videoanimation: Statische Bilder können einfach beeindruckende Animationen konvertiert werden, um dynamische Geschichten zu erzählen oder Deine Präsentationen zu bereichern. Transparente PNG-Erstellung: Für Webdesign und Produktpräsentationen kannst Du ebenfalls Bilder mit freigestelltem Hintergrund erstellen. 3D-Texturierung: Du hast die Möglichkeit 3D-Modelle hochzuladen und Leonardo kreiert Dir passende, realitätsnahe Texturen.
KI-Tools zur Bildgenerierung nutzen: Step-by-Step Anleitung
Die Bildgenerierung mit KI-Tools ist mehr als nur ein einfacher Prompt. Wie auch bei der Verwendung von anderen KI-Technologien, müssen wir uns auch bei der KI-Bildgenerierung zunächst selbst ein Konzept erstellen bzw. überlegen, was wir eigentlich wollen.
Vorbereitung
Zunächst müsst ihr eure eigene Idee entwickeln. Was wollt ihr eigentlich für ein Bild haben? Wozu wird das Bild verwendet? Wer ist die Zielgruppe des Bildes? Was wollt ihr mit dem Bild aussagen?
Je genauer eure eigenen Ideen für das Bild sind, desto besser wird auch der Prompt für die KI-Bildgenerierung und euer Ergebnis am Ende.
Umsetzung
Wenn ihr selbst ein „Bild von eurem Bild im Kopf habt“ könnt ihr mit dem Prompten beginnen. Beschreibt das Bild, das ihr erzeugen möchtet, in kurzen und präzisen Sätzen. Seid bei der Beschreibung des Bildes spezifisch und detailliert und verwendet eine konkrete Struktur und Sprache. (Im weiteren Verlauf dieses Beitrag findet ihr konkrete Prompt-Anweisungen.)
Verbesserung
In den meisten Fällen klappt es nicht beim ersten Versuch. Nutzt also die Möglichkeiten des Feedbacks und Verbessern und gebt der KI so lange weitere Aufforderungen bzw. Prompts, bis das KI-Bild euren Erwartungen entspricht.
Nutzung
Zum Schluss müsst nur noch die KI-generierten Bilder herunterladen und dann könnt ihr sie nutzen. Beachtet aber Hinweise zum Datenschutz und seid transparent. Kennzeichnet eure KI-generierten Bilder auch als solche. Dies könnt ihr zum Beispiel mit einem Untertitel oder einem Wasserzeichen machen.
3 wichtige Tipps für KI-Prompts für Bilder
Für die Anfänger im Bereich der KI-Bildgenerierung habe ich 3 einfache Tipps. Wenn ihr die bei eurem Prompt berücksichtigt, erhaltet ihr schon mal die ersten guten Ergebnisse.
- Beschreibung Subjekt: Was siehst du?
- Details und Umgebung: Was ist damit?
- Stil, Künstler, Media Typ: Wie sieht es aus?
Wie baue ich einen Prompt zur KI-Bildgenerierung auf?
Wenn euch die 3 Tipps oben nicht ausreichen, dann gehört ihr schon zu den Fortgeschrittenen. Im Allgemeinen gilt es dann den Prompt wie folgt aufzubauen:
- Bildtyp (Foto, Logo, Stil…)
- Hauptmotiv (Landschaft, Person, Tier, Objekt…)
- Szenerie (Umgebung…)
- Wann (Zeit, Licht…)
- Wie (Künstler, Kamera, Farbe…)
- Weitere Parameter und Stile
Profi-Tipps für KI-Bilder: Noch mehr Details
Wem die oben gezeigten Prompt-Tipps immer noch nicht ausreichen, der kann seinen Prompt mit den folgenden Kategorien ergänzen. Hier gilt jedoch zu beachten, dass KI-Bilder häufig auch von Laien erstellt werden. Nicht jeder KI-Nutzer kennt sich mit Fotografie oder Bildgenerierung im tieferen Sinne aus. Die folgenden Profi-Tipps erfordern also ein fundiertes Hintergrundwissen über Kunst, Bilder und Fotografie.
- Kunststile: Abstrakt, Abstrakter Expressionismus, Akademismus, Amerikanischer Realismus, Anime, Art deco, Art Nouveau, Arts and Crafts, Atompunk, Barock, Bauhaus, Biopunk, Klassischer Realismus, Clockpunk, Konzeptkunst, Kubismus, Cybernoir, Cyberpunk, Dark Fantasy, Decopunk, Dieselpunk, Digitale Kunst, Expressionismus, Fantasy-Realismus, Flowerpunk, Fine Art, Forestpunk, Futurismus, Gothic, Harlem Renaissance, High Fantasy, Impressionismus, Installationskunst, Manga, Moderne Kunst, Modernismus, Neoklassik, Neo-Impressionismus, Neuer Realismus, Op Art, Fotorealismus, Pixel Art, Pop Art, Post-Impressionismus, Postmoderne, Präzisionskunst, Realismus, Rokoko, Romantik, Sozialistischer Realismus, Steampunk, Surrealismus, Synthwave
- Malarten: Acrylfarbe, Airbrush, Leinwand, Höhlenmalerei, Chinesische Malerei, Kaffeefarbe, Farbfeldmalerei, Tropfende Farbe, Feine Kunst, Glasmalerei, Gouache, Graffiti, Hard Edge Painting, Hydrodip, Wandmalerei, Öl auf Leinwand, Ölfarbe, Malerei, Papiermarmorierung, Puffy Paint, Rock Art, Scroll Painting, Splatter Paint, Sprühfarbe, Stillleben, Street Art, Temperafarbe, Tibetische Malerei, Aquarell, Nassfarbe
- Druckstile: Werbung, Aquatinta, Banner, Barcode, Blockdruck, Blaudruck, Broschüre, Visitenkarte, Collage, Malbuch, Comic, Cyanotypie, Wahlfoto, Wahlplakat, Radierung, Graphic Novel, Halbton, illuminierte Handschrift, illustrierte Broschüre, Gebrauchsanweisung, Stichtiefdruck, Linolschnitt, Lithografie, Logo, Zeitschrift, „Magic the Gathering“-Karte, Manuskript, Karte, Schabkunst, Monodruck, Filmplakat, Zeitung, Zeitungsdruck, Fotocollage, Fotografie, Briefmarke, Plakat, Produktfoto, Propagandaplakat, QR-Code, Schema, Beschilderung, Silbergelatine, Aufkleber, Storyboard, Storybook-Illustration, Tarotkarte, Ukiyo-e, Visual Novel, Wandaufkleber, Holzschnitt
- Adjektive: fremd, uralt, engelhaft, wütend, ängstlich, sportlich, preisgekrönt, einfach, schön, chaotisch, fröhlich, sauber, kalt, bunt, verwirrend, gemütlich, gruselig, niedlich, deprimierend, detailliert, schmutzig, ekelhaft, verträumt, trocken, ekstatisch, älter, ätherisch, böse, aufgeregt, teuer, ausgefallen, fett, flach, flaches Design, flache Schattierung, flauschig, freundlich, pelzig, unscharf, düster, gut, hinreißend, gruselig, haarig, glücklich, sehr detailliert, riesig, hyperrealistisch, unmöglich, inkohärent, kompliziert, kompliziert maximalistisch, freudig, groß, einsam, klar, leuchtend, massiv, massiver Maßstab, reif, sanft, mikro, mini, minimalistisch, launisch, morbide, gesprenkelt, gedämpft, nano, nervös, OCD, alt, verschnörkelt, jenseitig, fotorealistisch, schlicht, kraftvoll, hübsch, unbezahlbar, psychedelisch, ruhig, regnerisch, realistisch, erfrischend, traurig, einfach, unheimlich, schläfrig, glatt, gespenstisch, stark, Oberflächendetail
- Beleuchtung: Akzentbeleuchtung, Nachmittag, künstliche Beleuchtung, Hintergrundbeleuchtung, schöne Beleuchtung, blaue Stunde, helle Beleuchtung, beleuchtet von Kerzenlicht, Weihnachtsbeleuchtung, filmische Beleuchtung, farbige Beleuchtung, Gegenlicht, Dämmerlicht, dunkle Beleuchtung, Morgendämmerung, Tageslicht, Tageszeit, gedämpfte Beleuchtung, dramatische Beleuchtung, Dämmerung, Abend, Film-Noir-Beleuchtung, beleuchtet von Feuerschein, flackerndes Licht, Flutlicht, Leuchtstofflicht, Frontbeleuchtung, globale Beleuchtung, goldene Stunde, Halbdunkelbeleuchtung, Halogenlicht,
- Zeitabschnitte: Altes Ägypten, Altes Griechenland, Altes Rom, Antike, Assyrisches Reich, Azteken, Babylonisches Reich, Benin-Königreich, Bronzezeit, Byzantinisches Reich, Karolingisches Reich, Dunkles Mittelalter, Edwardianisches Zeitalter, Elisabethanisches Zeitalter, Georgianisches Zeitalter, Gilded Age, Great Depression, Heian Periode, Inka, Industrielle Revolution, Eisenzeit, Maori, Maya, Mittelalter, Meiji Periode, Mitte des Jahrhunderts, Mittelalter, Ming-Dynastie, Minoisch, Modern, Maurisch, Mughal-Ära, Nasrid, Navajo, Neolithisch, Olmekisch, Osmanisches Reich, Paläolithisch, Persisches Reich, Präkolumbisch, Prähistorisch, Qing-Dynastie, Regency, Renaissance, Retro, Shang-Dynastie, Songhai, Steinzeit, Sumerisch, Tokugawa Shogunat, Tudor, Viktorianisch, Wikinger, Erster Weltkrieg, Zweiter Weltkrieg, Zhou-Dynastie, Zuni-Pueblo, 1100er Jahre, usw.
- Dekorative Kunst: 3D-Druck, Amigurumi, Applizieren, Ballonmodellieren, Ballondrehen, Basrelief, Perlenstickerei, geblasenes Glas, Knochenporzellan, geschnitzt, geschnitztes Elfenbein, geschnitzter Lack, Schnitzen, Kneten, Cloisonne, Häkeln, Kreuzstich, Diorama, Stickerei, Emaillieren, Filzen, Laubsägearbeiten, Glasmosaik, Eisschnitzerei, impressionistisches Mosaik, Einlegearbeiten, Intarsien, Puzzle, Häkeln, Lack, Lampwork, Lattenkunst, Lederschnitzerei, Lederarbeiten, Marmor, Einlegearbeiten, Mikromosaik, Miniaturmalerei, modulares Origami, Mosaik, Handarbeit, Origami, Papiermodell, Papierschnitt, Pappmaché, fotografisches Mosaik, Pietra dura, Porzellan, Töpferei, Puppe, Puzzle, Pysanky, Quiltwork, Quilting, Relief-Schnitzerei, Repousse, Origami, Sand Art, Scrimshaw, Skulptur, Glasmalerei, Statue, String-Art, Wandteppich, Tattoo, Tattoo Art, Venezianisches Glas, Weben, Nassfalten, Schnitzen, Holzbrennen
- Rendering-Techniken: 3D-Modell, 3ds Max, 500px, Arnold Render, ArtStation, Blender Render, CGsociety, Cinema4D Render, CryEngine, Cycles Render, Daz 3D, DeviantArt, DirectX Render, Doughy Render, Houdini Render, Infini-D Render, KitBash3D, Luxcore Render, Marvelous Designer, MentalRay Render, OctaneRender, Optix Render, Photobashed, Photoshop, physikalisch basierte Render, Pixia, Quixel Megascans, Raylectron Render, Redshift Render, Sketchfab, Substance 3D, Terragen, Unreal Engine, Vray Render, Weta Digital, Zbrush Render
- Fotografie Stile: Daguerreotypie, Tintype, Filmnegativ, Tri-X, Kodachrome, Diafilm, Portra 800, Natura 1600, Ilford Delta 3200, Polaroid, Hasselblad, Doppelbelichtung, Mehrfachbelichtung, Großformatkamera, Weitwinkelobjektiv, Fisheye-Objektiv, Tilt-Shift-Objektiv, Anamorphot, Lensbaby, Teleobjektiv, Prime-Objektiv, f1.8, f2.8, f4, f11, f16, Fotoshooting, kommerziell, Thermografie, Röntgen, Infrarot
- Künstler/innen: William Logsdail, Beatrix Potter, Roy Lichtenstein, Richard Corben, Michaelangelo, Gerhard Richter, Bjarke Ingels, John Berkey, George Inness, Peter Andrew Jones, J.M.W. Turner, Todd McFarlane, Caravaggio, Atey Ghailan, Hirohiko Araki, Huang Guangjian, Ray Caesar, Takeshi Obata, Antoine Blanchard, Diego Velázquez, Romero Britto, Guido Borelli da Caluso, Lucas Cranach the Elder, Nele Zirnite, Bob Ross, Zdzislaw Beksinski, Glen Fabry, Jane Graverol, Krenz Cushart
- Farben: schwarz, silber, grau, weiß, kastanienbraun, rot, lila, fuchsia, grün, limone, oliv, gelb, marineblau, blau, aquamarin, aquamarin
- Gebräuchliche Ausdrücke, die Ergebnisse steigern können: Meisterwerk, Trend auf artstation, Trend auf pixiv, lebendig, dynamisch, geometrisch, kompliziert, hochwertig, detailliert
Was muss ich bei der Nutzung von KI-Bildern beachten?
Abgesehen von den passenden Prompts, gibt es einige weitere Aspekte, die ihr bei der KI-Bildgenerierung beachten solltet.
Bildrechte
Wenn ihr Bilder von einer KI-Technologie erstellen lasst, heisst das nicht, dass ihr automatisch alle Rechte daran hast. Es kommt darauf an, was auf den Bildern zu sehen ist. Sind beispielsweise Logos abgebildet, kann das problematisch werden.
Ausserdem ist zwischen Nutzungs- und Urheberrechten zu unterscheiden. Um wirklich auf der sicheren Seite zu sein, solltet ihr euch umfassend informieren und gegebenenfalls eine Rechtsberatung in Betracht ziehen.
Uncanny Valley
Bei Bildern von Personen gibt es wie schon genannt ein paar Fallstricke, auf die ihr Acht geben musst. Doch selbst wenn ihr diese eliminiert habt und ein anatomisch korrektes Ergebnis erhalten hast, haftet KI-Bildern zuweilen etwas Unwirkliches an. Man kann es nicht genau benennen, aber irgendetwas stimmt nicht. Dieser Effekt ist als “Uncanny Valley” bekannt. Ein bekanntes Beispiel ist der Animationsfilm Polarexpress, bei dem die Figuren des Films keine Akzeptanz durch das Publikum erfuhren. Deshalb sind in Animationsfilmen häufig Tiere oder andere nicht-menschliche Wesen zu sehen, um den Effekt zu umgehen. Eine weitere Methode sind Animationsstile, die weniger fotorealistisch sind.
Überlegt euch also gut, ob ihr wirklich Menschen durch KI darstellen lassen möchtest.
Trial and Error
Es klingt so einfach: Ich beschreibe in ein paar Worten, wie das Bild auszusehen hat und in wenigen Sekunden erhalte ich ein Ergebnis, das genau meinen Vorstellungen entspricht. Kein ewiges Hin und Her, keine Feedbackschleifen. Die Realität sieht leider anders aus.
KI-Tools können durchaus solide Ergebnisse liefern, oft werden sie aber nicht dem entsprechen, was du dir eigentlich gewünscht hast. Ein Designer, der deine Brand kennt und mit dem du zuvor schon gearbeitet hast, kann deine Vorstellungen sehr viel präziser umsetzen und versteht deine Vision besser, als eine KI es kann. Er kann auch individuell auf dein Feedback eingehen und versteht deine Änderungswünsche besser.
Der Teufel steckt im Detail
Neben zusätzlichen Fingern oder ungleichen Augen, gibt es oft weniger offensichtliche Fehler, die sich in KI-generierte Bilder schleichen. Gerade wenn viele Gegenstände abgebildet sind, können Fehler schnell mal untergehen. Wenn ihr das Bild dann ohne nochmalige Kontrolle veröffentlicht und der Fehler bemerkt wird, wirkt das unprofessionell. Deshalb solltet du immer ganz genau hinsehen.
Noch mehr Fragen?
Dann schreibt mir eine Nachricht mit euren Wünschen und Fragen und wir finden ein Angebot für euch. Schickt mir einfach eine Nachricht per WhatsApp Nachricht oder per E-Mail.
Oder kommt direkt in meine WhatsApp Gruppe – da poste ich regelmässig Usecases, News, Best Practices, Events und vieles mehr rund um Chatbots, ChatGPT und Co..
Übrigens ich habe auch einen allgemeinen Prompt-Guide erstellt. Er kann auf der folgenden Seite direkt runtergeladen werden.
Diesen Beitrag gibt es übrigens auch als Podcast-Folge
Achtung! Der Podcast wurde komplett von meinem AI-Assistant auf Basis meines Beitrags erstellt – keine Garantie für Fehl-Inhalte.