Microsoft Visual ChatGPT: chatbot tworzący obrazki

Wszystko wskazuje na to, że rok 2023 będzie rokiem generatywnej AI – czyli tworzącej tekst, obrazki i wideo. Końcówka minionego roku przyniosła nam rewolucyjne narzędzie, ChatGPT, ale to dopiero początek rewolucji, która właśnie nadchodzi. Jak donosi Analytics India Magazine, Microsoft, największy inwestor w OpenAI (firma, która stworzyła ChatGPT i model językowy GPT-3) opublikował na GitHub narzędzie Visual ChatGPT, czyli chatbota, który tworzy obrazki.

Visual ChatGPT zbudowano na modelach opartych na wizualizacjach (VFM –  Visual Foundation Models), w tym Transformers, ControlNet Stable Diffusion, połączonych z modelem językowym ChatGPT.

Rozwiązanie umożliwia wysyłanie zapytań w formie naturalnej rozmowy, a w odpowiedzi model odsyła ilustracje. W trakcie dyskusji z robotem użytkownik może doprecyzować swoje wymagania, w efekcie czego z każdą koleją iteracją wynikowy obraz jest modyfikowany tak, że staje się coraz bardziej podobny do tego, czego oczekiwał zadający pytania.

To oczywiście rozwiązanie podobne do takich aplikacji jak Midjourney czy DALL-E, z tą jednak różnicą, że tworzenie obrazów odbywa się nie poprzez wydawanie precyzyjnych komend, a przez chat oparty na języku naturalnym.

Obecną edycję Visual ChatGPT do własnej implementacji można pobrać z GitHub. Poniżej demo pierwszej wersji rozwiązania.

demo short
0 0 votes
Article Rating
Powiadomienia
Powiadom o
0 komentarzy
Inline Feedbacks
View all comments
0
Would love your thoughts, please comment.x