ฉันลองใช้ AI แปลงข้อความเป็นรูปภาพของ Google แล้วรู้สึกประหลาดใจกับผลลัพธ์

ฉันลองใช้ AI แปลงข้อความเป็นรูปภาพของ Google แล้วรู้สึกประหลาดใจกับผลลัพธ์

โปรแกรมปัญญาประดิษฐ์แปลงข้อความเป็นรูปภาพไม่ใช่สิ่งใหม่ อันที่จริง โครงข่ายประสาทเทียมที่มีอยู่อย่าง DALL-E ทำให้เราประทับใจด้วยความสามารถในการสร้างภาพที่เรียบง่ายและสมจริงจากประโยคสั้นๆ แต่สื่อความหมายได้

แต่สัปดาห์นี้ฉันค้นพบ Imagen (เปิดในแท็บใหม่) Image พัฒนาโดยทีม Brain ของ Google Research ซึ่งเป็น AI ที่คล้ายกับ DALL-E และ LDM อย่างไรก็ตาม เป้าหมายของ Brain Team with Image คือการสร้างภาพที่มีระดับความแม่นยำและความเที่ยงตรงสูงขึ้น โดยใช้ประโยคอธิบายสั้น ๆ ในลักษณะเดียวกันเพื่อสร้างภาพเหล่านั้น

ตัวอย่างของวลีประเภทนี้อาจเป็น "รูปถ่ายของแพนด้าขนยาวสวมหมวกคาวบอยและแจ็กเก็ตหนังสีดำขี่จักรยานบนยอดเขา" ตามการสาธิตบนเว็บไซต์ Imagen ค่อนข้างยาวแต่ประโยคมีโครงสร้างในลักษณะที่ AI สามารถระบุแต่ละองค์ประกอบตามเกณฑ์ของตัวเองได้

จากนั้น AI จะวิเคราะห์แต่ละส่วนของประโยคเป็นบล็อกข้อมูลที่ย่อยได้และพยายามสร้างภาพที่ใกล้เคียงกับประโยคนั้นมากที่สุด และหากปราศจากสิ่งแปลกปลอมหรือความไม่ชอบมาพากลที่นี่และที่นั่น Image สามารถทำได้ด้วยผลลัพธ์ที่รวดเร็วและแม่นยำอย่างน่าอัศจรรย์

ภาพวาดสีน้ำมันแมวบนสเก็ตบอร์ด

วาดภาพได้ดีกว่าฉัน (เครดิตรูปภาพ: Google/รูปภาพ)

สุขภาพดีเกินไปหน่อยไหม?

หากคุณเคยตรวจสอบรูปภาพหรือโครงข่ายประสาทเทียมอื่นๆ ด้วยตัวเอง คุณอาจสังเกตเห็นว่าบางหัวข้อได้รับความสนใจอย่างล้นหลาม ตัวอย่างเช่น DALL-E ชอบสร้างภาพโดยอิงจากสิ่งของในชีวิตประจำวันในบ้าน เช่น นาฬิกาหรือห้องน้ำ อย่างน้อยในตอนนี้ ดูเหมือนว่าภาพสัตว์น่ารักจะอยู่ในแนวหน้าของความสามารถในการสร้างภาพ แต่มีเหตุผลที่ดีมากสำหรับเรื่องนี้

ทีมงาน Brain ของ Google พูดอย่างรวดเร็วว่า Image ช่วยให้สิ่งต่าง ๆ ค่อนข้างไม่เป็นอันตราย ภายใต้ข้อจำกัดความรับผิดชอบที่ค่อนข้างยาว ทีมงานตระหนักดีว่าโครงข่ายประสาทเทียมสามารถใช้เพื่อสร้างเนื้อหาที่เป็นอันตราย เช่น ทัศนคติแบบเหมารวมทางเชื้อชาติหรือแนวคิดที่ก่อให้เกิดพิษ รูปภาพยังใช้ชุดข้อมูลที่ทราบว่ามีเนื้อหาที่ไม่เหมาะสมประเภทนี้

“ในขณะที่ชุดย่อยของข้อมูลการฝึกอบรมของเราถูกกรองเพื่อลบเสียงรบกวนและเนื้อหาที่ไม่ต้องการ เช่น ภาพลามกอนาจารและภาษาที่เป็นพิษ” Brain Team กล่าว “เรายังใช้ชุดข้อมูล LAION-400M เต็มรูปแบบที่ทราบว่ามีเนื้อหาที่ไม่เหมาะสมมากมาย รวมถึง ภาพลามกอนาจาร การเหยียดเชื้อชาติ และทัศนคติทางสังคมที่เป็นอันตราย

"รูปภาพอาศัยตัวเข้ารหัสข้อความที่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลเว็บที่ไม่ได้รับการดูแล ดังนั้นจึงสืบทอดอคติทางสังคมและข้อจำกัดของโมเดลภาษาขนาดใหญ่"

แมวเล่นกีต้าร์

มันเป็นหนึ่งในภาพถ่ายที่แปลกน้อยที่สุดที่ฉันสามารถสร้างด้วยรูปภาพได้ (เครดิตรูปภาพ: Google/รูปภาพ)

นี่เป็นสาเหตุที่ทีม Brain ของ Google ไม่มีความตั้งใจที่จะเผยแพร่ Image เพื่อการใช้งานสาธารณะ อย่างน้อยก็จนกว่าพวกเขาจะสามารถพัฒนา "การป้องกัน" ใหม่เพื่อป้องกันไม่ให้ AI ถูกใช้เพื่อวัตถุประสงค์ที่เป็นอันตราย ด้วยเหตุนี้ การแสดงตัวอย่างบนเว็บไซต์จึงจำกัดอยู่เพียงตัวแปรที่เลือกอย่างระมัดระวังเพียงไม่กี่ตัว

ในที่สุดก็เป็นทางเลือกที่เหมาะสม ในอดีตมีตัวอย่างโปรแกรม AI ที่เผยแพร่สู่สาธารณะทางออนไลน์... ซึ่งให้ผลลัพธ์ที่ไม่พึงประสงค์อย่างยิ่ง คุณอาจจำ Tay ของ Microsoft ซึ่งเป็นบัญชี AI Twitter ที่ได้รับการแนะนำให้รู้จักกับแพลตฟอร์มโซเชียลมีเดียเมื่อประมาณห้าปีที่แล้ว

Tay เป็นการทดลองที่กล้าหาญในส่วนของ Microsoft ความตั้งใจของพวกเขาคือการดูว่า AI จะตอบสนองและโต้ตอบกับคนจริงอย่างไรในสภาพแวดล้อมโซเชียลมีเดีย อย่างไรก็ตาม ในเวลาไม่กี่ชั่วโมง Tay ก็เปลี่ยนจากแชทบอทที่มีสติไปเป็นผู้จัดจำหน่ายประเด็นพูดคุยต่อต้านกลุ่มเซมิติก แม้ว่าบอทจะถูก "สร้างแบบจำลอง ทำความสะอาด และกรอง" ตามข้อมูลของ Microsoft (ขอบคุณ The Verge)

จากแบบอย่างที่กำหนดโดย AI เช่น Tay จึงเป็นเรื่องง่ายที่จะเห็นว่าเหตุใด Image จึงมีอำนาจเหนือกว่า เห็นได้ชัดว่าการกรองอย่างละเอียดอาจไม่เพียงพอ

ยังห่างไกลจากความสมบูรณ์แบบ

ในขณะที่ Image สร้างความประทับใจให้ฉันอย่างมากและฉันก็สนุกกับการผสมและจับคู่ประโยคเพื่อสร้างรูปภาพแปลก ๆ ทุกประเภท แต่ก็ไม่ใช่สิ่งที่ฉันพบว่าน่าสนใจอย่างท่วมท้น อย่างน้อยก็ยังไม่ได้

ส่วนใหญ่แล้ว Image จะให้ผลลัพธ์ที่ตลกมาก โดยเฉพาะอย่างยิ่งสัตว์มักจะปรากฏในสัดส่วนที่แปลกประหลาดทุกประเภท การได้เห็นแรคคูนหัวโตหรือแขนเหมือนมนุษย์เปื้อนเลือดจับแฮนด์จักรยานถือเป็นเรื่องปกติ แม้ว่าจะน่าขบขันมาก แต่ผลลัพธ์เฉพาะเหล่านี้ผสมกับความสมจริงของแสงมักให้ผลลัพธ์ที่ไม่มั่นคงและไม่มั่นคง

ตัวเลือกในการสร้างภาพเขียนสีน้ำมันนั้นน่าสนใจกว่ามาก และสิ่งที่ Imagen สามารถผลิตได้ส่วนใหญ่ที่นี่จะดูไม่เข้ากับโครงการของโรงเรียน และฉันหมายความว่าในวิธีที่ดีที่สุด ปรากฎว่าแมวเปอร์เซียที่เล่นกีตาร์แปลได้น่าเชื่อในภาพวาดมากกว่าในรูปจริง

ดังที่ระบุไว้ เป็นไปได้มากที่เราจะไม่ได้รับการเผยแพร่ต่อสาธารณะของ Image ในเร็วๆ นี้ หรือไม่ก็ไม่เคยเลย ความเสี่ยงที่เกิดจากโปรแกรมปัญญาประดิษฐ์และโครงข่ายประสาทเทียมที่สามารถสร้างเนื้อหาที่ไม่น่าเชื่อถือได้นั้นยังมีมากเกินไป แต่สำหรับตอนนี้ ฉันดีใจที่ Image เป็นเรื่องสนุกสำหรับผู้ที่ต้องการใช้เวลาสร้างสัตว์แสนสนุกในหมวกคาวบอยเล่นสเก็ตบอร์ดลงมาจากภูเขา