সীমা ছাড়া এআই ইমেজ জেনারেটরের আনন্দ এবং ভয়

স্ট্যাবল ডিফিউশনের মতো ইমেজ জেনারেটরগুলি বাস্তব ফটোগ্রাফ বা হস্ত-নির্মিত চিত্রের মতো দেখতে এমন কিছু তৈরি করতে পারে যা একজন ব্যক্তি কল্পনা করতে পারে। এটি সম্ভব অ্যালগরিদমগুলির জন্য ধন্যবাদ যা ওয়েব এবং ইমেজ ডাটাবেস থেকে নেওয়া চিত্রগুলির একটি বিশাল সংগ্রহের বৈশিষ্ট্যগুলিকে তাদের সম্পর্কিত পাঠ্য লেবেলের সাথে সংযুক্ত করতে শেখে। অ্যালগরিদমগুলি একটি চিত্রের সাথে র্যান্ডম শব্দ যোগ করা এবং অপসারণ করার সাথে জড়িত এমন একটি প্রক্রিয়ায় একটি পাঠ্যের সাথে অবিলম্বে মেলে নতুন চিত্রগুলি রেন্ডার করতে শেখে৷

যেহেতু স্টেবল ডিফিউশনের মতো টুলগুলি ওয়েব থেকে স্ক্র্যাপ করা ছবি ব্যবহার করে, তাদের প্রশিক্ষণের ডেটাতে প্রায়ই পর্নোগ্রাফিক ছবি অন্তর্ভুক্ত থাকে, যা সফ্টওয়্যারটিকে নতুন যৌনতাপূর্ণ ছবি তৈরি করতে সক্ষম করে। আরেকটি উদ্বেগের বিষয় হল যে এই ধরনের সরঞ্জামগুলি এমন চিত্র তৈরি করতে ব্যবহার করা যেতে পারে যা দেখায় যে একজন প্রকৃত ব্যক্তিকে কিছু আপোস করছে – এমন কিছু যা ভুল তথ্য ছড়াতে পারে।

AI গবেষণা সংস্থা OpenAI দ্বারা DALL-E নামক একটি সিস্টেমের ঘোষণার মাধ্যমে 2021 সালের জানুয়ারীতে এআই-উত্পন্ন চিত্রের গুণমান গত দেড় বছরে বেড়েছে। এটি টেক্সট প্রম্পট থেকে ইমেজ তৈরির মডেলটিকে জনপ্রিয় করেছে, এবং আরও শক্তিশালী উত্তরসূরি, DALL-E 2, যা এখন বাণিজ্যিক পরিষেবা হিসাবে উপলব্ধ, 2022 সালের এপ্রিলে অনুসরণ করেছিল।

শুরু থেকেই, OpenAI সীমাবদ্ধ করেছে কে তার ইমেজ জেনারেটর অ্যাক্সেস করতে পারে, শুধুমাত্র একটি প্রম্পটের মাধ্যমে অ্যাক্সেস প্রদান করে যা যা অনুরোধ করা যেতে পারে তা ফিল্টার করে। এই বছরের জুলাই মাসে প্রকাশিত মিডজার্নি নামে একটি প্রতিযোগী পরিষেবার ক্ষেত্রেও একই কথা সত্য, যেটি ব্যাপকভাবে অ্যাক্সেসযোগ্য হওয়ার মাধ্যমে এআই-তৈরি শিল্পকে জনপ্রিয় করতে সাহায্য করেছে।

স্টেবল ডিফিউশন প্রথম ওপেন সোর্স এআই আর্ট জেনারেটর নয়। আসল DALL-E রিলিজ হওয়ার কিছুক্ষণ পরেই, একজন ডেভেলপার DALL-E মিনি নামে একটি ক্লোন তৈরি করেছিলেন যা যে কারও জন্য উপলব্ধ করা হয়েছিল এবং দ্রুতই একটি মেম তৈরির ঘটনা হয়ে ওঠে। DALL-E Mini, পরে Craiyon নামে পুনঃব্র্যান্ড করা হয়েছে, এখনও DALL-E-এর অফিসিয়াল সংস্করণগুলির মতোই গার্ডেল অন্তর্ভুক্ত করে। Stable Diffusion এবং Craiyon সহ অনেকগুলি ওপেন সোর্স AI প্রকল্পগুলি হোস্ট করে এমন একটি সংস্থা HuggingFace-এর সিইও ক্লেমেন্ট ডেলাঙ্গু বলেছেন, প্রযুক্তিটি শুধুমাত্র কয়েকটি বড় কোম্পানির দ্বারা নিয়ন্ত্রিত হওয়া সমস্যাযুক্ত হবে।

“আপনি যদি প্রযুক্তির দীর্ঘমেয়াদী উন্নয়নের দিকে তাকান, এটিকে আরও উন্মুক্ত, আরও সহযোগিতামূলক এবং আরও অন্তর্ভুক্ত করা, আসলে নিরাপত্তার দৃষ্টিকোণ থেকে আরও ভাল,” তিনি বলেছেন। ক্লোজড টেকনোলজি বাইরের বিশেষজ্ঞদের এবং জনসাধারণের পক্ষে বোঝা আরও কঠিন, তিনি বলেন, এবং এটি আরও ভাল যদি বহিরাগতরা জাতি, লিঙ্গ বা বয়সের পক্ষপাতের মতো সমস্যার মডেলগুলি মূল্যায়ন করতে পারে; উপরন্তু, অন্যরা বদ্ধ প্রযুক্তির উপরে তৈরি করতে পারে না। ভারসাম্যের বিষয়ে, তিনি বলেছেন, প্রযুক্তির ওপেন সোর্সিংয়ের সুবিধাগুলি ঝুঁকির চেয়ে বেশি।

ডেলাঙ্গু উল্লেখ করেছেন যে সামাজিক মিডিয়া কোম্পানিগুলি স্থিতিশীল ডিফিউশন ব্যবহার করে তাদের নিজস্ব সরঞ্জাম তৈরি করতে পারে যাতে বিভ্রান্তি ছড়াতে ব্যবহৃত এআই-জেনারেটেড চিত্রগুলি স্পট করা যায়। তিনি বলেছেন যে বিকাশকারীরা স্ট্যাবল ডিফিউশন ব্যবহার করে তৈরি চিত্রগুলিতে অদৃশ্য ওয়াটারমার্ক যুক্ত করার জন্য একটি সিস্টেমে অবদান রেখেছে যাতে সেগুলিকে ট্রেস করা সহজ হয় এবং মডেলের প্রশিক্ষণ ডেটাতে নির্দিষ্ট চিত্রগুলি খুঁজে বের করার জন্য একটি সরঞ্জাম তৈরি করেছে যাতে সমস্যাযুক্তগুলি সরানো যায়।

অস্থির ডিফিউশনে আগ্রহ নেওয়ার পর, সিম্পসন-এডিন অস্থির ডিফিউশন ডিসকর্ডের একজন মডারেটর হন। সার্ভারটি লোকেদেরকে নির্দিষ্ট ধরণের সামগ্রী পোস্ট করতে নিষেধ করে, যার মধ্যে এমন ছবি রয়েছে যা অপ্রাপ্তবয়স্ক পর্নোগ্রাফি হিসাবে ব্যাখ্যা করা যেতে পারে৷ “লোকেরা তাদের নিজস্ব মেশিনে যা করে তা আমরা নিয়ন্ত্রণ করতে পারি না কিন্তু যা পোস্ট করা হয়েছে তার সাথে আমরা অত্যন্ত কঠোর,” সে বলে৷ কাছাকাছি সময়ে, AI শিল্প-নির্মাণের বিঘ্নিত প্রভাবগুলি ধারণ করা মেশিনের চেয়ে মানুষের উপর বেশি নির্ভর করতে পারে।