গবেষকদের মতে এআই-জেনারেটেড টেক্সট কীভাবে সনাক্ত করা যায়

AI থেকে টেক্সট তৈরি করা হয়েছে ChatGPT-এর মতো টুল, দৈনন্দিন জীবনে প্রভাব ফেলতে শুরু করেছে। শিক্ষকরা এটি পরীক্ষা করছেন শ্রেণীকক্ষের পাঠের অংশ. বিপণনকারীরা বিট এ চ্যাম্পিয়ন হয় তাদের অভ্যন্তরীণ প্রতিস্থাপন করুন. Memers যাচ্ছে বক বন্য. আমাকে? আমি নই বলাটা মিথ্যা হবে সামান্য আমার লেখার গিগের জন্য আসছে রোবট সম্পর্কে উদ্বিগ্ন। (চ্যাটজিপিটিসৌভাগ্যবশত, এখনও জুম কল করতে এবং সাক্ষাত্কার নিতে পারি না।)

জেনারেটিভ AI সরঞ্জামগুলির সাথে এখন সর্বজনীনভাবে অ্যাক্সেসযোগ্য, আপনি সম্ভবত ওয়েব সার্ফিং করার সময় আরও সিন্থেটিক সামগ্রীর মুখোমুখি হবেন। কিছু উদাহরণ সৌম্য হতে পারে, যেমন একটি স্বয়ংক্রিয়ভাবে তৈরি BuzzFeed কুইজ ডিপ-ফ্রাইড ডেজার্ট আপনার রাজনৈতিক বিশ্বাসের সাথে মেলে। (আপনি কি ডেমোক্র্যাটিক বিগনেট নাকি রিপাবলিকান জেপপোল?) অন্যান্য দৃষ্টান্তগুলি আরও অশুভ হতে পারে, যেমন একটি বিদেশী সরকারের কাছ থেকে একটি পরিশীলিত প্রচার প্রচারণা।

একাডেমিক গবেষকরা ChatGPT-এর মতো একটি প্রোগ্রাম দ্বারা শব্দের একটি স্ট্রিং তৈরি হয়েছে কিনা তা সনাক্ত করার উপায়গুলি সন্ধান করছেন৷ এই মুহুর্তে, আপনি যা কিছু পড়ছেন তা এআই সহায়তার মাধ্যমে তৈরি করা হয়েছে এমন একটি সিদ্ধান্তমূলক সূচক কী?

বিস্ময়ের অভাব।

এনট্রপি, মূল্যায়ন

প্রাকৃতিক লেখার নিদর্শনগুলি অনুকরণ করার ক্ষমতা সহ অ্যালগরিদমগুলি আপনি বুঝতে পারেন তার চেয়ে আরও কয়েক বছর ধরে রয়েছে। 2019 সালে, হার্ভার্ড এবং এমআইটি-আইবিএম ওয়াটসন এআই ল্যাব পরীক্ষামূলক টুলে প্রকাশ করা হয়েছে যা পাঠ্য স্ক্যান করে এবং শব্দগুলিকে তাদের এলোমেলোতার স্তরের উপর ভিত্তি করে হাইলাইট করে।

কেন এই সহায়ক হবে? একটি এআই টেক্সট জেনারেটর মূলত একটি রহস্যময় প্যাটার্ন মেশিন: অনুকরণে দুর্দান্ত, কার্ভ বল নিক্ষেপে দুর্বল। অবশ্যই, আপনি যখন আপনার বসকে একটি ইমেল টাইপ করেন বা কিছু বন্ধুদের কাছে একটি গ্রুপ পাঠ্য পাঠান, তখন আপনার স্বর এবং ক্যাডেন্স অনুমানযোগ্য মনে হতে পারে, কিন্তু আমাদের মানুষের যোগাযোগের শৈলীতে একটি অন্তর্নিহিত কৌতুকপূর্ণ গুণ রয়েছে৷

এডওয়ার্ড তিয়ান, প্রিন্সটনের একজন ছাত্র, ভাইরাল গিয়েছিলাম এই বছরের শুরুর দিকে একটি অনুরূপ, পরীক্ষামূলক সরঞ্জাম, যাকে বলা হয় জিপিটিজিরো, শিক্ষাবিদদের লক্ষ্য করে. এটি ChatGPT এর “বিভ্রান্তি” (ওরফে এলোমেলোতা) এবং “বার্স্টিনেস” (ওরফে ভিন্নতা) এর উপর ভিত্তি করে বিষয়বস্তুর একটি অংশ তৈরি করার সম্ভাবনার পরিমাপ করে। ওপেনএআই, যা ChatGPT এর পিছনে রয়েছে, বাদ পড়েছে আরেকটি টুল 1,000 অক্ষরের বেশি টেক্সট স্ক্যান করতে এবং একটি রায় কল করতে তৈরি করা হয়েছে। কোম্পানিটি টুলের সীমাবদ্ধতা, যেমন মিথ্যা ইতিবাচক এবং ইংরেজির বাইরে সীমিত কার্যকারিতা সম্পর্কে এগিয়ে আছে। ঠিক যেমন AI টেক্সট জেনারেটরের পিছনে থাকা ব্যক্তিদের কাছে ইংরেজি-ভাষার ডেটা প্রায়শই সর্বোচ্চ অগ্রাধিকার পায়, তেমনই AI-টেক্সট সনাক্তকরণের জন্য বেশিরভাগ সরঞ্জাম বর্তমানে ইংরেজি ভাষাভাষীদের সুবিধার জন্য সবচেয়ে উপযুক্ত।

আপনি কি অনুধাবন করতে পারেন যদি একটি সংবাদ নিবন্ধ রচনা করা হয়, অন্তত আংশিকভাবে, এআই দ্বারা? “এই AI জেনারেটিভ টেক্সটগুলি, তারা কখনই আপনার রিসের মতো সাংবাদিকের কাজ করতে পারে না,” তিয়ান বলে৷ এটি একটি সদয়-হৃদয়ের অনুভূতি। CNET, একটি প্রযুক্তি-কেন্দ্রিক ওয়েবসাইট, একাধিক প্রকাশ করেছে অ্যালগরিদম দ্বারা লিখিত নিবন্ধ এবং একটি মানুষের দ্বারা ফিনিস লাইন জুড়ে টেনে আনা. ChatGPT, এই মুহূর্তে, একটি নির্দিষ্ট chutzpah অভাব, এবং এটি মাঝে মাঝে হ্যালুসিনেশন হয়, যা নির্ভরযোগ্য প্রতিবেদনের জন্য একটি সমস্যা হতে পারে। সবাই জানে যোগ্য সাংবাদিকরা ঘন্টার পর ঘন্টা সাইকেডেলিকদের বাঁচান।

এনট্রপি, অনুকরণ করা

যদিও এই সনাক্তকরণ সরঞ্জামগুলি এখনকার জন্য সহায়ক, টম গোল্ডস্টেইন, কম্পিউটার বিজ্ঞানের অধ্যাপক৷ মেরিল্যান্ড বিশ্ববিদ্যালয়, এমন একটি ভবিষ্যৎ দেখতে পায় যেখানে তারা কম কার্যকর হয়, কারণ প্রাকৃতিক ভাষা প্রক্রিয়াকরণ আরও পরিশীলিত হয়। গোল্ডস্টেইন বলেছেন, “এই ধরণের ডিটেক্টরগুলি এই সত্যের উপর নির্ভর করে যে মানুষের পাঠ্য এবং মেশিনের পাঠ্যের মধ্যে পদ্ধতিগত পার্থক্য রয়েছে।” “কিন্তু এই সংস্থাগুলির লক্ষ্য হল মেশিনের পাঠ্য তৈরি করা যা মানুষের পাঠ্যের যতটা সম্ভব কাছাকাছি।” এর মানে কি সিন্থেটিক মিডিয়া সনাক্তকরণের সমস্ত আশা হারিয়ে গেছে? একেবারে না.

গোল্ডস্টেইন এ কাজ করেছেন সাম্প্রতিক কাগজ এআই টেক্সট জেনারেটরকে শক্তিশালী করে এমন বৃহৎ ভাষার মডেলে তৈরি করা যেতে পারে এমন সম্ভাব্য ওয়াটারমার্ক পদ্ধতি নিয়ে গবেষণা করা। এটি নির্বোধ নয়, তবে এটি একটি আকর্ষণীয় ধারণা। মনে রাখবেন, ChatGPT একটি বাক্যে পরবর্তী সম্ভাব্য শব্দের পূর্বাভাস দেওয়ার চেষ্টা করে এবং প্রক্রিয়া চলাকালীন একাধিক বিকল্পের তুলনা করে। একটি ওয়াটারমার্ক এআই টেক্সট জেনারেটরের জন্য নির্দিষ্ট শব্দের প্যাটার্নগুলিকে অফ-লিমিট হিসাবে মনোনীত করতে সক্ষম হতে পারে। সুতরাং, যখন পাঠ্যটি স্ক্যান করা হয় এবং ওয়াটারমার্কের নিয়মগুলি একাধিকবার ভাঙ্গা হয়, তখন এটি নির্দেশ করে যে একজন মানুষ সম্ভবত সেই মাস্টারপিসটি বের করে দিয়েছে।