আমি আমার ল্যাপটপে সরাসরি অডিও প্রতিলিপি করতে OpenAI এর নতুন প্রযুক্তি ব্যবহার করেছি

OpenAI, ইমেজ-জেনারেশন এবং মেমে-স্পনিং প্রোগ্রাম DALL-E এবং শক্তিশালী টেক্সট স্বয়ংসম্পূর্ণ ইঞ্জিন GPT-3-এর পিছনে কোম্পানি, একটি নতুন, ওপেন-সোর্স নিউরাল নেটওয়ার্ক চালু করেছে যা অডিওকে লিখিত টেক্সটে প্রতিলিপি করার জন্য (এর মাধ্যমে টেকক্রাঞ্চ) এটিকে হুইস্পার বলা হয়, এবং সংস্থাটি বলে যে এটি “ইংরেজি বক্তৃতা স্বীকৃতির উপর মানব স্তরের দৃঢ়তা এবং নির্ভুলতার সাথে যোগাযোগ করে” এবং এটি স্বয়ংক্রিয়ভাবে স্প্যানিশ, ইতালিয়ান এবং জাপানিজ অন্যান্য ভাষাগুলিকে স্বয়ংক্রিয়ভাবে চিনতে, প্রতিলিপি করতে এবং অনুবাদ করতে পারে৷

একজন ব্যক্তি যিনি ক্রমাগত সাক্ষাত্কারগুলি রেকর্ড করছেন এবং প্রতিলিপি করছেন, আমি অবিলম্বে এই সংবাদটি সম্পর্কে hyped হয়েছিলাম — আমি ভেবেছিলাম যে আমি আমার কম্পিউটার থেকে অডিও সুরক্ষিতভাবে প্রতিলিপি করতে আমার নিজস্ব অ্যাপ লিখতে সক্ষম হব৷ Otter.ai এবং Trint-এর মতো ক্লাউড-ভিত্তিক পরিষেবাগুলি বেশিরভাগ জিনিসের জন্য কাজ করে এবং তুলনামূলকভাবে নিরাপদ, সেখানে কিছু ইন্টারভিউ আছে যেখানে অডিও ফাইলটি ইন্টারনেটের বাইরে থাকলে আমি বা আমার উত্সগুলি আরও স্বাচ্ছন্দ্য বোধ করব৷

এটি ব্যবহার করা আমি কল্পনা করতে চেয়েও সহজ হতে পরিণত; আমার কম্পিউটারে ইতিমধ্যেই পাইথন এবং বিভিন্ন বিকাশকারী সরঞ্জাম সেট আপ করা আছে, তাই হুইস্পার ইনস্টল করা একটি একক টার্মিনাল কমান্ড চালানোর মতোই সহজ ছিল। 15 মিনিটের মধ্যে, আমি রেকর্ড করা একটি পরীক্ষা অডিও ক্লিপ প্রতিলিপি করতে হুইস্পার ব্যবহার করতে সক্ষম হয়েছি। তুলনামূলকভাবে প্রযুক্তি-বুদ্ধিসম্পন্ন কারো জন্য যার কাছে ইতিমধ্যে পাইথন, FFmpeg, Xcode এবং Homebrew সেট আপ নেই, এটি সম্ভবত এক বা দুই ঘন্টার কাছাকাছি সময় লাগবে। প্রক্রিয়াটিকে আরও সহজ এবং ব্যবহারকারী-বান্ধব করার জন্য ইতিমধ্যেই কেউ কাজ করছে, যদিও, আমরা মাত্র এক সেকেন্ডের মধ্যে কথা বলব।

কমান্ড-লাইন অ্যাপ্লিকেশনগুলি স্পষ্টতই সবার জন্য নয়, তবে এমন কিছুর জন্য যা তুলনামূলকভাবে জটিল কাজ করছে, হুইস্পার ব্যবহার করা খুব সহজ।

কমান্ড-লাইন অ্যাপ্লিকেশনগুলি স্পষ্টতই সবার জন্য নয়, তবে এমন কিছুর জন্য যা তুলনামূলকভাবে জটিল কাজ করছে, হুইস্পার ব্যবহার করা খুব সহজ।

যদিও ওপেনএআই নিশ্চিতভাবে এই ব্যবহারের ক্ষেত্রে একটি সম্ভাবনা হিসাবে দেখেছে, এটি বেশ পরিষ্কার যে কোম্পানিটি মূলত এই রিলিজের মাধ্যমে গবেষক এবং বিকাশকারীদের লক্ষ্য করছে। হুইস্পার ঘোষণার ব্লগ পোস্টে, দলটি বলেছে যে এর কোডটি “উপযোগী অ্যাপ্লিকেশন তৈরির জন্য এবং শক্তিশালী স্পিচ প্রসেসিংয়ের উপর আরও গবেষণার জন্য একটি ভিত্তি হিসাবে কাজ করতে পারে” এবং এটি আশা করে যে “হুইস্পারের উচ্চ নির্ভুলতা এবং ব্যবহারের সহজতা ডেভেলপারদের ভয়েস ইন্টারফেস যুক্ত করতে অনুমতি দেবে অ্যাপ্লিকেশনের অনেক বিস্তৃত সেটে।” এই পদ্ধতিটি এখনও উল্লেখযোগ্য, তবে – কোম্পানির DALL-E বা GPT-3 এর মতো সবচেয়ে জনপ্রিয় মেশিন-লার্নিং প্রকল্পগুলিতে সীমিত অ্যাক্সেস রয়েছে, “বাস্তব-জগতের ব্যবহার সম্পর্কে আরও শিখতে এবং আমাদের সুরক্ষা ব্যবস্থাগুলিতে পুনরাবৃত্তি চালিয়ে যাওয়ার ইচ্ছার কথা উল্লেখ করে “

ইয়ুং গ্রেভির গান

হুইস্পার যে টেক্সট ফাইলগুলি তৈরি করে তা আপনি যদি একটি নিবন্ধ লিখতে ব্যবহার করেন তবে তা পড়া সবচেয়ে সহজ নয়।

এই সত্যটিও রয়েছে যে বেশিরভাগ লোকের জন্য হুইস্পার ইনস্টল করার জন্য এটি ঠিক একটি ব্যবহারকারী-বান্ধব প্রক্রিয়া নয়। যাইহোক, সাংবাদিক পিটার স্টার্ন গিটহাব ডেভেলপার অ্যাডভোকেট ক্রিস্টিনা ওয়ারেনের সাথে জুটি বেঁধেছেন চেষ্টা করুন এবং এটি ঠিক করতে, ঘোষণা করছে যে তারা হুইস্পারের মেশিন লার্নিং মডেলের উপর ভিত্তি করে “সাংবাদিকদের জন্য বিনামূল্যে, নিরাপদ এবং সহজেই ব্যবহারযোগ্য ট্রান্সক্রিপশন অ্যাপ” তৈরি করছে৷ আমি স্টারনের সাথে কথা বলেছিলাম, এবং তিনি বলেছিলেন যে তিনি সিদ্ধান্ত নিয়েছিলেন যে স্টেজ হুইস্পার নামক প্রোগ্রামটির অস্তিত্ব থাকা উচিত এবং তিনি এটির মাধ্যমে কিছু সাক্ষাত্কার চালানোর পরে এবং নির্ধারণ করেছিলেন যে এটি ছিল “মানুষের প্রতিলিপিকারদের ব্যতীত আমি সর্বোত্তম ট্রান্সক্রিপশন ব্যবহার করেছি।”

আমি হুইস্পার দ্বারা উত্পন্ন একটি ট্রান্সক্রিপশন তুলনা করেছি যা Otter.ai এবং Trint একই ফাইলের জন্য রেখেছিল, এবং আমি বলব যে এটি তুলনামূলকভাবে তুলনীয়। সেগুলির মধ্যে যথেষ্ট ত্রুটি ছিল যে আমি কখনই অডিওটি দুবার পরীক্ষা না করে সেগুলির থেকে উদ্ধৃতিগুলি কপি এবং পেস্ট করব না (যা অবশ্যই, সর্বোত্তম অনুশীলন, আপনি যে পরিষেবা ব্যবহার করছেন তা বিবেচনা না করে)৷ কিন্তু হুইস্পারের সংস্করণটি আমার জন্য কাজটি করবে; আমার প্রয়োজনীয় বিভাগগুলি খুঁজে পেতে আমি এটির মাধ্যমে অনুসন্ধান করতে পারি এবং তারপরে সেগুলি ম্যানুয়ালি দুবার চেক করতে পারি। তাত্ত্বিকভাবে, স্টেজ হুইস্পারের ঠিক একই কাজ করা উচিত কারণ এটি একই মডেল ব্যবহার করবে, কেবল এটির চারপাশে একটি GUI মোড়ানো।

তারকারা স্বীকার করেছেন যে অ্যাপল এবং গুগলের প্রযুক্তি কয়েক বছরের মধ্যে স্টেজ হুইস্পারকে অপ্রচলিত করে তুলতে পারে — পিক্সেলের ভয়েস রেকর্ডার অ্যাপটি কয়েক বছর ধরে অফলাইন ট্রান্সক্রিপশন করতে সক্ষম হয়েছে, এবং সেই বৈশিষ্ট্যটির একটি সংস্করণ কিছু অন্যান্য অ্যান্ড্রয়েড ডিভাইসে রোল আউট করা শুরু করছে, এবং অ্যাপলের কাছে অফলাইন ডিক্টেশন রয়েছে আইওএসে (যদিও বর্তমানে এটির সাথে অডিও ফাইলগুলি প্রতিলিপি করার একটি ভাল উপায় নেই)। “তবে আমরা এতদিন অপেক্ষা করতে পারি না,” স্টার্ন বলেছিলেন। “আমাদের মতো সাংবাদিকদের আজ ভালো অটো-ট্রান্সক্রিপশন অ্যাপ দরকার।” তিনি দুই সপ্তাহের মধ্যে হুইস্পার-ভিত্তিক অ্যাপটির একটি বেয়ার-বোন সংস্করণ প্রস্তুত করার আশা করছেন।

স্পষ্ট করে বলতে গেলে, হুইস্পার সম্ভবত Otter.ai এবং Trint-এর মতো ক্লাউড-ভিত্তিক পরিষেবাগুলি সম্পূর্ণরূপে অপ্রচলিত হবে না, এটি ব্যবহার করা যতই সহজ হোক না কেন। একের জন্য, ওপেনএআই-এর মডেলটি ঐতিহ্যগত ট্রান্সক্রিপশন পরিষেবার সবচেয়ে বড় বৈশিষ্ট্যগুলির একটি অনুপস্থিত: কে কী বলেছে তা লেবেল করতে সক্ষম। স্টার্ন বলেছেন স্টেজ হুইস্পার সম্ভবত এই বৈশিষ্ট্যটিকে সমর্থন করবে না: “আমরা আমাদের নিজস্ব মেশিন লার্নিং মডেল তৈরি করছি না।”

ক্লাউডটি অন্য কারো কম্পিউটার – যার অর্থ সম্ভবত এটি বেশ কিছুটা দ্রুত

এবং যখন আপনি স্থানীয় প্রক্রিয়াকরণের সুবিধা পাচ্ছেন, আপনি ত্রুটিগুলিও পাচ্ছেন। প্রধানটি হল যে আপনার ল্যাপটপটি পেশাদার ট্রান্সক্রিপশন পরিষেবা ব্যবহার করা কম্পিউটারগুলির তুলনায় প্রায় অবশ্যই উল্লেখযোগ্যভাবে কম শক্তিশালী। উদাহরণস্বরূপ, আমি আমার M1 MacBook Pro-তে চলমান হুইস্পার-এ 24-মিনিট-দীর্ঘ সাক্ষাৎকার থেকে অডিওটি ফিড করি; পুরো ফাইলটি প্রতিলিপি করতে প্রায় 52 মিনিট সময় লেগেছে। (হ্যাঁ, আমি নিশ্চিত করেছিলাম যে এটি ইন্টেলের পরিবর্তে পাইথনের অ্যাপল সিলিকন সংস্করণ ব্যবহার করছে।) ওটার আট মিনিটেরও কম সময়ের মধ্যে একটি প্রতিলিপি বের করে দিয়েছে।

OpenAI এর প্রযুক্তির একটি বড় সুবিধা আছে, যদিও – দাম। ক্লাউড-ভিত্তিক সাবস্ক্রিপশন পরিষেবাগুলি প্রায়শই আপনার অর্থ ব্যয় করবে যদি আপনি সেগুলি পেশাদারভাবে ব্যবহার করেন (ওটারের একটি বিনামূল্যের স্তর রয়েছে, তবে আসন্ন পরিবর্তনগুলি এটিকে এমন লোকদের জন্য কম উপযোগী করে তুলবে যারা প্রায়শই জিনিসগুলি প্রতিলিপি করে) এবং ট্রান্সক্রিপশন বৈশিষ্ট্যগুলি তৈরি করা হয়েছে -Microsoft Word বা Pixel-এর মতো প্ল্যাটফর্মগুলিতে আপনাকে আলাদা সফ্টওয়্যার বা হার্ডওয়্যারের জন্য অর্থ প্রদান করতে হবে। স্টেজ হুইস্পার — এবং হুইস্পার নিজেই — বিনামূল্যে এবং আপনার ইতিমধ্যে থাকা কম্পিউটারে চলতে পারে৷

আবার, ওপেনএআই একটি সুরক্ষিত ট্রান্সক্রিপশন অ্যাপের ভিত্তি হওয়ার চেয়ে হুইস্পারের জন্য বেশি আশা করে — এবং গবেষকরা এটি দিয়ে শেষ পর্যন্ত কী করবেন বা প্রশিক্ষিত মেশিন লার্নিং মডেল দেখে তারা কী শিখবেন তা নিয়ে আমি খুব উত্তেজিত। “680,000 ঘন্টার বহুভাষিক এবং মাল্টিটাস্ক তত্ত্বাবধানে থাকা ডেটা ওয়েব থেকে সংগ্রহ করা হয়েছে।” কিন্তু বাস্তবে যে এটির বাস্তব, ব্যবহারিক ব্যবহারও ঘটছে তা আজ এটিকে আরও উত্তেজনাপূর্ণ করে তোলে।