Google USM: OpenAI को टक्कर देने गूगल ने पेश किया नया यूनिवर्सल स्पीच मॉडल
Google USM: OpenAI को टक्कर देने गूगल ने पेश किया नया यूनिवर्सल स्पीच मॉडल
Universal Speech Model: यूनिवर्सल स्पीच मॉडल को लेकर रिसर्चर का कहना है कि ऑटोमेशन स्पीच रिकग्निशन के सभी सेगमेंट के लिए यह ओपनएआई (OpenAI) से बेहतर प्रदर्शन करता है।

टेक दिग्गज गूगल ने OpenAI को टक्कर देने के लिए अपने नए यूनिवर्सल स्पीच मॉडल (USM) के अपडेट को पेश कर दिया है। दरअसल, यह एक 1,000 भाषाओं को सपोर्ट करने वाला एक स्पीच मॉडल है। यूनिवर्सल स्पीच मॉडल को लेकर रिसर्चर का कहना है कि ऑटोमेशन स्पीच रिकग्निशन के सभी सेगमेंट के लिए यह ओपनएआई (OpenAI) से बेहतर प्रदर्शन करता है। जैसे कि यह बेहतर यूट्यूब कैप्शन लिख सकता है।

 

क्या है गूगल का यूनिवर्सल स्पीच मॉडल?

यूएसएम, स्पीच मॉडल का एक ग्रुप है, जिसमें दो बिलियन पैरामीटर हैं। और इसे 12 मिलियन घंटे के स्पीच का बहुत सारा डाटासेट और 300 से अधिक भाषाओं को कवर करने वाले टेक्स्ट के 28 बिलियन वाक्यों पर प्रशिक्षित किया गया है। इस मॉडल का उपयोग YouTube (बंद कैप्शन के लिए) में किया जाता है और न केवल व्यापक रूप से बोली जाने वाली भाषाओं पर, बल्कि अम्हारिक, सेबुआनो, असमिया और अजरबैजानी जैसी कुछ भाषाओं पर भी ऑटोमेटिक स्पीच रिकग्निशन का परफॉर्म कर सकता है।

गूगल के अनुसार, यूएसएम यानी यूनिवर्सल स्पीच मॉडल ऑटोमेटिक स्पीच रिकग्निशन स्केलिंग के आधार पर 1000 से भी ज्यादा भाषा की पहचान कर सकता है। वहीं इस मॉडल की मदद से बहुभाषी डाटासेट की भी पहचान की जा सकती है।

कंपनी के अनुसार, इस मॉडल की मदद से एनकोडर को प्री-ट्रेन करने के लिए इस्तेमाल किया जा सकता है और प्रशिक्षण प्रक्रिया में नई भाषाओं और डाटा को प्रभावी ढंग से इस्तेमाल किया जा सकता है। आसान शब्दों में कहें तो इस मॉडल की मदद से कई भाषाओं के डाटा को आसानी फिल्टर किया जा सकता है और उसे कंटेंट और स्पीच के लिए भी उपयोग किया जा सकता है। 

 

क्या OpenAI से बेहतर है यूएसएम?

रिसर्चर ने इस मॉडल के साथ यूट्यूब कैप्शन के बहुभाषी स्पीड डाटा पर फाइन-ट्यूनिंग के माध्यम से प्री-ट्रेन्ड एनकोडर की प्रभावशीलता का प्रदर्शन भी किया। यूट्यूब के सीमित डाटा के बावजूद, मॉडल ने 73 भाषाओं में औसतन 30 फीसदी से कम शब्द एरर किए, जो पहले कभी हासिल नहीं हुआ था। रिसर्चर के अनुसार, यूएसएम ऑटोमेशन स्पीच रिकग्निशन के सभी सेगमेंट में ओपनएआई से भी बेहतर प्रदर्शन करता है।

 

मशीन लर्निंग पर आधारित है यूएसएम

बता दें कि मशीन लर्निंग मॉडल को बनाने के लिए गूगल ने दुनियाभर की सबसे अधिक बोली जाने वाली 1,000 भाषाओं का इस्तेमाल किया है। इसे पहली बार नवंबर 2022 में पेश किया गया था। हालांकि, इसमें कुछ भाषाएं 2 करोड़ से भी कम लोगों द्वारा बोली जाती हैं, इसलिए गूगल इनके सीमित उपलब्ध डाटा और कुछ स्पीकर के आधार पर डाटा कलेक्ट कर रहा है। इस मशीन लर्निंग मॉडल में लगभग सभी भाषाओं से डाटा कलेक्ट कर यूनिवर्सल स्पीच मॉडल तैयार किया जा रहा है। यानी गूगल का नया यूनिवर्सल स्पीच मॉडल सभी भाषाओं में ज्यादा सटीक जानकारी दे सकेगा।

Comments

https://anantsamachar.com/assets/images/user-avatar-s.jpg

0 comment

Write the first comment for this!