
views
टेक दिग्गज गूगल ने OpenAI को टक्कर देने के लिए अपने नए यूनिवर्सल स्पीच मॉडल (USM) के अपडेट को पेश कर दिया है। दरअसल, यह एक 1,000 भाषाओं को सपोर्ट करने वाला एक स्पीच मॉडल है। यूनिवर्सल स्पीच मॉडल को लेकर रिसर्चर का कहना है कि ऑटोमेशन स्पीच रिकग्निशन के सभी सेगमेंट के लिए यह ओपनएआई (OpenAI) से बेहतर प्रदर्शन करता है। जैसे कि यह बेहतर यूट्यूब कैप्शन लिख सकता है।
क्या है गूगल का यूनिवर्सल स्पीच मॉडल?
यूएसएम, स्पीच मॉडल का एक ग्रुप है, जिसमें दो बिलियन पैरामीटर हैं। और इसे 12 मिलियन घंटे के स्पीच का बहुत सारा डाटासेट और 300 से अधिक भाषाओं को कवर करने वाले टेक्स्ट के 28 बिलियन वाक्यों पर प्रशिक्षित किया गया है। इस मॉडल का उपयोग YouTube (बंद कैप्शन के लिए) में किया जाता है और न केवल व्यापक रूप से बोली जाने वाली भाषाओं पर, बल्कि अम्हारिक, सेबुआनो, असमिया और अजरबैजानी जैसी कुछ भाषाओं पर भी ऑटोमेटिक स्पीच रिकग्निशन का परफॉर्म कर सकता है।
गूगल के अनुसार, यूएसएम यानी यूनिवर्सल स्पीच मॉडल ऑटोमेटिक स्पीच रिकग्निशन स्केलिंग के आधार पर 1000 से भी ज्यादा भाषा की पहचान कर सकता है। वहीं इस मॉडल की मदद से बहुभाषी डाटासेट की भी पहचान की जा सकती है।
कंपनी के अनुसार, इस मॉडल की मदद से एनकोडर को प्री-ट्रेन करने के लिए इस्तेमाल किया जा सकता है और प्रशिक्षण प्रक्रिया में नई भाषाओं और डाटा को प्रभावी ढंग से इस्तेमाल किया जा सकता है। आसान शब्दों में कहें तो इस मॉडल की मदद से कई भाषाओं के डाटा को आसानी फिल्टर किया जा सकता है और उसे कंटेंट और स्पीच के लिए भी उपयोग किया जा सकता है।
क्या OpenAI से बेहतर है यूएसएम?
रिसर्चर ने इस मॉडल के साथ यूट्यूब कैप्शन के बहुभाषी स्पीड डाटा पर फाइन-ट्यूनिंग के माध्यम से प्री-ट्रेन्ड एनकोडर की प्रभावशीलता का प्रदर्शन भी किया। यूट्यूब के सीमित डाटा के बावजूद, मॉडल ने 73 भाषाओं में औसतन 30 फीसदी से कम शब्द एरर किए, जो पहले कभी हासिल नहीं हुआ था। रिसर्चर के अनुसार, यूएसएम ऑटोमेशन स्पीच रिकग्निशन के सभी सेगमेंट में ओपनएआई से भी बेहतर प्रदर्शन करता है।
मशीन लर्निंग पर आधारित है यूएसएम
बता दें कि मशीन लर्निंग मॉडल को बनाने के लिए गूगल ने दुनियाभर की सबसे अधिक बोली जाने वाली 1,000 भाषाओं का इस्तेमाल किया है। इसे पहली बार नवंबर 2022 में पेश किया गया था। हालांकि, इसमें कुछ भाषाएं 2 करोड़ से भी कम लोगों द्वारा बोली जाती हैं, इसलिए गूगल इनके सीमित उपलब्ध डाटा और कुछ स्पीकर के आधार पर डाटा कलेक्ट कर रहा है। इस मशीन लर्निंग मॉडल में लगभग सभी भाषाओं से डाटा कलेक्ट कर यूनिवर्सल स्पीच मॉडल तैयार किया जा रहा है। यानी गूगल का नया यूनिवर्सल स्पीच मॉडल सभी भाषाओं में ज्यादा सटीक जानकारी दे सकेगा।
Comments
0 comment