• پنج شنبه 13 اردیبهشت 1403
  • الْخَمِيس 23 شوال 1445
  • 2024 May 02
پنج شنبه 2 شهریور 1402
کد مطلب : 200979
+
-

ترجمه صوتی فارسی با هوش مصنوعی متا

متا از یک مدل هوش مصنوعی‌ جدید «گفتار به متن» با نام SeamlessM4T رونمایی کرده که می‌تواند گفتارهای 100زبان جهان ازجمله زبان فارسی را ترجمه کند. آزمایش‌های همشهری نشان می‌دهد که دقت تشخیص این مدل از زبان فارسی بسیار دقیق و کم‌اشتباه است.
شرکت متا در پست وبلاگ خود نوشته است SeamlessM4T که مخفف عبارت Massively Multilingual and Multimodal Machine Translation و به معنی «ترجمه ماشینی انبوه چندزبانه و چندوجهی» است، می‌تواند برای عملکردهای گفتار به گفتار و متن به گفتار، 100زبان ورودی را تشخیص دهد و آنها را به 35زبان خروجی تبدیل کند.تیم تحقیقاتی متا در این پست تأکید می‌کند که SeamlessM4T «به‌طور قابل‌توجهی عملکردهای مربوط به زبان‌های دارای منابع کم و متوسط تحت پشتیبانی را بهبود می‌بخشد.» درحالی‌که «برای زبان‌های با منابع بالا مانند انگلیسی، اسپانیایی و آلمانی عملکرد فوق‌العاده‌ای از خود ارائه می‌کند.»
فعلا کاربران می‌توانند به‌طور رایگان از نسخه دمو این هوش مصنوعی استفاده کنند. مدل متا ابتدا از شما می‌خواهد صدای خود را ضبط کنید تا سپس بتوانید آن را در لحظه به حداکثر 3زبان، ازجمله فارسی ترجمه کنید. «همشهری» طی چندین بار آزمایش متوجه شد که ترجمه گفتارهای فارسی به انگلیسی در SeamlessM4T می‌تواند قابل‌قبول باشد، اما در عین حال در ترجمه عبارت‌های انگلیسی به فارسی دقت کمتری دارد.با این حال، متا توضیح می‌دهد که SeamlessM4T پیشرفت قابل‌توجهی محسوب می‌شود؛ زیرا این مدل هوش مصنوعی جدید می‌تواند تمام کار ترجمه را در یک لحظه انجام دهد. این در حالی است که عموما مدل‌های ترجمه بزرگ دیگر، این کار را با بخش بندی در سیستم‌های مختلفی انجام می‌دهند.یکی از ویژگی‌های جالب SeamlessM4T، توانایی آن در تشخیص زبان‌های مختلف است. در واقع، مدل متا هنگامی که کاربر در جمله خود از چندین زبان مختلف استفاده می‌کند، می‌تواند آنها را تشخیص دهد.همچنین SeamlessM4T در آزمایش‌های خود به‌ترتیب 37 و 48درصد نسبت به نویزهای پس‌زمینه و تغییرات بلندگو بهتر از نسل قبلی خود عمل کرده است. همچنین مانند بسیاری از تلاش‌های قبلی این شرکت در زمینه ترجمه مانند Llama 2، این مدل نیز کاملاً منبع ‌باز است.پیش از این، یک مدل هوش مصنوعی از سوی گوگل ارائه شده بود که گفتار به گفتار بود. ویژگی این مدل این بود که ترجمه را با صدای خود شخص ارائه می‌کرد.


 

این خبر را به اشتراک بگذارید