نرم افزار هوش مصنوعی برای رونویسی و ترجمه گفتار به متن

Kyle Wiggers 1 مارس 2023-فردی که جلوی یک میکروفون پادکست نشسته است-اعتبار تصویر: نیکولا کیتی / گتی ایماژ

همزمان با عرضه ChatGPT API، OpenAI نیز Whisper API را راه‌اندازی کرد، نسخه میزبانی شده از مدل متن‌باز Whisper که این شرکت در سپتامبر منتشر کرد.

Whisper با قیمت 0.006 دلار در دقیقه، یک سیستم تشخیص گفتار خودکار است که به ادعای OpenAI، رونویسی قوی در چندین زبان و همچنین ترجمه از آن زبان ها به انگلیسی را امکان پذیر می کند. این فایل ها را در فرمت های مختلف از جمله M4A، MP3، MP4، MPEG، MPGA، WAV و WEBM می گیرد.

سازمان‌های بی‌شماری سیستم‌های تشخیص گفتار بسیار توانمندی را توسعه داده‌اند که در هسته نرم‌افزار و خدمات غول‌های فناوری مانند گوگل، آمازون و متا قرار دارند. اما چیزی که Whisper را متفاوت می کند این است که به گفته گرگ براکمن، رئیس و رئیس OpenAI، بر روی 680000 ساعت داده های چندزبانه و “چند وظیفه ای” جمع آوری شده از وب آموزش داده شده است، که منجر به بهبود تشخیص لهجه های منحصر به فرد، نویز پس زمینه و اصطلاحات تخصصی فنی می شود.

براکمن در یک تماس ویدیویی با TechCrunch بعدازظهر دیروز گفت: «ما یک مدل منتشر کردیم، اما در واقع برای ایجاد کل اکوسیستم توسعه‌دهندگان کافی نبود. .Whisper API همان مدل بزرگی است که می‌توانید منبع باز دریافت کنید، اما ما تا حد زیادی بهینه‌سازی شده‌ایم. این بسیار، بسیار سریعتر و بسیار راحت است.”

به عقیده براکمن، وقتی صحبت از شرکت هایی که از فناوری رونویسی صدا استفاده می کنند، موانع زیادی وجود دارد. بر اساس نظرسنجی Statista در سال 2020، شرکت‌ها دقت، مسائل مربوط به تشخیص لهجه یا گویش و هزینه را به عنوان مهمترین دلایلی که از فناوری‌هایی مانند فناوری به گفتار استقبال نکرده‌اند، ذکر می‌کنند.

اما Whisper محدودیت‌های خود را دارد – به ویژه در زمینه پیش‌بینی «کلمه بعدی». از آنجایی که سیستم بر روی حجم زیادی از داده‌های پر سر و صدا آموزش دیده بود، OpenAI هشدار می‌دهد که Whisper ممکن است کلماتی را در رونویسی‌های خود بگنجاند که واقعاً گفته نشده‌اند – احتمالاً به این دلیل که هم سعی می‌کند کلمه بعدی را در صدا پیش‌بینی کند و هم خود صدای ضبط شده را رونویسی کند. علاوه بر این، Whisper در بین زبان‌ها به یک اندازه خوب عمل نمی‌کند، و وقتی صحبت از گویندگان زبان‌هایی می‌شود که به خوبی در داده‌های آموزشی نمایش داده نمی‌شوند، از میزان خطای بالاتری رنج می‌برد.

متأسفانه آن بیت آخر چیز جدیدی برای دنیای تشخیص گفتار نیست. تعصبات مدت‌هاست که حتی بهترین سیستم‌ها را نیز تحت تأثیر قرار داده است، با مطالعه سال 2020 استنفورد نشان می‌دهد که سیستم‌های آمازون، اپل، گوگل، آی‌بی‌ام و مایکروسافت خطاهای بسیار کمتری (حدود 19 درصد) با کاربران سفیدپوست نسبت به کاربران سیاه‌پوست داشته‌اند.

با وجود این، OpenAI می بیند که از قابلیت های رونویسی Whisper برای بهبود برنامه ها، خدمات، محصولات و ابزارهای موجود استفاده می شود. در حال حاضر، برنامه یادگیری زبان مبتنی بر هوش مصنوعی Speak از Whisper API استفاده می‌کند تا یک همراه جدید گفتاری مجازی درون برنامه‌ای را تقویت کند.

اگر OpenAI بتواند به طور عمده وارد بازار گفتار به متن شود، می تواند برای شرکت تحت حمایت مایکروسافت کاملاً سودآور باشد. بر اساس یک گزارش، ارزش این بخش تا سال 2026 به 5.4 میلیارد دلار می رسد که از 2.2 میلیارد دلار در سال 2021 افزایش یافته است.

براکمن گفت: “تصویر ما این است که ما واقعاً می خواهیم نرم افزار هوش جهانی باشیم.” ما واقعاً می‌خواهیم، بسیار انعطاف‌پذیر، بتوانیم هر نوع داده‌ای را که در اختیار دارید – هر نوع وظیفه‌ای که می‌خواهید انجام دهید – به کار ببریم و در این توجه نیرویی چند برابر کنیم.»

https://techcrunch.com

برچسب ها : پیش بینی, رونویسی و ترجمه گفتاربه متن, کلمه بعد, هوش مصنوعی

آیا این نوشته برایتان مفید بود؟

بله 1 خیر 0

مشاهده پست »

5 فروردین 1403 بدون دیدگاه

دیدگاهتان را بنویسید لغو پاسخ

تازه ها

نوآوری در مدیریت برای توسعه پایدار

Kolnegar Private Media (Management Innovation for Sustainable Development)

7 اردیبهشت 1403 1:27 ب.ظ

نرم افزار هوش مصنوعی برای رونویسی و ترجمه گفتار به متن

آیا این نوشته برایتان مفید بود؟

گروه تحقیق کل نگار

آینده بازارها با حضور هوش مصنوعی و نسل زد در ایستگاه آینده بررسی می شود

یک تیم تحقیقاتی ادعا می کند که اعداد اول قابل پیش بینی هستند

نسل بعدی دستگاه های نیمه هادی هوش مصنوعی از مغز انسان تقلید می کنند

فرآیند دو مرحله ای استخراج و طبقه بندی برای شناسایی مواد تشکیل دهنده غذا از روی عکس

هوش مصنوعی با ایجاد روشهای درمانی شخصی، مراقبت از بیمار را متحول می کند

جوامع متصل: پیشگام در عصر شهرهای هوشمند

دیدگاهتان را بنویسید لغو پاسخ

شش گام برای راهنمایی مدیران امیدوار

اخذ بالاترین راندمان انرژی در سلول های خورشیدی انعطاف پذیر

کشف جرم و پیش‌بینی نقاط کانونی جرم با استفاده از مدل یادگیری عمیق

قیمت ، بزرگترین مانع برای بازار پر جنب و جوش خودروهای دست دوم الکتریکی

جستجو برای عدم تقارن جدید بین ماده و پادماده

یک روش کدگذاری پاکسازی پویا کارآمد برای سیستم های بلاک چین مجاز

شبکه نوآوری کیا

تازه ها

شش گام برای راهنمایی مدیران امیدوار

اخذ بالاترین راندمان انرژی در سلول های خورشیدی انعطاف پذیر

کشف جرم و پیش‌بینی نقاط کانونی جرم با استفاده از مدل یادگیری عمیق

قیمت ، بزرگترین مانع برای بازار پر جنب و جوش خودروهای دست دوم الکتریکی

جستجو برای عدم تقارن جدید بین ماده و پادماده

یک روش کدگذاری پاکسازی پویا کارآمد برای سیستم های بلاک چین مجاز

آینده بازارها با حضور هوش مصنوعی و نسل زد در ایستگاه آینده بررسی می شود

ضرورت شبکه‌سازی میان مراکز نوآوری و کارآفرینی برای حل چالش‌ها و نیازهای چند بعدی

نوآوری و خلاقیت،کلید فتح بازارهای جهانی است

«فناوری» و «نوآوری» اهرم‌های قدرتمند جهش تولید

کل نگار را در شبکه های اجتماعی دنبال کنید

© تمامی حقوق این سایت برای کل نگار محفوظ بوده و درج مطالب سایت و بازنشر آن با ذکر منبع و آدرس سایت بلامانع است .

ورود به حساب کاربری

نرم افزار هوش مصنوعی برای رونویسی و ترجمه گفتار به متن

آیا این نوشته برایتان مفید بود؟

گروه تحقیق کل نگار

دیدگاهتان را بنویسید لغو پاسخ