نرم افزار هوش مصنوعی برای رونویسی و ترجمه گفتار به متن

Kyle Wiggers 1 مارس 2023-فردی که جلوی یک میکروفون پادکست نشسته است-اعتبار تصویر: نیکولا کیتی / گتی ایماژ

همزمان با عرضه ChatGPT API، OpenAI نیز Whisper API را راه‌اندازی کرد، نسخه میزبانی شده از مدل متن‌باز Whisper که این شرکت در سپتامبر منتشر کرد.

Whisper با قیمت 0.006 دلار در دقیقه، یک سیستم تشخیص گفتار خودکار است که به ادعای OpenAI، رونویسی قوی در چندین زبان و همچنین ترجمه از آن زبان ها به انگلیسی را امکان پذیر می کند. این فایل ها را در فرمت های مختلف از جمله M4A، MP3، MP4، MPEG، MPGA، WAV و WEBM می گیرد.

سازمان‌های بی‌شماری سیستم‌های تشخیص گفتار بسیار توانمندی را توسعه داده‌اند که در هسته نرم‌افزار و خدمات غول‌های فناوری مانند گوگل، آمازون و متا قرار دارند. اما چیزی که Whisper را متفاوت می کند این است که به گفته گرگ براکمن، رئیس و رئیس OpenAI، بر روی 680000 ساعت داده های چندزبانه و “چند وظیفه ای” جمع آوری شده از وب آموزش داده شده است، که منجر به بهبود تشخیص لهجه های منحصر به فرد، نویز پس زمینه و اصطلاحات تخصصی فنی می شود.

براکمن در یک تماس ویدیویی با TechCrunch بعدازظهر دیروز گفت: «ما یک مدل منتشر کردیم، اما در واقع برای ایجاد کل اکوسیستم توسعه‌دهندگان کافی نبود. .Whisper API همان مدل بزرگی است که می‌توانید منبع باز دریافت کنید، اما ما تا حد زیادی بهینه‌سازی شده‌ایم. این بسیار، بسیار سریعتر و بسیار راحت است.”

به عقیده براکمن، وقتی صحبت از شرکت هایی که از فناوری رونویسی صدا استفاده می کنند، موانع زیادی وجود دارد. بر اساس نظرسنجی Statista در سال 2020، شرکت‌ها دقت، مسائل مربوط به تشخیص لهجه یا گویش و هزینه را به عنوان مهمترین دلایلی که از فناوری‌هایی مانند فناوری به گفتار استقبال نکرده‌اند، ذکر می‌کنند.

اما Whisper محدودیت‌های خود را دارد – به ویژه در زمینه پیش‌بینی «کلمه بعدی». از آنجایی که سیستم بر روی حجم زیادی از داده‌های پر سر و صدا آموزش دیده بود، OpenAI هشدار می‌دهد که Whisper ممکن است کلماتی را در رونویسی‌های خود بگنجاند که واقعاً گفته نشده‌اند – احتمالاً به این دلیل که هم سعی می‌کند کلمه بعدی را در صدا پیش‌بینی کند و هم خود صدای ضبط شده را رونویسی کند. علاوه بر این، Whisper در بین زبان‌ها به یک اندازه خوب عمل نمی‌کند، و وقتی صحبت از گویندگان زبان‌هایی می‌شود که به خوبی در داده‌های آموزشی نمایش داده نمی‌شوند، از میزان خطای بالاتری رنج می‌برد.

متأسفانه آن بیت آخر چیز جدیدی برای دنیای تشخیص گفتار نیست. تعصبات مدت‌هاست که حتی بهترین سیستم‌ها را نیز تحت تأثیر قرار داده است، با مطالعه سال 2020 استنفورد نشان می‌دهد که سیستم‌های آمازون، اپل، گوگل، آی‌بی‌ام و مایکروسافت خطاهای بسیار کمتری (حدود 19 درصد) با کاربران سفیدپوست نسبت به کاربران سیاه‌پوست داشته‌اند.

با وجود این، OpenAI می بیند که از قابلیت های رونویسی Whisper برای بهبود برنامه ها، خدمات، محصولات و ابزارهای موجود استفاده می شود. در حال حاضر، برنامه یادگیری زبان مبتنی بر هوش مصنوعی Speak از Whisper API استفاده می‌کند تا یک همراه جدید گفتاری مجازی درون برنامه‌ای را تقویت کند.

اگر OpenAI بتواند به طور عمده وارد بازار گفتار به متن شود، می تواند برای شرکت تحت حمایت مایکروسافت کاملاً سودآور باشد. بر اساس یک گزارش، ارزش این بخش تا سال 2026 به 5.4 میلیارد دلار می رسد که از 2.2 میلیارد دلار در سال 2021 افزایش یافته است.

براکمن گفت: “تصویر ما این است که ما واقعاً می خواهیم نرم افزار هوش جهانی باشیم.” ما واقعاً می‌خواهیم، بسیار انعطاف‌پذیر، بتوانیم هر نوع داده‌ای را که در اختیار دارید – هر نوع وظیفه‌ای که می‌خواهید انجام دهید – به کار ببریم و در این توجه نیرویی چند برابر کنیم.»

https://techcrunch.com