Kyle Wiggers 1 مارس 2023-فردی که جلوی یک میکروفون پادکست نشسته است-اعتبار تصویر: نیکولا کیتی / گتی ایماژ
همزمان با عرضه ChatGPT API، OpenAI نیز Whisper API را راهاندازی کرد، نسخه میزبانی شده از مدل متنباز Whisper که این شرکت در سپتامبر منتشر کرد.
Whisper با قیمت 0.006 دلار در دقیقه، یک سیستم تشخیص گفتار خودکار است که به ادعای OpenAI، رونویسی قوی در چندین زبان و همچنین ترجمه از آن زبان ها به انگلیسی را امکان پذیر می کند. این فایل ها را در فرمت های مختلف از جمله M4A، MP3، MP4، MPEG، MPGA، WAV و WEBM می گیرد.
سازمانهای بیشماری سیستمهای تشخیص گفتار بسیار توانمندی را توسعه دادهاند که در هسته نرمافزار و خدمات غولهای فناوری مانند گوگل، آمازون و متا قرار دارند. اما چیزی که Whisper را متفاوت می کند این است که به گفته گرگ براکمن، رئیس و رئیس OpenAI، بر روی 680000 ساعت داده های چندزبانه و “چند وظیفه ای” جمع آوری شده از وب آموزش داده شده است، که منجر به بهبود تشخیص لهجه های منحصر به فرد، نویز پس زمینه و اصطلاحات تخصصی فنی می شود.
براکمن در یک تماس ویدیویی با TechCrunch بعدازظهر دیروز گفت: «ما یک مدل منتشر کردیم، اما در واقع برای ایجاد کل اکوسیستم توسعهدهندگان کافی نبود. .Whisper API همان مدل بزرگی است که میتوانید منبع باز دریافت کنید، اما ما تا حد زیادی بهینهسازی شدهایم. این بسیار، بسیار سریعتر و بسیار راحت است.”
به عقیده براکمن، وقتی صحبت از شرکت هایی که از فناوری رونویسی صدا استفاده می کنند، موانع زیادی وجود دارد. بر اساس نظرسنجی Statista در سال 2020، شرکتها دقت، مسائل مربوط به تشخیص لهجه یا گویش و هزینه را به عنوان مهمترین دلایلی که از فناوریهایی مانند فناوری به گفتار استقبال نکردهاند، ذکر میکنند.
اما Whisper محدودیتهای خود را دارد – به ویژه در زمینه پیشبینی «کلمه بعدی». از آنجایی که سیستم بر روی حجم زیادی از دادههای پر سر و صدا آموزش دیده بود، OpenAI هشدار میدهد که Whisper ممکن است کلماتی را در رونویسیهای خود بگنجاند که واقعاً گفته نشدهاند – احتمالاً به این دلیل که هم سعی میکند کلمه بعدی را در صدا پیشبینی کند و هم خود صدای ضبط شده را رونویسی کند. علاوه بر این، Whisper در بین زبانها به یک اندازه خوب عمل نمیکند، و وقتی صحبت از گویندگان زبانهایی میشود که به خوبی در دادههای آموزشی نمایش داده نمیشوند، از میزان خطای بالاتری رنج میبرد.
متأسفانه آن بیت آخر چیز جدیدی برای دنیای تشخیص گفتار نیست. تعصبات مدتهاست که حتی بهترین سیستمها را نیز تحت تأثیر قرار داده است، با مطالعه سال 2020 استنفورد نشان میدهد که سیستمهای آمازون، اپل، گوگل، آیبیام و مایکروسافت خطاهای بسیار کمتری (حدود 19 درصد) با کاربران سفیدپوست نسبت به کاربران سیاهپوست داشتهاند.
با وجود این، OpenAI می بیند که از قابلیت های رونویسی Whisper برای بهبود برنامه ها، خدمات، محصولات و ابزارهای موجود استفاده می شود. در حال حاضر، برنامه یادگیری زبان مبتنی بر هوش مصنوعی Speak از Whisper API استفاده میکند تا یک همراه جدید گفتاری مجازی درون برنامهای را تقویت کند.
اگر OpenAI بتواند به طور عمده وارد بازار گفتار به متن شود، می تواند برای شرکت تحت حمایت مایکروسافت کاملاً سودآور باشد. بر اساس یک گزارش، ارزش این بخش تا سال 2026 به 5.4 میلیارد دلار می رسد که از 2.2 میلیارد دلار در سال 2021 افزایش یافته است.
براکمن گفت: “تصویر ما این است که ما واقعاً می خواهیم نرم افزار هوش جهانی باشیم.” ما واقعاً میخواهیم، بسیار انعطافپذیر، بتوانیم هر نوع دادهای را که در اختیار دارید – هر نوع وظیفهای که میخواهید انجام دهید – به کار ببریم و در این توجه نیرویی چند برابر کنیم.»