سیستم هوش مصنوعی آفلاین کوالکام صدا را با دقت ۹۵ درصد تشخیص می‌دهد

کوالکام اپلیکیشنی ساخته است که به‌ صورت آفلاین و بدون نیاز به اینترنت، قابلیت تشخیص صدا با دقت ۹۵ درصد دارد.

کریس لوت، یکی از محققان هوش مصنوعی در کوالکام، در کنفرانس یادگیری عمیق در بوستون، نگاهی اجمالی به برنامه جدید تشخیص صدای کوالکام کرده است. برنامه‌ تشخیص صدای کوالکام به‌ صورت کلی روی گوشی هوشمند اجرا می‌ شود و شامل دو نوع شبکه عصبی است؛ یک شبکه‌ عصبی تکرار شونده یا بازگشتی (Recurrent Neural Network) که از حافظه داخلی برای پردازش ورودی‌ های دستگاه استفاده می‌ کند و یک شبکه عصبی پیچیده که الگوی ارتباطی بین نرون‌ های مغز انسان را شبیه‌ سازی می‌ کند. به گفته لوت، این سیستم به‌ طور متوسط ۹۵ درصد توانایی تشخیص کلمات و عبارات را دارد. او می‌گوید:

“این اپلیکیشن، الگوی استفاده کاربر از گوشی‌ هوشمند را یاد می‌ گیرد؛ بنابراین می‌ تواند رفتار خود را بر اساس رفتار شما شخصی‌ سازی کند و به شما ارائه دهد.”

لوت توضیح داد که اکثر سیستم‌ های تشخیص صدای امروزی بیشتر پردازش خود را در فضای ابری انجام می‌دهند. این سیستم‌ ها شامل میکروفون‌ و تراشه‌ در گوشی‌ ها، اسپیکرهای هوشمند خانگی مانند گوگل هوم و آمازون اکو و رایانه‌ های ویندوزی با دستیار کورتانا مایکروسافت برای گوش دادن به کلمات از پیش تعریف‌ شده مانند «OK Google» و «Hey Cortana» هستند که برای هر کدام از این کلمات، از قبل برنامه‌ ریزی شده است و هیچ گونه تجزیه و تحلیلی انجام نمی‌ دهند و پردازش اصلی را به الگوریتم‌ های قابل اجرا روی سرورهای قدرتمند ابری می‌ سپارند.

بعضی از کاربران نگران حریم خصوصی با انتشار صدای خود در محیط ابری هستند. هر دو سرویس الکسای آمازون و گوگل اسیستنت قبل از ارسال صدا برای تجزیه و تحلیل به فضای ابری، آن را به اجزای کوچک‌ تر تقسیم می‌ کنند و آن‌ را تا زمانی که کاربر تصمیم به حذف بگیرد ذخیره می‌ کنند. هر دو شرکت اعلام کرده‌ اند که از دستورات صوتی استفاده می‌ کنند تا خدمات خود را ارتقاء بدهند و پاسخ‌ های شخصی بیشتری ارائه کنند. اما در بعضی موارد، ضبط و ذخیره‌ سازی صدا در سرورهای ابری نگرانی‌ هایی در خصوص حریم خصوصی برای کاربر به ارمغان می‌ آورد. در سال ۲۰۱۶، کارآگاهان در آریزونا برای تحقیق در مورد یک قتل، به دنبال دسترسی به داده‌ های صوتی اکو آمازون بودند که در نهایت با اجازه متهم، داده‌ های صوتی به اشتراک گذاشته شدند.

لوت معتقد است علاوه بر حریم خصوصی، پردازش صوتی در دستگاه نیز مزایایی دارد. از آن جایی که لازم نیست  داده‌ ها را به محیط ابری بفرستد، فورا به فرمان‌ ها پاسخ می‌ دهد و به این دلیل که اتصال به اینترنت نیازی ندارد، بسیار قابل اعتماد است. لوت در این خصوص می‌ گوید:

“تلاش‌های بسیاری در حال انجام است تا یک سیستم مبتنی بر شبکه‌ های عصبی، در سمت کاربر قادر به انجام پردازش باشد. با استفاده از این روش می‌ توان تعامل با دستگاه‌ ها را بسیار طبیعی‌ تر کرد.”

سال ۲۰۱۶ گوگل یک سیستم تشخیص صدای آفلاین ایجاد کرد که در آن زمان ۷ برابر سریع‌ تر از سیستم آنلاین بود. این مدل که تقریبا ۲۰۰۰ ساعت داده‌ صوتی دربر‌دارد، دارای حجمی به اندازه ۲۰.۳ مگابایت دقت ۸۶.۵ درصد است که روی تلفن هوشمند مورد استفاده قرار می‌ گیرد.

البته، تشخیص صدا در دستگاه دارای مجموعه‌ای از محدودیت‌ ها است. الگوریتم‌ های طراحی‌شده برای کار کردن به‌صورت آفلاین نمی‌ توانند به جستجوی پاسخ‌ سؤالات در اینترنت بپردازند و پیشرفت‌ های سیستم‌ های مبتنی بر پردازش ابری با مجموعه داده‌ های متنوع را از دست می‌ دهند.

اما لوت معتقد است که راهکار کوالکام، آینده را در اختیار دارد. او می‌ گوید:

“بسیاری از موارد در فضای ابری اتفاق می‌ افتد؛ اما ما فکر می‌ کنیم که باید به‌ طور مستقیم روی دستگاه اتفاق بیفتد.”

اما لوت معتقد است که راهکار کوالکام، آینده را در اختیار دارد. او می‌ گوید:

 

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *