کاربرد سیستم های هوشمند تبدیل صوت به متن(Speech to Text)

admin
آگوست 27, 2023
بدون نظر

اگر از دستیارهای مجازی مانند Alexa، Cortana، Google Assistant یا Siri استفاده کرده‌اید، ممکن است با مفاهیم تشخیص گفتار یا صوت با استفاده از هوش مصنوعی آشنا باشید. تشخیص گفتار فناوری است که کاربران را قادر می سازد تا منظور و هدف خود را به صورت شفاهی برای سیستم هوشمند توضیح دهند. این کار را با تبدیل پرس و جوهای صوتی و شفاهی کاربران به متنِ قابل فهم، توسط سیستم انجام می گیرد.

در مقاله پیش رو 11 کاربرد برتر فناوری صوتی در بازاریابی، سرویس های مشتری مداری، مراقبت های بهداشتی و سایر زمینه ها ارائه می شود.

برنامه های کاربردی رایج صوت به متن

جستجوی صوتی

جستجوی صوتی، مسلماً، رایج ترین استفاده از تشخیص صدا است. طبق گزارش ها، در سال 2022، تنها در ایالات متحده، 135.6 میلیون کاربر حداقل یک بار در ماه از دستیار دیجیتال استفاده می کردند. علاوه بر این، طبق یک نظرسنجی در دنیای اقتصاد مرکز انگلیسی(PWC)، استفاده از دستیار صوتی برای جستجوها، روش ترجیحی 71 درصد از شرکت‌کنندگان بوده است.

گفتار به متن

تشخیص صوت، انسان را در استفاده از دست و تایپ کردن بی نیار می کند. این کاربرد می تواند برای معلولین و یا کم توانان جسمی و نیز نابینایان از اهمیت بیشتری برخوردار باشد. از جمله موارد استفاده آن می توان به موارد زیر اشاره کرد:

1-استفاده های متعدد از کامپیوتر مانند تایپ و یا نوشتن یک ایمیل

2- زیرنویس خودکار مبتنی بر تشخیص گفتار در سرویس های ویدئویی

3-ترجمه خودکار متون

4-ارسال متن در موبایل های هوشمند و یا سرویس های کاربری درکامپیوترها

طبق نظرسنجی PWC 2. 58 درصد از پاسخ دهندگان ادعا کردند که به جای تایپ فیزیکی با استفاده از دستیار صوتی به دوستان خود پیامک ارسال می کنند.

دستورات صوتی به دستگاه های هوشمند در منزل

خانه های هوشمند از فناوری تشخیص صدا برای انجام کارهای خانگی مانند باز و بسته شدن درب ، روشن کردن چراغ‌ها، جوشاندن آب، تنظیم ترموستات و غیره استفاده می‌کنند. پیش بینی می شود تا سال 2025، درآمد بازار حاصل از خرید دستگاه های خانه هوشمند، به 182 میلیون دلار برسد. از طرفی 30 درصد از کاربران دستیار صوتی، دستگاه‌های خانه هوشمند را دلیل اصلی سرمایه‌گذاری در Amazon Echo یا Google Home می‌دانند. تا سال 2025، 478 میلیون خانوار دارای دستگاه خانه هوشمند خواهند بود.

برنامه های کاربردی عملکرد تجاری

1-سرویس مشتری مداری

تشخیص صدا از مهمترین کاربردهای هوش مصنوعی در سرویس های مشتری مداری است. موارد رایج استفاده از تشخیص گفتار در این سرویس ها عبارتند از:

پاسخ صوتی تعاملی (IVR): یکی از قدیمی ترین برنامه های تشخیص گفتار است و به مشتریان این امکان را می دهد تا به عوامل مناسب دسترسی پیدا کنند یا مشکلات خود را از طریق پاسخ صوتی حل کنند.

تجزیه و تحلیل: ثبت همزمان تماس های صوتی مشتریان می تواند به شناسایی الگوهای تماس و مشکلات رایج کمک کند.

2-پیش فروش

تماس‌های نمایندگان توسعه فروش (SDR) می‌تواند بیهوده باشد. به عنوان مثال، شرکت‌های بیمه با مشتریان لید و مهم خود تماس می‌گیرند و از آنها سؤالاتی می‌پرسند (یعنی سن، شغل، سبک زندگی، و غیره) تا ببینند برای کدام بسته بیمه واجد شرایط هستند. چنین فرآیندهایی را می توان با ربات های صوتی، خودکار کرد و سرویس های صوتی می توانند به پیشبرد سریعتر این هدف کمک کنند. مزیت دیگر این است که مشتری نیز مجبور نیست منتظر بماند تا با یک نماینده فروش ارتباط برقرار کند. بلکه ربات بلافاصله فرآیند ارزیابی و صلاحیت را آغاز می کند.

3-بیومتریک صدا برای امنیت

شبیه به اینکه گوشی هوشمند شما به شما اجازه می‌دهد قفل آن را با اثر انگشت باز کنید، بیومتریک صوتی از گفتار افراد برای احراز هویت استفاده می‌کند. ممکن است از کاربران خواسته شود که در هنگام ورود به سیستم به جای تایپ رمز عبور، نام خود را با صدای بلند بیان کنند. روش دیگر، بیومتریک گفتار می‌تواند در فین ‌تک برای تأیید تراکنش‌ها و تضمین واقعی بودن و رضایت مالک حساب استفاده شود. علاوه بر این، بیومتریک گفتار می تواند دسترسی به پرسنل مجاز در مراقبت های بهداشتی را محدود کند، جایی که حفظ محرمانگی برای بیمار از اهمیت بالایی برخوردار است.

کاربردهای صنعتی

1-صنعت خودرو

سیستم های تشخیص گفتار داخل خودرو، به یک ویژگی استاندارد برای اکثر وسایل نقلیه مدرن تبدیل شده است. تحقیقات نشان داده است که تا سال 2022، 73 درصد از رانندگان از دستیار صوتی داخل خودرو استفاده کرده اند. بزرگترین مزیت تشخیص گفتار خودرو این است که به راننده این امکان را می دهد که چشم خود را از جاده برنداشته و امنیت رانندگی به خطر نیفتد. موارد استفاده شامل برقراری تماس های تلفنی، انتخاب ایستگاه های رادیویی، تنظیم مسیرها یا پخش موسیقی است.

2-آموزش و یادگیری

80 درصد از یادگیری کودکان، از طریق بینایی است و محرک اصلی آنها کشف محیط اطرافشان است. تشخیص گفتار می‌تواند بستر یادگیری عادلانه‌ای را برای کودکان بدون بینایی یا کم بینای ایجاد کند. استفاده آسان از سیستم های هوشمند مانند موبایل و کامپیوتر از جمله مزایای استفاده از فناوری صوت به متن برای آموزش معلولین جسمی می باشد.

تبلیغات، رسانه و بازاریابی

ابزارهای تشخیص گفتار، مانند نرم افزارهای دیکتیشن، می توانند افراد را قادر سازند تا کلمات بیشتری را در زمان کمتری بنویسند. مطالعه ای که توسط پزشکان با استفاده از نرم افزار دیکته انجام شد نشان داد که به طور متوسط 150 کلمه در دقیقه تولید می کند. بطور مثال پزشکان می توانند با استفاده از ابزار دیکته 150 کلمه در دقیقه بنویسند.

بنابراین تقریباً همه تولیدکنندگان محتوا که مقالات، سخنرانی‌ها، کتاب‌ها، یادداشت‌ها یا ایمیل‌ها را می‌نویسند، می‌توانند 3000 تا 4000 کلمه را در 30 دقیقه با استفاده از این برنامه‌ها رونویسی کنند. این ابزارها 100٪ دقیق نیستند، اما برای پیش نویس های اولیه خوب هستند.

مراقبت های بهداشتی

1-یادداشت برداری

یادداشت برداری یکی از وقت گیرترین فعالیت های پزشکان است که وقت آنها را از ملاقات با بیماران می گیرد. به لطف فناوری MD یا همان یادداشت برداری پزشکی پزشکان می‌توانند میانگین مدت قرار ملاقات را کوتاه کنند و در عوض، بیماران بیشتری را در برنامه‌های خود جای دهند.

2-تشخیص بیماری

فناوری تشخیص گفتار می تواند در درمان بیماریهای روحی و روانشناسی به پزشک کمک کند. بطور مثال در حالت افسردگی علاوه بر آنالیز صدای بیمار و حالات آن می توان وجود یا فقدان این اختلال را از طریق کلماتی مانند «ناراضی»، «غرقه»، «بی حوصله»، «احساس خلأ» و غیره شناسایی کند. فروشندگانی مانند Sonde Health اپلیکیشن‌های موبایلی ایجاد کرده‌اند که بر اساس لحن صدای آن‌ها، استفاده از کلمات، انرژی، نوسانات و ریتم و سایر متغیرها به کاربران امتیازی از «تناسب ذهنی» می‌دهند

فنآوری حقوقی

چت ربات های قانونی به دلیل سهولت استفاده و کاربرد گسترده، محبوبیت زیادی پیدا کرده اند. فناوری حقوقی با قابلیت گفتار می‌تواند موارد استفاده را گسترش دهد. گزارش دادگاه (نوشتن سخنرانی بلادرنگ) و رونوشت های خودکار در سپرده ها و بازجویی ها و نیز استفاده از NLP برای بررسی اسناد قانونی جهت تعیین اینکه آیا آنها از معیارهای نظارتی برخورداز هستند یا خیر.

فناوری گفتار به متن می تواند نقش مهمی را در سرعت بخشیدن وظایف متعدد در جایگاه های مختلف و مشاغل گوناگون داشته باشد. ازین رو تیم رایان پویش به دنبال تحقیق و توسعه در زمینه این فناوری ارزشمند می باشد.

مقاله قبلی:علم داده در کسب و کار

مقاله بعدی:مایکروسافت پایتون را در اکسل پشتیبانی می‌کند.