آدرس:
مشهد - بلوار کوثر - کارخانه نوآوری
تلفن:
۰۹۱۵ ۷۷۹ ۷۳۱۵
مشهد - بلوار کوثر - کارخانه نوآوری
۰۹۱۵ ۷۷۹ ۷۳۱۵
مدلسازی زبان (Language modeling)
تعریف مدل زبان:
یک مدل زبان از یادگیری ماشینی استفاده می کند تا توزیع احتمال را بر روی کلماتی که برای پیش بینی محتمل ترین کلمه بعدی در یک جمله بر اساس ورودی قبلی استفاده می شود، انجام دهد. مدلهای زبان از متن یاد میگیرند و میتوانند برای تولید متن اصلی، پیشبینی کلمه بعدی در یک متن، تشخیص گفتار، تشخیص نوری کاراکتر و تشخیص دستنویس استفاده شوند.
نحوه کار مدل سازی زبان:
مدل های زبان با تجزیه و تحلیل داده های متنی احتمال کلمه را تعیین می کنند. آنها این داده ها را با تغذیه از طریق الگوریتمی تفسیر می کنند که قوانینی را برای زمینه در زبان طبیعی ایجاد می کند. سپس، مدل این قوانین را در تکالیف زبانی به کار میبرد تا به طور دقیق جملات جدید را پیشبینی یا تولید کند. این مدل اساساً ویژگیها و ویژگیهای زبان پایه را میآموزد و از آن ویژگیها برای درک عبارات جدید استفاده میکند.
چندین رویکرد احتمالی مختلف برای مدل سازی زبان وجود دارد که بسته به هدف مدل زبانی متفاوت است. از منظر فنی، انواع مختلف آن بر اساس میزان داده های متنی که تجزیه و تحلیل می کنند و ریاضیاتی که برای تجزیه و تحلیل آن استفاده می کنند، متفاوت است. به عنوان مثال، یک مدل زبانی که برای تولید جملات برای یک ربات توییتر خودکار طراحی شده است، ممکن است از ریاضیات متفاوتی استفاده کند و دادههای متنی را به روشی متفاوت از مدل زبانی که برای تعیین احتمال جستجوی جستجو طراحی شده است، استفاده کند.
برخی از انواع رایج مدل سازی زبان آماری عبارتند از:
N-gram
Unigram
Bidirectional
Exponential
Continuous space