آدرس:
مشهد - بلوار کوثر - کارخانه نوآوری
تلفن:
۰۹۱۵ ۷۷۹ ۷۳۱۵
مشهد - بلوار کوثر - کارخانه نوآوری
۰۹۱۵ ۷۷۹ ۷۳۱۵
تعریف علم داده
علم داده زمینه ی تحقیقاتی است که با ترکیبی از ابزارهای مختلف، الگوریتم ها، اصول یادگیری ماشین، متن کاوی، ریاضیات و آمار به کشف الگوهای پنهان از داده های خام می پردازد.
شاغلین در حوزه ی علم داده، با اعمال الگوریتم های یادگیری ماشین، ریاضیات و آمار به
انواع مختلفی از دادهها، سعی میکنند سیستم هوش مصنوعی بسازند تا به انجام وظایفی بپردازد
که معمولا نیاز به هوش انسانی دارد و یا مسائل پیچیده را به مسائل کوچکتر تقسیم کند تا
دیدگاه و دانشی را از آنها بدست آورند. به نوبه خود، این سیستم ها دیدگاهی تولید می کنند که
نقش بسیار مهمی در پیشبرد اهداف تحلیل گران و کاربران تجاری به همراه دارد. به طور خلاصه
می توان گفت، هدف علم داده توضیح فرآیندها از طریق داده های موجود است. انتظار می رود
این توضیح به اندازه کافی دقیق باشد تا بتواند پیش بینی انجام دهد. هدف نهایی از این تفسیرها
و توضیحات این است که تصمیماتی آگاهانه بر اساس دانش استخراج شده از این دادهها انجام
دهیم.
کلان داده چیست؟
داده ها، پایه و اساس علم داده هستند؛ داده ها همان مولفه های اصلی هستند که تمام تجزیه و
تحلیل ها بر پایه ی آنها استوار است. در زمینه علم داده، میتوان این داده ها را به دو گروه
تقسیم بندی کرد: دادههای سنتی و کلان داده.
داده های سنتی، به دادههای اشاره دارد که در پایگاه های داده ای که تحلیل گران می توانند در
یک رایانه آنها را مدیریت کنند، تهیه و ذخیره سازی شده است. این داده ها در قالب جدولی
هستند که حاوی مقادیر عددی یا متنی است. البته باید گفت که واژه ی “سنتی” چیزی است که
بیشتر استفاده می کنیم تا بتوانیم بهتر تمایز بین کلان داده و انواع دیگر داده را نشان دهیم. در
طرف مقابل، کلان داده، داده هایی بزرگتر از داده ها سنتی هستند و معمولا در یک شبکه گسترده
از رایانه ها توزیع می شوند.
تعریف کلان داده
کلان داده به مجموعه داده های ساختاریافته پیچیده و بدون ساختار با حجم بالا اشاره دارد که به سرعت تولید و از انواع مختلفی از منابع بدست آمده و سبب افزایش بینش و تصمیم گیری می شوند.
کلان داده به گروه بزرگی از داده های ناهمگن اشاره دارد که از منابع گوناگونی بدست می آید
و شامل انواع مختلفی از داده ها به صورت زیر می شود:
• داده های بدون ساختار: شبکه های اجتماعی، ایمیل ها، وبلاگ ها، توئیت ها، تصاویر
دیجیتال، داده های تلفن همراه، صفحات وب و غیره.
• نیمه ساختار یافته: فایل های XML ،فایل های متنی و غیره.
• ساختار یافته: پایگاه داده ها و سایر فرمت های ساختاری
کلان داده اساسا یک کاربرد ویژه از علم داده است که در آن مجموعه داده ها بسیار بزرگ
است و نیاز به غلبه بر چالش های منطقی برای مقابله آن ها دارد. علم داده یک رویکرد علمی
است که ایده های الگوریتمی، محاسباتی و ابزارهای رایان های را برای پردازش این داده های بزرگ
اعمال میکند.
به طور کلی نگرانی اصلی کلان داده، ذخیره، استخراج، پردازش و تجزیه و تحلیل در این
مجموعه ای عظیم از داده ها است. پردازش و تحلیل این مجموعه داده های بزرگ اغلب به دلیل
محدودیت های محاسباتی امکان پذیر نیست. از همین رو روش ها و ابزارهای ویژهای به عنوان
مثال: الگوریتم، نرم افزار، برنامه نویسی موازی و غیره را مورد نیاز دارد.
تفاوت علم داده با کلان داده
در زیر تفاوت های بین علم داده و کلان داده فهرست شده اند:
▪ سازمانها به داده های بزرگ نیاز دارند تا کارایی خود را بهبود بخشند، رشد کسب وکار خود را
افزایش دهند و محصولات بهتری برا ی مشتریان خود فراهم کنند. در حالی که علم داده روش ها و
سازوکارهای درک و استفاده از پتانسیل داده های بزرگ را به موقع فراهم میکند.
▪ در حال حاضر، برای سازمان ها هیچ محدودیتی برای مقدار داده های ارزشمندی که میتواند
جمع آوری شود وجود ندارد. اما برای استفاده از همه ی این داده ها برا ی استخراج اطلاعات
معنی دار برای تصمیمات سازمانی، علم داده مورد نیاز است.
▪ علم داده ها به وضوح از رویکردهای نظری و عملی برای کاوش اطلاعاتاز داده های بزرگ
استفاده میکند که نقش مهمی در استفاده از پتانسیل داده های بزرگ ایفا میکند. کلان داده ها را
میتوان به عنوان استخری از داده ها در نظر گرفت که اعتبار ندارد ، مگر اینکه با استدلال قیاسی و
استقرایی تجزیه و تحلیل شود.
▪ تجزیه و تحلیل داده های بزرگ به داده کاوی مرتبط میشود. اما علم داده ها از الگوریتم های
یادگیری ماشین برای طراحی و توسعه مدل های آماری برای تولید دانش از حجم عظیم کلان داده
استفاده میکند.
از تفاوت های بالا بین کلان بزرگ و علم داده، ممکن است مشخص شود که علم داده ها در
مفهوم کلان داده گنجانده شده است. علم داده نقش مهمی در بسیاری از حوزه های کاربردی بازی
می کند. علم داده بر روی داده های بزرگ کار می کند تا از طریق تجزیه و تحلیل پیش گویانه نتایج
مفیدی بدست آورد که در آن نتایج برای اتخاذ تصمیمات هوشمندانه مورد استفاده قرار
می گیرند.
تفاوت اساسی بین کلان داده و علم داده را میتوان با ذکر یک مثال بهتر درک کرد. علم داده
همانند یک کتاب است که در آن شما می توانید یک راه حل برای مشکلات خود پیدا کنید. از
سوی دیگر، کلان داده را میتوان به عنوان یک کتابخانه بزرگ در نظر گرفت که در آن تمام
پاسخ های سوالات در آنجا هستند، اما یافتن پاسخ به سوالات شما دشوار است .