چرا علم داده را یاد بگیریم؟

admin
آگوست 3, 2020
بدون نظر

ما در جالب ترین زمان تاریخ بشر زندگی می کنیم. دوره ای که در آن داده ها به یک کالا تبدیل
شده اند که ارزشمندتر از نفت و طلا هستند. میزان داده های تولید شده در سطح جهانی بی سابقه
است و انتظار میرود که با افزایش بیشتر جمعیت جهان و دسترسی بیشتر به اینترنت همچنان
ادامه پیدا کند.
این داده های تولید شده منابع بسیار با ارزشی هستند و علم در رمزگشایی آن هاست.
همچنین، تغییرات انقالب گسترده ای در الگوی رفتاری مشتریان در خرید های برخط،
سرمایه گذاری در بازار سهام و… بوجود آمده است که هر کدام از این فعالیت ها نیاز به تجزیه و
تحلیل عمیق از داده ها را طلب میکند. همینجا است که علم داده پا به عرصه می گذارد و مورد
تقاضای شرکت ها، سازمان ها و… قرار می گیرد.

در گذشته، داده‌ها اغلب ساختاریافته بودند و در حجم بسیار کم وجود داشتند. این ویژگی‌ها امکان تحلیل آن‌ها را با استفاده از ابزارهای سادۀ هوش تجاری (Business Intelligence) فراهم می‌کرد؛ اما طی سال‌های اخیر با رشد تکنولوژی‌های دیجیتال و توسعه دسترسی به اینترنت و اینترنت اشیا (IoT)، شرکت‌ها، داده‌های فراوانی را ذخیره کرده‌اند و اکنون ما با انبوهی از داده‌ روبرو هستیم. داده‌هایی که در صورت مدیریت صحیح، کاربردهای زیادی خواهند داشت. حوزه پزشکی، جرم‌شناسی، صنایع، روابط اجتماعی، کسب‌وکار و هر اقدامی که امروز در جهان در حال اجراست، می‌تواند داده‌محور (data-driven) انجام شود؛ البته به شرطی که به‌اندازه کافی داده‌ در اختیار داشته‌ باشیم، سواد داده (data literacy) داشته‌ باشیم و کسانی در کنارمان باشند که در حوزه مدیریت داده و استفاده از آن تخصص داشته باشند.

فرآیند علم داده

فرآیند علم داده شامل پنج مرحله است. دانشمندانِ داده اثربخش آن هایی هستند که
می توانند هر کدام از این فازها را اجرا کنند. این پنج مرحله به شرح زیر هستند:

▪ مرحله اول: جمع آوری داده ها
همانطور که از نام آن پیداست، اینجا جایی است که جمع آوری داده ها انجام می شود.
کاربران هر روز میلیون ها داده تولید میکنند. هر پیوند کلیک شده، جستجو ی انجام شده،
عکس بارگذاری شده و پیام ارسال شده به انبار داده اضافه می شود. به این ترتیب، روند
جمع آوری دادهها چیزی بی اهمیت نیست. باید مشخص شود که کدام داده ها مربوط به
پروژه هستند. همچنین، کارِ شناسایی مکان جمع آوری داده ها نیز وجود دارد. انواع مختلفی
از منابع داده ها از طریق سایت های خبری، نظرسنجی ها و غیره در یک سایت و رسانه های
اجتماعی به صورت برخط در دسترس هستند.

▪ مرحله دوم: تمیز سازی داده ها
مهم است که بدانیم داده های جمع آوری شده در فاز اول بدون ساختار هستند. یک دانشمند
داده باید داده های خام را تمیز سازی و آن ها را طبقه بندی کند. این به معنای جست وجوی
هرگونه ناسازگاری (داده های تکراری، داده های ناهنجار و غیره) در داده ها در جهت
جلوگیری از هرگونه خطا در مراحل بعدی است. به دلیل وظایفی که در دست انجام است،
مرحله دوم مغمولا بخش زمان بر یک پروژه علم داده است.

▪ مرحله سوم: کاوش داده ها
تجزیه و تحلیل بعد از تمیزسازی مجموعه داده ها شروع می شود. دانشمندان داده، داده ها
را به دقت بررسی می کنند تا ایده گسترده تری از الگوها و روند های کلیدی مجموعه داده ها
بدست آورند. مصورسازی و تجزیه و تحلیل آماری بر این مرحله حاکم است. کاوش داده ها
نکاتی را که به تجزیه و تحلیل بیشتر نیاز دارند برجسته میکند. ابزارهای مصورسازی
هم چنین به دانشمندان داده اجازه می دهد تا موارد دورریز را یادداشت کنند و این موارد را
بیشتر کاوش کنند.

▪ مرحله چهارم: مدلسازی داده ها
مدل سازی در قلب روش پژوهش علم داده است. آن درک رابطه بین عناصر داده و نگاشت
آنها را تشکیل می دهد. از طریق مدل سازی داده ها ، یک دانشمند داده میبیند که مهمترین
عناصر چگونه با یکدیگر تعامل دارند و در کنار هم قرار میگیرند. روشهای مختلفی برای
ساخت مدل وجود دارد. این مدلسازی می تواند از طریق روش های یادگیری ماشین یا
مدل سازی آماری باشد. تنها پس از مدلسازی ، یک دانشمند داده شروع به استخراج بینش
از آن میکند.

▪ مرحله پنجم: تفسیر دادهها
پس از آن که از داده ها بینش معناداری را استخراخ کردید، نوبت به آخرین مرحله از چرخه
دوام علم داده یعنی تفسیر داده ها میرسد. اگر می خواهید اکتشافات ارزشمند شما به مرحله
اجرا درآید، باید بتوانید این بینش ها را به شکلی جذاب و قابل فهم ارائه دهید تا ذینفعان
پروژه بتوانند آن را به آسانی درک کنند.

پروژه قبلی:دانشمند داده یا مهندس داده؟

پروژه بعدی:پایتون چیست؟