میدونی - علم داده چیست و دانشمند داده کیست ؟ Data Science-Data Scientist

#علم_داده #data_science مجموعه ای از اصول، تعریف مسائل، الگوریتم ها و فرایندهای استخراج الگوهای پنهان و مفید از مجموعه داده های بزرگ است. بسیاری از اجزای علم داده برای فیلد های مرتبطی از قبیل #یادگیری_ماشین و #داده_کاوی توسعه داده شده اند. در واقع، اصطلاحات علم داده، یادگیری ماشین و داده کاوی اغلب به جای یکدیگر استفاده می شوند. در تمام این نظام ها تمرکز روی بهبود تصمیم گیری از طریق تحلیل داده ها می باشد.
یادگیری ماشین #Machine_learning بر طراحی و ارزیابی الگوریتم های استخراج الگوها از داده ها تمرکز دارد. داده کاوی بطور کلی با تحلیل داده های ساختار یافته سروکار داشته و غالبا در نرم افزارهای تجاری استفاده می شود. علم داده علاوه بر اینها، موارد دیگری را هم دربر می گیرد مانند ثبت، پاکسازی و تبدیل داده های بدون ساختار شبکه های اجتماعی و داده های وب ، استفاده از فناوری های داده برای ذخیره و پردازش مجموعه داده های بزرگ و بدون ساختار، و مسائل مرتبط با اخلاق و مقررات داده ها.
با استفاده از علم داده می توانیم انواع مختلف الگوها را استخراج نماییم. برای مثال، ممکن است بخواهیم الگوهایی استخراج نماییم که گروه مشتریان با سلایق و رفتار مشابه را شناسایی کنند. در اصطلاح کسب و کار، این عمل بعنوان تقسیم بندی مشتری #customer_segmentation شناخته می شود و در اصطلاح علم داده، خوشه بندی #clustering نامیده می شود. یا ممکن است بخواهیم الگویی استخراج نماییم برای شناسایی محصولاتی که مرتبا با هم خریداری می شوند، این کار بعنوان کاوش قواعد وابستگی #association_rule_mining شناخته می شود. ممکن است بخواهیم الگوهایی استخراج نماییم برای شناسایی رویدادهای غیر عادی مانند جعل مطالبات بیمه ای یا کلاه برداری، که تشخیص ناهنجاری ها یا نامتعارف ها #anomaly or outlier detection عنوان می شود. در نهایت ممکن بخواهیم الگوهایی جهت طبقه بندی چیزها #classify_things شناسایی نماییم. برای مثال قاعده زیر یک الگوی طبقه بندی از مجموعه داده های پست الکترونیکی (email) استخراج می کند.
"اگر پست الکترونیکی شامل عبارت Make money easily بود احتمالا یک هرزنامه است".
شناسایی قواعد طبقه بندی، بعنوان پیش بینی #prediction شناخته می شود. کلمه پیش بینی شاید عجیب بنظر برسد زیرا معمولا قاعده، اتفاقی در آینده را پیش بینی نمی کند. پست الکترونیکی، یا هرزنامه هست یا نیست. بنابراین می توانیم تصور کنیم منظور، پیش بینی فاقد مقدار بودن یک ویژگی است بجای پیش بینی آینده. در مثال فوق ما پیش بینی می کنیم آیا ویژگی طبقه بندی پست الکترونیکی، دارای مقدار "هرزنامه" هست یا نه.
اگر یک متخصص بتواند براحتی یک الگو را در ذهن خود تصور کند، این الگو برای کشف شدن، ارزش وقت گذاشتن و جستجو توسط علم داده را ندارد. علم داده زمانی مفید است که حجم زیادی داده وجو داشته باشد، تعداد ویژگی ها زیاد باشد یا الگوها برای اینکه توسط انسان کشف و استخراج شوند خیلی پیچیده باشند. الگوهایی که توسط علم داده استخراج می شوند فقط زمانی مفید هستند که درخصوص یک مسئله به ما دید بدهند و ما را قادر سازند برای حل آن مسئله عملی انجام دهیم. بنابراین عبارت دید عملی #actionable_insight گاها برای شرح الگوهای استخراج شده بکار برده می شود. دید (insight)، نشان دهنده اینست که الگو اطلاعاتی درباره مسئله به ما ارائه می دهد که برایمان مشهود نبوده اند و عملی (actionable)، نشان مدهد که ما چه ظرفیت هایی برای حل مشئله دراختیار داریم.

پیدایش و تکامل علم داده
اصطلاح علم داده در اواخر دهه 1990 مطرح شد. زمانیکه در انجام محاسبات تجزیه و تحلیل مجموعه داده های بزرگ، به وجود متخصصین آمار در کنار دانشمندان کامپیوتر احساس نیاز شد تا استفاده از علم ریاضی را برای اینکار به ارمغان بیاورد.
جمع آوری و آماده سازی داده ها برای استفاده در پروژه های علم داده نیاز به #دانشمندان_داده #data_scientist جهت توسعه مهارت های برنامه نویسی برای ترکیب و پاکسازی داده ها (گاها داده های بدون ساختار) از منابع وب را در پی داشت. همچنین، پیدایش #کلان_داده ها #big_data به معنی آن بود که دانشمندان داده باید قادر باشند با فناوری های کلان داده از قبیل Hadoop کار کنند. در واقع، امروزه نقش دانشمند داده آنقدر وسیع شده است که بحث های زیادی در خصوص تعریف تخصص و مهارت های لازم این نقش صورت می پذیرد. با این وجود، تخصص و مهارت های لازم برای این نقش که مورد توافق اکثر افراد هست در شکل زیر نشان داده شده است.

تسلط بر همه این زمینه ها برای یک فرد دشوار است، و در واقع، اکثر دانشمندان داده ها دانشی کلی از این حوزه ها داشته و فقط در زیر مجموعه ای از آنها واقعا تخصص دارند. با این حال، داشتن درک و آگاهی از سهمی که هر حوزه در یک پروژه علم داده دارد بسیار مهم است.
در اکثر سازمان ها، بیشترر داده ها در پایگاه های داده وجود دارند. علاوه بر این، همانطور که معماری داده سازمان رشد می کند، پروژه های علم داده شروع به ترکیب داده ها از منابع داده مختلف می کنند که معمولاً "منابع کلان داده " (big data) نامیده می شوند. داده های موجود در این منابع داده از قالب های مختلفی بوده و پایگاه های داده عمدتا از نوع رابطه ای، NoSQL یا Hadoop می باشند. داده های موجود در این پایگاه های داده و منابع داده مختلف، نیاز دارند یکپارچه سازی شده (integrated)، پاک سازی شده (cleansed)، تبدیل شده (transformed)، نرمال سازی شده (normalized) و عملیاتی از این قبیل. این وظایف با اسامی زیادی عنوان می شوند مانند استخراج (extraction)، تبدیل (transformation) و بارگذاری (load)، "جمع آوری داده ها (data munging)" ، "تبدیل داده ها (data wrangling)" ، "ادغام داده ها (“data fusion)" ، "آماده سازی داده ها شامل مرتب سازی- مدل سازی و ساختاردهی (data crunching)".
طیف وسیعی از مهارت ها و ابزارهای علوم رایانه اجازه می دهند دانشمندان داده با کلان داده ها کار کرده و آنها را جهت حصول اطلاعات جدید و معنی دار پردازش نمایند. محاسبات با عملکرد بالا HPC (High-performance computing) عبارتست از تجمیع قدرت محاسباتی برای ارائه عملکردی بالاتر از آنچه که می توان از یک رایانه به تنهایی دریافت کرد. بسیاری از پروژه های علم داده با مجموعه داده های بسیار بزرگ و الگوریتم های یادگیری ماشین کار می کنند که از نظر محاسباتی هزینه بر هستند. در این شرایط، داشتن مهارت های لازم برای دسترسی و استفاده از منابع HPC خیلی مهم است. جدای از HPC، همانطور که قبلا اشاره شد دانشمندان داده باید قادر باشند داده های وب را حذف، تمیز و یکپارچه نمایند تا متون و تصاویر بدون ساختار را پردازش نمایند. بعلاوه ، یک دانشمند داده ممکن است نرم افزار هایی برای انجام یک کار خاص نوشته یا نرم افزارهای موجود را برای مطابقت با داده ها و حوزه پردازشی تغییر دهد. در نهایت، مهارت های علم رایانه برای درک و توسعه مدل های یادگیری ماشین و بکارگیری آنها در تولید، تحلیل یا برنامه های پشتیبان در یک سازمان لازم می باشند.
نمایش داده ها در قالب گرافیکی باعث می شود مشاهده و درک آنچه برای داده ها رخ داده آسان تر شود. #مصور_سازی داده #Data_visualization برای تمام مراحل علم داده بکار می رود.
روش های آمار و احتمالات در سراسر فرایند علم داده استفاده می شوند، از ابتدای جمع آوری و بررسی داده ها تا مقایسه نتایج مدل ها و تحلیل های مختلف ارائه شده در طول پروژه.
درنهایت، یکی از جنبه های کلیدی موفقیت دانشمند داده این است که بتواند شرحی از داده ها ارائه نماید. این شرح ممکن است شامل بینشی باشد که از تحلیل داده ها بدست آمده یا شامل چگونگی ایجاد مدل های متناسب با فرایندهای سازمان حین اجرای پروژه باشد و شاید هم تأثیر آنها بر عملکرد سازمان را نشان دهد.
سیستم توصیه گر (recommender system) در دنیای آنلاین، معادل بیش فروشی (up-selling) و فروش مکمل (cross-selling) در بازاریابی است.
وقتی فیلمی را در Netflix تماشا می کنید یا چیزی را از آمازون خریداری می نمایید، می دانید که این وب سایت ها داده های شما را جمع آوری می کنند تا در مراجعه بعدی مواردی برای تماشا یا خرید به شما پیشنهاد نمایند. این سیستم های توصیه گر برای راهنمایی شما به طرق مختلف طراحی شده اند: برخی شما را به سمت فیلم های پرفروش و بهترین فروشندگان سوق می دهند، برخی دیگر به سمت محصولاتی خاص سلیقه شما، هدایت می کنند. این جهت دهی برای فروش و ارائه محصولات اساس طراحی یک سیستم توصیه گر است که بر الگوریتم های علم داده استفاده شده برای پیاده سازی این سیستم ها اثر می گذارد.
علم داده عامل اصلی افزایش منابع برای سرعت بخشیدن به پیشرفت تحقیقات سرطان و ابداعات داروهای پزشکی است. ابداعات داروهای پزشکی توالی ژنوم انسان و علم داده را برای طراحی دارو جهت بیماران خاص ترکیب می نماید. رمز موفقیت علم داده عبارتست از حصول داده های مناسب و یافتن ویژگی های صحیح برای آنها.
تحلیلگران باید به بیان مسئله پرداخته، طراحی و آماده سازی داده ها را انجام داده، مناسب ترین الگوریتم های یادگیری ماشین را انتخاب کرده، تفاسیر مهمی از نتایج تحلیل ها ارائه داده و اقدامات مناسب بر اساس بینش حاصله از تحلیل ها را برنامه ریزی نمایند.
بدون نظارت افراد ماهر، یک پروژه علم داده در رسیدن به اهداف خود شکست خواهد خورد. بهترین نتایج علم داده زمانی حاصل می شود که تخصص انسان و قدرت کامپیوتر در کنار هم قرار گیرند.
استفاده گسترده و فزاینده از علم داده به معنی این است که امروزه اولین چالش علم داده برای بسیاری از سازمان ها یافتن تحلیلگران واجد شرایط و استخدام آنها است. استعداد افراد در علم داده در درجه اول است و تخصیص منابع استعدادی برای علم داده اولین تنگنا می باشد.
دومین چالش علم داده این است که هر پروژه علم داده به کلان داده ها و استفاده از الگوریتم های یادگیری عمیق نیاز دارد. بطور کلی، داشتن اطلاعات بیشتر خوب است، اما صحیح بودن داده ها مهمترین الزام است.
سومین مسئله این است که استفاده از نرم افزارهای مدرن علم داده آسان شده است یعنی بکارگیری علم داده آسان می باشد. درست است که نرم افزارهای علم داده هر روز کاربر پسندتر می شوند ولی این سهولت استفاده می تواند این واقعیت را پنهان کند که انجام صحیح علم داده نیازمند داشتن دانش مناسب در حوزه مد نظر و داشتن تخصص لازم در خصوص ویژگی داده ها و مفروضات الگوریتم های مختلف یادگیری ماشین است.

علم داده چیست و دانشمند داده کیست ؟ Data Science-Data Scientist

دیدگاه کاربران

شما هم دیدگاه خود را ارسال کنید

محتوا

دسته بندی ها

درباره ما

ارتباط با ما

شما هم دیدگاه خود را ارسال کنید

خطا