MIDOONY Logo

علم داده چيست و دانشمند داده كيست ؟ Data Science-Data Scientist

1400/07/18
علم داده چيست و دانشمند داده كيست ؟ Data Science-Data Scientist

#علم_داده #data_science مجموعه ای از اصول، تعریف مسائل، الگوریتم ها و فرایندهای استخراج الگوهای پنهان و مفید از مجموعه داده های بزرگ است. بسیاری از اجزای علم داده برای فیلد های مرتبطي از قبیل #یادگیری_ماشین و #داده_کاوی توسعه داده شده اند. در واقع، اصطلاحات علم داده، یادگیری ماشین و داده کاوی اغلب به جای یکدیگر استفاده می شوند. در تمام این نظام ها تمرکز روی بهبود تصمیم گیری از طریق تحلیل داده ها می باشد. 
یادگیری ماشین #Machine_learning بر طراحی و ارزیابی الگوریتم های استخراج الگوها از داده ها تمرکز دارد. داده کاوی بطور کلی با تحلیل داده های ساختار یافته سروکار داشته و غالبا در نرم افزارهای تجاری استفاده می شود. علم داده علاوه بر اینها، موارد دیگری را هم دربر می گیرد مانند ثبت، پاکسازی و تبدیل داده های بدون ساختار شبکه های اجتماعی و داده های وب ، استفاده از فناوری های داده برای ذخیره و پردازش مجموعه داده های بزرگ و بدون ساختار، و مسائل مرتبط با اخلاق و مقررات داده ها.
با استفاده از علم داده می توانیم انواع مختلف الگوها را استخراج نماییم. برای مثال، ممكن است بخواهيم الگوهايي استخراج نماييم كه گروه مشتريان با سلايق و رفتار مشابه را شناسايي كنند. در اصطلاح كسب و كار، اين عمل بعنوان تقسيم بندي مشتري #customer_segmentation شناخته مي شود و در اصطلاح علم داده، خوشه بندي #clustering ناميده مي شود.  يا ممكن است بخواهيم الگويي استخراج نماييم براي شناسايي محصولاتي كه مرتبا با هم خريداري مي شوند، اين كار بعنوان كاوش قواعد وابستگي #association_rule_mining شناخته مي شود. ممكن است بخواهيم الگوهايي استخراج نماييم براي شناسايي رويدادهاي غير عادي مانند جعل مطالبات بيمه اي يا كلاه برداري، كه تشخيص ناهنجاري ها يا نامتعارف ها #anomaly or outlier detection عنوان مي شود. در نهايت ممكن بخواهيم الگوهايي جهت طبقه بندي چيزها #classify_things شناسايي نماييم. براي مثال قاعده زير يك الگوي طبقه بندي از مجموعه داده هاي پست الكترونيكي (email) استخراج مي كند.
"اگر پست الكترونيكي شامل عبارت Make money easily بود احتمالا يك هرزنامه است". 
شناسايي قواعد طبقه بندي، بعنوان پيش بيني #prediction شناخته مي شود. کلمه پیش بینی شايد عجیب بنظر برسد زیرا معمولا قاعده،  اتفاقی در آينده را پیش بینی نمی کند. پست الكترونيكي، يا هرزنامه هست يا نيست. بنابراين مي توانيم تصور كنيم منظور، پيش بيني فاقد مقدار بودن يك ويژگي است بجاي پيش بيني آينده. در مثال فوق ما پيش بيني مي كنيم آيا ويژگي طبقه بندي پست الكترونيكي، داراي مقدار "هرزنامه" هست يا نه.
اگر یک متخصص بتواند براحتی یک الگو را در ذهن خود تصور كند، اين الگو براي كشف شدن، ارزش وقت گذاشتن و جستجو توسط علم داده را ندارد. علم داده زماني مفيد است كه حجم زيادي داده وجو داشته باشد، تعداد ويژگي ها زياد باشد  يا الگوها براي اينكه توسط انسان كشف و استخراج شوند خيلي پيچيده باشند. الگوهايي كه توسط علم داده استخراج مي شوند فقط زماني مفيد هستند كه درخصوص يك مسئله به ما ديد بدهند و ما را قادر سازند براي حل آن مسئله عملي انجام دهيم. بنابراين عبارت ديد عملي #actionable_insight گاها براي شرح الگوهاي استخراج شده بكار برده مي شود. ديد (insight)، نشان دهنده اينست كه الگو اطلاعاتي درباره مسئله به ما ارائه مي دهد كه برايمان مشهود نبوده اند و عملي (actionable)، نشان مدهد كه ما چه ظرفيت هايي براي حل مشئله دراختيار داريم. 

پیدایش و تکامل علم داده
اصطلاح علم داده در اواخر دهه 1990 مطرح شد. زمانيكه در انجام محاسبات تجزیه و تحلیل مجموعه داده های بزرگ، به وجود متخصصين آمار در كنار دانشمندان کامپیوتر احساس نياز شد تا استفاده از علم ریاضی را براي اينكار به ارمغان بیاورد.
جمع آوری و آماده سازی داده ها برای استفاده در پروژه هاي علم داده نیاز به #دانشمندان_داده #data_scientist جهت توسعه مهارت های برنامه نویسی براي تركيب و پاکسازي داده ها (گاها داده های بدون ساختار) از منابع وب را در پي داشت. همچنین، پيدايش #کلان_داده ها #big_data به معني آن بود که دانشمندان داده باید قادر باشند با فناوری های کلان داده از قبيل Hadoop كار كنند. در واقع، امروزه نقش دانشمند داده آنقدر وسیع شده است که بحث های زيادي در خصوص تعریف تخصص و مهارت های لازم اين نقش صورت مي پذيرد. با این وجود، تخصص و مهارت های لازم براي اين نقش که مورد توافق اکثر افراد هست در شکل زير نشان داده شده است.
 
تسلط بر همه این زمینه ها برای يك فرد دشوار است، و در واقع، اکثر دانشمندان داده ها دانشي كلي از اين حوزه ها داشته و فقط در زیر مجموعه ای از آنها واقعا تخصص دارند. با این حال، داشتن درک و آگاهی از سهمي كه هر حوزه در يك پروژه علم داده دارد بسيار مهم است.
در اكثر سازمان ها، بيشترر داده ها در پایگاه های داده وجود دارند. علاوه بر این، همانطور كه معماری داده سازمان رشد می کند، پروژه های علم داده شروع به ترکیب داده ها از منابع داده مختلف مي كنند که معمولاً "منابع كلان داده " (big data) نامیده می شوند. داده های موجود در این منابع داده از قالب هاي مختلفي بوده و پایگاه هاي داده عمدتا از نوع رابطه ای، NoSQL یا Hadoop مي باشند. داده های موجود در اين پایگاه هاي داده و منابع داده مختلف، نیاز دارند یکپارچه سازی شده (integrated)، پاک سازی شده (cleansed)، تبديل شده  (transformed)، نرمال سازي شده (normalized) و عملياتي از اين قبيل. این وظایف با اسامی زیادی عنوان می شوند مانند استخراج  (extraction)، تبدیل (transformation) و بارگذاری (load)، "جمع آوری داده ها (data munging)" ، "تبديل داده ها (data wrangling)" ، "ادغام داده ها (“data fusion)" ، "آماده سازي داده ها شامل مرتب سازي- مدل سازي و ساختاردهي (data crunching)".
طیف وسیعی از مهارت ها و ابزارهای علوم رایانه اجازه می دهند دانشمندان داده با كلان داده ها کار کرده و آنها را جهت حصول اطلاعات جدید و معنی دار پردازش نمايند. محاسبات با عملکرد بالا HPC (High-performance computing) عبارتست از تجميع قدرت محاسباتی برای ارائه عملکردي بالاتر از آنچه که می توان از يك رايانه به تنهايي دريافت كرد. بسیاری از پروژه های علم داده با مجموعه داده های بسیار بزرگ و الگوریتم های يادگيري ماشين كار مي كنند که از نظر محاسباتی هزينه بر هستند. در این شرایط، داشتن مهارت های لازم برای دسترسی و استفاده از منابع HPC خيلي مهم است. جداي از HPC، همانطور كه قبلا اشاره شد دانشمندان داده بايد قادر باشند داده هاي وب را حذف، تمیز و یکپارچه نمايند تا متون و تصاوير بدون ساختار را پردازش نمايند. بعلاوه ، یک دانشمند داده ممکن است نرم افزار هايی برای انجام یک کار خاص نوشته یا نرم افزارهاي موجود را برای مطابقت با داده ها و حوزه پردازشي تغيير دهد. در نهایت، مهارت های علم رايانه براي درك و توسعه مدل هاي يادگيري ماشين و بكارگيري آنها در تولید، تحلیل یا برنامه های پشتیبان در یک سازمان لازم مي باشند.
نمايش داده ها در قالب گرافیکی باعث مي شود مشاهده و درک آنچه براي داده ها رخ داده آسان تر شود. #مصور_سازي داده #Data_visualization براي تمام مراحل علم داده بكار مي رود. 
روش های آمار و احتمالات در سراسر فرایند علم داده استفاده مي شوند، از ابتداي جمع آوری و بررسی داده ها تا مقایسه نتایج مدل ها و تحليل هاي مختلف ارائه شده در طول پروژه.
درنهايت، یکی از جنبه های کلیدی موفقيت دانشمند داده این است که بتواند شرحي از داده ها ارائه نمايد. این شرح ممکن است شامل بینشی باشد كه از تحلیل داده ها بدست آمده یا شامل چگونگي ایجاد مدل هاي متناسب با فرایندهای سازمان حين اجراي پروژه باشد و شايد هم تأثیر آنها بر عملکرد سازمان را نشان دهد.
سیستم توصیه گر (recommender system) در دنياي آنلاين، معادل بيش فروشي (up-selling) و فروش مکمل (cross-selling) در بازاريابي است.
وقتي فیلمی را در Netflix تماشا مي كنيد یا چيزي را از آمازون خریداری مي نماييد، می دانید که این وب سایت ها داده های شما را جمع آوري مي كنند تا در مراجعه بعدي مواردي براي تماشا يا خريد به شما پيشنهاد نمايند. این سیستم های توصیه گر براي راهنمایی شما به طرق مختلف طراحي شده اند: برخی شما را به سمت فیلم های پرفروش و بهترين فروشندگان سوق مي دهند، برخي ديگر به سمت محصولاتي خاص سلیقه شما، هدايت مي كنند. این جهت دهي براي فروش و ارائه محصولات اساس طراحی يک سیستم توصیه گر است كه بر الگوریتم های علم داده استفاده شده برای پیاده سازی این سیستم ها اثر مي گذارد. 
علم داده عامل اصلي افزایش منابع برای سرعت بخشیدن به پیشرفت تحقیقات سرطان  و ابداعات داروهاي پزشکی است. ابداعات داروهاي پزشکی توالی ژنوم انسان و علم داده را برای طراحی دارو جهت بیماران خاص تركيب مي نمايد. رمز موفقیت علم داده عبارتست از حصول داده هاي مناسب و يافتن ویژگی های صحيح براي آنها.
تحلیلگران بايد به بيان مسئله پرداخته، طراحی و آماده سازی داده ها را انجام داده، مناسب ترين الگوریتم هاي يادگيري ماشين را انتخاب كرده، تفاسیر مهمي از نتایج تحلیل ها ارائه داده و اقدامات مناسب بر اساس بینش حاصله از تحلیل ها را برنامه ريزي نمايند. 
بدون نظارت افراد ماهر، یک پروژه علم داده در رسیدن به اهداف خود شکست خواهد خورد. بهترین نتایج علم داده زمانی حاصل مي شود که تخصص انسان و قدرت کامپیوتر در كنار هم قرار گيرند.
استفاده گسترده و فزاینده از علم داده به معنی اين است که امروزه اولين چالش علم داده برای بسیاری از سازمان ها یافتن تحلیلگران واجد شرایط و استخدام آنها است. استعداد افراد در علم داده در درجه اول است و تخصيص منابع استعدادي براي علم داده اولين تنگنا مي باشد.
دومین چالش علم داده این است که هر پروژه علم داده به كلان داده ها و استفاده از الگوريتم هاي یادگیری عمیق نياز دارد. بطور کلی، داشتن اطلاعات بیشتر خوب است، اما صحيح بودن داده ها مهمترین الزام است. 
سومین مسئله این است که استفاده از نرم افزارهای مدرن علم داده آسان شده است يعني بكارگيري علم داده آسان مي باشد. درست است که نرم افزارهاي علم داده هر روز کاربر پسندتر مي شوند ولي این سهولت استفاده می تواند اين واقعیت را پنهان کند که انجام صحیح علم داده نیازمند داشتن دانش مناسب در حوزه مد نظر و داشتن تخصص لازم در خصوص ويژگي داده ها و مفروضات الگوریتم های مختلف يادگيري ماشين است.
 

0 550
دیدگاه کاربران
0 دیدگاه
شما هم دیدگاه خود را ارسال کنید