مخاطب این گروه افرادی می باشند که علاقه زیادی به حل مساله با رویکرد داده محور داشته و حوزه علم داده را به عنوان حیطه تخصصی برای خود در نظر گرفته اند و آینده شغلی خود را متخصص دیتا ساینس می بینند. پیش بینی فرایندها، تحلیل سری زمانی، متن کاوی، تحلیل شبکه های اجتماعی و یادگیری عمیق از جمله مسائلی هستند که در این حوزه مطرح می باشند.

دانشمند داده یا متخصص دیتا‌ساینس چه جایگاهی دارد؟!

یک دانشمند داده یا متخصص دیتا‌ساینس فردی است که مهارت خود در تحلیل آماری و ساخت مدل های یادگیری ماشین را برای انجام پیش بینی و پاسخ به سوالات مهم کسب و کار به کار می گیرد. متخصص علوم داده همانند یک تحلیلگر داده نیاز دارد تا در پاکسازی، تحلیل و مصورسازی داده ها توانمند بوده و حتی بطور عمیقتری به این موارد بپردازد. ضمن اینکه علاوه بر اینها باید در ساخت، آموزش و بهبود مدل های یادگیری ماشین تسلط و مهارت لازم را داشته باشد. اگر یک تحلیلگر داده بر درک داده های گذشته و چشم انداز کنونی آن تمرکز می کند، دانشمند داده به ارائه پیش بینی های قابل قبول از آینده می پردازد. 

یک دانشمند داده فردیست که می تواند با طرح سوالات پیچیده و حل آنها به کمک دانش آماری پیشرفته و به کارگیری الگوریتم های یادگیری ماشین، ارزش فوق العاده ای برای سازمان ایجاد کند.

متخصصین علوم داده و دیتا ساینس می توانند با استفاده از متدهای یادگیری ماشین با ناظر و بدون ناظر، به دانش پنهان موجود در داده ها دست یابند و آن را آشکار سازند. آموزش مدل های ریاضی به آنها این امکان را می دهد تا بتوانند الگوها را شناسائی کرده و به پیش بینی دقیقتری از آینده برسند. به نوعی می توان گفت که یک دانشمند داده متخصص آماری است که بیشتر از یک آماری کامپیوتر می داند و متخصص کامپیوتری است که بیشتر از یک کامپیوتری به آمار مسلط است.

توانایی ها و مسئولیت های یک متخصص دیتا ساینس

توانایی ها:

  • توانایی بالا در درک کسب و کار
  • توانایی بالا در ریاضیات و آمار
  • توانایی بالا در علوم کامپیوتر و برنامه نویسی

مسئولیت ها:

  • پاکسازی داده های کثیف و آماده سازی آن
  • تجزیه و تحلیل اکتشافی داده ها
  • شناسائی الگوها با استفاده از روشهای یادگیری ماشین
  • انجام پیش بینی بر اساس الگوهای بدست آمده
  • طرح سوال و تعریف مساله جدید متناسب با چالشهای پیش رو
  • ارائه راهکار مبتنی بر علم داده جهت حل مسائل پیچیده سازمان

مسیر پیشنهادی دایکه برای یک متخصص دیتا ساینس

مسیری که در مجموعه دایکه برای یک دانشمند داده طراحی شده است، به مدت 40 هفته و در 4 گام آموزشی شامل 8 کورس می باشد. انتخاب عناوین آموزشی و اولویت بندی آنها بر اساس بینش و تجربه هسته علمی گروه دایکه و با نگاهی بر منابع آموزشی معتبر در سطح دنیا صورت گرفته است. لذا به متقاضیان این دوره ها توصیه می گردد تا پیوستگی و ارتباط مباحث ارائه شده در دوره ها را مدنظر قرار دهند.

مسیر دانشمند داده دایکه


  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  

گام صفر: آشنایی با علم داده

علم داده آنقدر گسترده است که عدم شناخت مناسب از ماهیت، ظرفیتها، ابعاد، رویکردها، زیرشاخه ها و مهارت های لازم برای هر کدام از آنها، ممکن است برای کسانی که تازه وارد این حوزه می شوند، گیج کننده باشد. در این کورس 1 هفته ای که در واقع اولین کورس از مسیر دانشمند داده به حساب می آید، شما با تمام این مسائل آشنا خواهید شد و با شناخت و بینش کلی خوبی می توانید به ادامه مسیر بپردازید. با کلیلک روی این دوره، بخش اول آن را بصورت رایگان مشاهده کنید.

  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  

گام اول: آمار برای علم داده

این دوره به مدت 3 هفته با هدف آشنایی دانشجویان و محققان با مفاهیم آمار و احتمال مقدماتی و کاربردهای آن طراحی شده است. بدون شک متخصصان علوم داده نیاز دارند تا مفاهیم مختلف تحلیل آماری را در بررسی کیفیت داده ها، تحلیل توصیفی، آزمون های اعتبارسنجی مدلهای بدست آمده و … به کار بگیرند.

  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  

گام اول: فرآیند داده‌کاوی و حل مسئله

در این دوره به مدت 7 هفته به نوعی صفر تا صد مسیر حل مساله در فضای ویژوال نرم‌افزار آموزش داده می شود و یک بینش کلی از نوع مسائلی که می توان تعریف کرد و روش حل آنها به مخاطب منتقل می شود. این امر کمک می کند تا مخاطبان پس از پایان دوره، ضمن اینکه توانایی حل مساله با کمک نرم افزار را کسب می کنند، می توانند با نگاه بازتر و اشراف بهتری مسیر تکمیلی را ادامه دهند.

  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  

گام دوم: مهارت برنامه نویسی و علم داده در پایتون

تجهیز شدن به یک زبان برنامه نویسی قدرتمند مثل پایتون می تواند شما را بدون محدودیت های نرم افزاری به هدفتان برساند. قدرت مانور شما در مواجهه با انواع داده ها افزایش می یابد و همیشه برای بهبود نتایج دستتان باز خواهد بود.  فراخوانی داده ها، ارزیابی کیفی، پاکسازی و آماده سازی آن و ارائه تحلیل های آماری و گزارشات توصیفی با کمک زبان قدرتمندی چون پایتون چیزی است که بازار از شما انتظار دارد. همچنین در این دوره به مدت 10 هفته، قابلیت ارتباط با دیتابیس و کوئری نویسی، کار با API و جمع آوری داده از وب (Web Scraping) در کنار یادگیری و فعالیت در ابزارهای مدیریت و کنترل ورژن Git به خوبی پوشش داده شده است.

  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  

گام سوم: یادگیری ماشین

میتوان یادگیری ماشین را به عنوان مجموعه‌ای از ابزارهای پایه برای هوشمندسازی فرآیندها در کاربردهای مختلف، به کار گرفت. این دوره آموزشی در مدت 7 هفته، به معرفی مفاهیم و روشهای اصلی حوزه یادگیری ماشین می‌پردازد. درواقع شما در این دوره مبانی و تئوری تکنیکهای مختلف یادگیری ماشین را آموخته و با الگوریتمهای متعددی که برای هر تکنیک وجود دارد آشنا می شوید. هدف اصلی برگزاری این دوره ایجاد یک تسلط نسبی بر مبانی ریاضی الگوریتمها  و روشهای پیاده سازی و کاربرد آنها  در محیط Python می باشد.

  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  

گام سوم: یادگیری عمیق

موفقیت الگوریتم‌های یادگیری ماشین و داده کاوی در گرو نمایش صحیح و بهینه داده های جمع آوری شده است که یک متخصص علوم داده ای را ملزم میکند تا علاوه بر آشنایی با مدلها، با الگوریتم های پیشرفته ای که قادر به یافتن نمایش مناسب از داده ها هستند، آشنا باشد. این دسته از الگوریتم ها با عنوان یادگیری عمیق شناخته می شوند که امروزه با سرعت بالایی در حال توسعه هستند. طبیعتا آشنایی با این حوزه و فریمورک های آن لازمه پیشرفت یک دانشمند داده در مسیر حرفه ای خود می باشد که در این دوره 6 هفته ای پوشش داده می شود.

  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  

گام چهارم: کاربری لینوکس و داکر

به دلیل گستردگی کاربرد ابزارهای متن باز در حوزه علوم داده، و همچنین کار در تیم های فنی بزرگ و زیرساخت های بیگ دیتا توانمندی کار در محیط لینوکس و شناخت معماری و ساختار آن، دارای اهمیت می باشد. همچنین آشنایی با Docker برای دانشمندان داده ای که به دنبال تولید سرویس ها و اپلیکیشن های هوشمند هستند بسیار حائز اهمیت هست. در این دوره 3 هفته ای این مباحث در سطح مورد نیاز دانشمندان داده پوشش داده شده است.

  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  

گام چهارم: تحلیل کلان داده

با توجه به رشد روزافزون حجم، تنوع و سرعت تولید داده ها، دانشمندان داده بایستی در تعاملی پایدار با مهندسان داده امکان تحلیل های پیشرفته داده کاوی و یادگیری ماشین را در شرایط Big Data فراهم سازند. این موضوع مستلزم ایجاد ادبیات مشترک با مهندسان داده می باشد. طی این دوره 3 هفته ای با مفاهیم کلان داده ها، ابزارها، پلتفرم های رایج و همچنین محیط های تحلیلی از جمله Pyspark در کلان داده آشنا می شوید.

  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  

گام آخر: ارزیابی و ارائه گواهینامه مهارتی

نمونه گواهینامه مسیر آموزشی علم داده

بدیهی است که ارائه گواهینامه پایانی منوط به گذراندن کلیه دوره های تعریف شده بر اساس مسیر پیشنهادی می باشد. گواهینامه ارائه شده به زبان انگلیسی بوده و قابلیت استعلام از طریق وبسایت دایکه را دارا می باشد. در تصویر روبرو می توانید یک نمونه از گواهینامه های مسیرهای آموزشی دایکه را مشاهده کنید: