ارتقا مهارت های خود به عنوان یک متخصص اسپارک آپاچی - Advance Your Skills as an Apache Spark Specialist

-
1
3 ساعت
با زیرنویس فارسی و انگلیسیApache Hadoop و Spark امکان ایجاد بینش تجاری واقعی از داده های بزرگ را فراهم می کنند. ابر آمازون خانه طبیعی این مجموعه ابزار قدرتمند است و خدمات متنوعی را برای اجرای گردش کار پردازش داده در مقیاس بزرگ فراهم می کند. بیاموزید که در این دوره با معمار داده های بزرگ، لین لانگیت، گردش کار Apache Hadoop و Spark خود را در AWS پیاده کنید. با استفاده از ماشین های مجازی با EC2، خوشه های Spark مدیریت شده با EMR یا کانتینرهای با EKS، گزینه های استقرار برای مشاغل مقیاس تولید را کاوش کنید با نحوه پیکربندی و مدیریت خوشه های Hadoop و مشاغل Spark با Databricks آشنا شوید و از Python یا زبان برنامه نویسی مورد نظر خود برای وارد کردن داده ها و اجرای مشاغل استفاده کنید. بعلاوه، یاد بگیرید که چگونه از کتابخانه های Spark برای یادگیری ماشین، ژنومیک و پخش جریانی استفاده کنید. هر درس به شما کمک می کند بفهمید کدام گزینه استقرار برای حجم کار شما بهترین است. موضوعات شامل: - سیستم سیستم برای Hadoop و Spark - کار با پایگاه داده - بارگذاری داده ها در جداول - تنظیم خوشه های Hadoop و Spark روی ابر - در حال انجام مشاغل جرقه - واردات و صادرات نوت بوک های پایتون - اجرای مشاغل Spark در Databricks با استفاده از Python و Scala - وارد کردن داده ها به خوشه های Spark - کدگذاری و اجرای تحولات و اقدامات Spark - ذخیره داده - کتابخانه های Spark: Spark SQL، SparkR، Spark ML و موارد دیگر - جرقه زدن - جرقه مقیاس بندی با AWS و GCP
-
2
1 ساعت
با زیرنویس فارسی و انگلیسیآپاچی اسپارک یک پلتفرم قدرتمند است که راه های جدیدی را برای ذخیره و استفاده از داده های بزرگ در اختیار کاربران قرار می دهد. در این دوره، با Spark به سرعت عمل کنید و کشف کنید که چگونه از این موتور پردازش محبوب برای ارائه بینش مؤثر و جامع در مورد داده های خود استفاده کنید. مربی بن سالینز یک نمای کلی از پلتفرم ارائه می دهد و به اجزای مختلف سازنده آپاچی اسپارک می پردازد. او نحوه تجزیه و تحلیل دادهها را در Spark با استفاده از PySpark و Spark SQL نشان میدهد، الگوریتمهای یادگیری ماشینی در حال اجرا را با استفاده از Mlib بررسی میکند، نحوه ایجاد یک برنامه تحلیل جریانی با استفاده از Spark Streaming و موارد دیگر را نشان میدهد. اهداف یادگیری درک اسپارک بررسی اجزای اسپارک جایی که اسپارک می درخشد درک رابط های داده کار با فایل های متنی بارگیری داده های CSV در DataFrames استفاده از Spark SQL برای تجزیه و تحلیل داده ها اجرای الگوریتم های یادگیری ماشین با استفاده از Mlib پرس و جو داده های جریان اتصال ابزارهای BI به Spark
-
3
1 ساعت
با زیرنویس فارسی و انگلیسیمهندسی داده، پایه و اساس تجزیه و تحلیل و کاربردهای علم داده در دنیای جدید داده های بزرگ است. مهندسی داده نیازمند ترکیب چندین فناوری داده بزرگ برای ساخت خط لوله داده و شبکه هایی برای جریان، پردازش و ذخیره داده ها است. این دوره بر ایجاد راه حل های کامل تمرکز می کند که Apache Spark را با سایر ابزارهای Big Data ترکیب می کند تا خطوط لوله داده به انتها ایجاد کند. مربی Kumaran Ponnambalam با تعریف مهندسی داده، عملکردها و مفاهیم آن شروع می کند. در مرحله بعد، کوماران می گوید چگونه قابلیت های Spark مانند پردازش موازی، برنامه های اجرایی، گزینه های مدیریت حالت و یادگیری ماشین با استخراج، تبدیل، بارگذاری (ETL) کار می کند. او شما را با موارد و فرایندهای استفاده از پردازش دسته ای و همچنین خطوط لوله پردازش در زمان واقعی آشنا می کند. پس از گذراندن چندین شیوه مفید مفید، کومانان با یک پروژه تمرینی به پایان می رسد.
-
4
2 ساعت
با زیرنویس فارسی و انگلیسیApache Spark یکی از پرکاربردترین و پشتیبانی شده ترین ابزارهای منبع باز برای یادگیری ماشین و داده های بزرگ است. در این دوره، نحوه کار با این بستر قدرتمند برای یادگیری ماشین را کشف کنید. مربی دن سالیوان در مورد MLlib - کتابخانه یادگیری ماشین Spark - بحث می کند که ابزارهایی را برای دانشمندان و تحلیل گران داده فراهم می کند که ترجیح می دهند راه حل هایی برای مشکلات تجاری پیدا کنند تا کدگذاری، آزمایش و نگهداری کتابخانه های یادگیری ماشین خود. وی نحوه استفاده از DataFrames برای سازماندهی ساختار داده را نشان می دهد، و تهیه داده ها و انواع متداول الگوریتم های یادگیری ماشین را شامل می شود: خوشه بندی، طبقه بندی، رگرسیون و توصیه ها. با پایان دوره، شما تجربه بارگذاری داده ها در Spark، پیش پردازش داده ها را در صورت لزوم برای استفاده از الگوریتم های MLlib و استفاده از این الگوریتم ها برای انواع مشکلات یادگیری ماشین خواهید داشت. موضوعات شامل: گردش کار یادگیری ماشین سازماندهی داده ها در DataFrames مراحل پیش پردازش و آماده سازی داده ها برای یادگیری ماشین خوشه بندی داده ها الگوریتم های طبقه بندی روشهای رگرسیون موجود در Spark MLlib رویکردهای مشترک برای طراحی سیستم های توصیه شده