ارتقا مهارت های خود را در Hadoop/NoSQL Data Science Stack - Advance Your Skills in the Hadoop/NoSQL Data Science Stack

-
1
2 ساعت
با زیرنویس فارسی و انگلیسیکسب و کارها با اتخاذ تصمیمات آگاهانه که نیازهای مشتریان و کاربران آنها را هدف قرار می دهند، رونق می گیرند. برای اتخاذ چنین تصمیمات راهبردی، آنها بر داده ها تکیه می کنند. Hive یک ابزار انتخابی برای بسیاری از دانشمندان داده است زیرا به آنها اجازه می دهد تا با SQL، یک نحو آشنا کار کنند، تا از Hadoop اطلاعاتی را بدست آورند، که منعکس کننده اطلاعاتی است که مشاغل به دنبال برنامه ریزی موثر هستند. این دوره نحوه استفاده از Hive برای پردازش داده ها را نشان می دهد. مربی بن سالینز با نشان دادن نحوه ساختار و بهینه سازی داده های خود شروع می کند. در مرحله بعد، او توضیح می دهد که چگونه Hue، رابط کاربری Hadoop، هنگام تجزیه و تحلیل داده ها از HiveQL استفاده کند. با استفاده از گزینه تازه پیکربندی شده، سپس نحوه بارگذاری داده ها، ایجاد جداول تجمیعی برای دسترسی سریع به پرس و جو و اجرای تجزیه و تحلیل پیشرفته را نشان می دهد. او همچنین شما را از طریق مدیریت جداول و استفاده از توابع راهنمایی می کند. این دوره برای کمک به شما در یافتن روش های جدید برای کار با مجموعه داده ها طراحی شده است تا بتوانید به س questionsالات سخت علم داده که سر راه شما می آید پاسخ دهید. اهداف یادگیری تعریف ساختار داده در Hive انتخاب داده ها پیوستن به جداول دستکاری داده ها فیلتر کردن نتایج تجمیع داده ها استفاده از توابع تجمعی داخلی تسلط بر توابع تولید جدول با استفاده از CUBE و ROLLUP استفاده از بندها: WHERE and HAVING با استفاده از LIKE، JOIN و SEMI JOIN استفاده از توابع: رشته، ریاضی، تاریخ و شرطی
-
2
2 ساعت
با زیرنویس فارسی و انگلیسیبسیاری از سازمان ها برای ذخیره حجم وسیعی از داده های پیچیده به پایگاه های داده NoSQL روی می آورند و این امر باعث افزایش نیاز دانشمندان و تحلیلگران داده به درک ذخیره داده های غیر ارتباطی می شود. اگر شما یک دانشمند داده یا تحلیلگر کسب و کار هستید و باید با NoSQL کار کنید، این دوره برای شما مناسب است. با تفاوت بین پایگاه های داده رابطه ای و NoSQL آشنا شوید، انواع پایگاه های داده NoSQL را مرور کرده و نحوه انجام وظایف رایج علم داده، از جمله آماده سازی داده ها، اکتشاف و ایجاد و کاربرد مدل ها را مشاهده کنید. این دوره با مقدمه ای بر NoSQL آغاز می شود و سپس به بررسی مشخصات پایگاه داده های سند، ستون گسترده و نمودار می پردازد. جزئیات کلیدی برای انجام آماده سازی، اکتشاف و استخراج داده ها برای هر نوع پایگاه داده NoSQL را بیاموزید. موارد موردی را که نحوه استفاده از پایگاه داده های مختلف NoSQL با ابزارهای رایج علم داده از جمله پایگاه داده اسناد MongoDB، پایگاه داده ستون گسترده Cassandra و پایگاه داده نمودار Neo4j را مرور می کند. اهداف یادگیری NoSQL در مقایسه با پایگاه های داده سنتی رابطه ای انجام وظایف رایج علم داده آماده سازی داده ها با پایگاه داده های اسناد دستکاری داده ها در NoSQL آماده سازی، کاوش، استخراج و مدل سازی کار با پایگاه داده های سند، ستون گسترده و نمودار مرور مطالعات موردی با استفاده از MongoDB، Cassandra و Neo4j
-
3
3 ساعت
با زیرنویس فارسی و انگلیسیApache Hadoop و Spark امکان ایجاد بینش تجاری واقعی از داده های بزرگ را فراهم می کنند. ابر آمازون خانه طبیعی این مجموعه ابزار قدرتمند است و خدمات متنوعی را برای اجرای گردش کار پردازش داده در مقیاس بزرگ فراهم می کند. بیاموزید که در این دوره با معمار داده های بزرگ، لین لانگیت، گردش کار Apache Hadoop و Spark خود را در AWS پیاده کنید. با استفاده از ماشین های مجازی با EC2، خوشه های Spark مدیریت شده با EMR یا کانتینرهای با EKS، گزینه های استقرار برای مشاغل مقیاس تولید را کاوش کنید با نحوه پیکربندی و مدیریت خوشه های Hadoop و مشاغل Spark با Databricks آشنا شوید و از Python یا زبان برنامه نویسی مورد نظر خود برای وارد کردن داده ها و اجرای مشاغل استفاده کنید. بعلاوه، یاد بگیرید که چگونه از کتابخانه های Spark برای یادگیری ماشین، ژنومیک و پخش جریانی استفاده کنید. هر درس به شما کمک می کند بفهمید کدام گزینه استقرار برای حجم کار شما بهترین است. موضوعات شامل: - سیستم سیستم برای Hadoop و Spark - کار با پایگاه داده - بارگذاری داده ها در جداول - تنظیم خوشه های Hadoop و Spark روی ابر - در حال انجام مشاغل جرقه - واردات و صادرات نوت بوک های پایتون - اجرای مشاغل Spark در Databricks با استفاده از Python و Scala - وارد کردن داده ها به خوشه های Spark - کدگذاری و اجرای تحولات و اقدامات Spark - ذخیره داده - کتابخانه های Spark: Spark SQL، SparkR، Spark ML و موارد دیگر - جرقه زدن - جرقه مقیاس بندی با AWS و GCP
-
4
1 ساعت
با زیرنویس فارسی و انگلیسیصف بندی پیام مقیاس پذیر و توزیع شده نقش مهمی در ساخت خط لوله داده های کلان در زمان واقعی دارد. مدل های ناشر / مشترک نا همزمان برای رسیدگی به بارهای غیر قابل پیش بینی در این خطوط لوله مورد نیاز هستند. Apache Kafka امروزه فناوری پیشرو است که این قابلیت ها را فراهم می کند و یک مهارت اساسی برای یک متخصص بزرگ داده است. در این دوره ، Kumaran Ponnambalam بینش هایی در مورد مقیاس پذیری و قابلیت مدیریت Kafka ارائه می دهد و نحوه ساخت برنامه های ناهمزمان با Kafka و Java را نشان می دهد. کوماران با نشان دادن چگونگی راه اندازی خوشه کافکا شروع به کار می کند و اصول برنامه نویسی جاوا را در کافکا جستجو می کند. وی سپس در گزینه های مختلف پیامرسانی و طرحواره موجود غوطه ور می شود. کوماران همچنین قبل از اتمام با یک پروژه مورد استفاده که دروس مربوط به دوره را به کار می برد ، بهترین روش ها را برای طراحی برنامه های کافکا دنبال می کند.
-
5
1 ساعت
با زیرنویس فارسی و انگلیسیHadoop - پلت فرم فوق العاده محبوب داده های بزرگ - مجموعه وسیعی از قابلیت ها را ارائه می دهد که به دانشمندان داده کمک می کند تا بینش خود را ارائه دهند. در این دوره، بن سالینز با به اشتراک گذاشتن یک سری نکات و ترفندها برای انجام کارهای علم داده در این پلتفرم قدرتمند، به شما کمک می کند تا با Hadoop سرعت بگیرید. او کار خود را با نحوه کار با داده های Hadoop در HDFS آغاز می کند و سپس با استفاده از Hive - موتور Hadoop SQL - که در آن کارهای علم داده بسیار اتفاق می افتد، کاوش می کند. برای تکمیل دوره، بن تکنیک هایی را برای اجرای سریع پرس و جوها در موتور Hive پوشش می دهد. اهداف یادگیری توضیح دهید که کدام دستورات برای ایجاد تغییرات در HDFS استفاده می شود. دستوراتی را که برای بارگذاری داده ها از خط فرمان به HDFS استفاده می شود، شناسایی کنید. تشخیص دو عملکردی که HDFS هنگام حرکت فایل ها توسط کاربر انجام می دهد. نحوه حذف مجدد فایل ها در HDFS را خلاصه کنید. نحوه انتخاب و پیاده سازی پارتیشن ها را به یاد بیاورید. نحوه صاف کردن نوع داده Struct در HiveQL را توضیح دهید.
-
6
1 ساعت
بدون زیرنویسفن آوری های NoSQL حتی مدل های داده های تجربه شده را نیز از دست داده اند، و تعجب می کنند که چطور مهارتهای ارزشمند آنها میتواند به فعالیتهای توسعهای آینده نزدیک شود. در این درس یاد بگیرید که چطور از مدلسازی دادههای سنتی برای ترجمه یک مدل دادههای مفهومی به یک طرح NoSQL استفاده کنید. مدرس Robert Van Cleave ددر مورد جایگزینها، الگوهای دسترسی و هدف کلی مدلسازی دادهها بحث میکند. او همچنین چندین الگوی طراحی مشترک را پوشش میدهد و توضیح میدهد که چگونه میتوانید از هر کدام از آنها استفاده کنید. در مورد تجمیع، الگوهای ضد الگو، الگوهای مبتنی بر پرس و جو و چیزهای دیگر بیاموزید. اهداف یادگیری هدف مدل داده جایگزین های نماد تعیین الگوهای دسترسی تغییر مدل مفهومی الگوهای سبک سند الگوهای سبک ستونی الگوهای پرس و جو محور
-
7
1 ساعت
با زیرنویس فارسی و انگلیسیCassandra یک پایگاه داده NoSQL است که قادر به مدیریت حجم زیادی از داده ها است که به سرعت تغییر می کنند. در این دوره آموزشی، مدرس Dan Sullivan در مورد معماری این پایگاه داده محبوب و نحوه طراحی مدل های داده Cassandra که از برنامه های مقیاس پذیر در آخرین نسخه پشتیبانی می کنند، به شما آموزش می دهد. تفاوتهای اصلی بین Cassandra و پایگاههای اطلاعاتی رابطهای، و همچنین اصول زبان پرس و جوی Cassandra (CQL) و مدلسازی بهترین شیوهها بر اساس الزامات پرس و جوی برنامه را بررسی کنید. Dan به جزئیات پیادهسازی Cassandra میپردازد که بر انتخابهای مدلسازی دادهها تأثیر میگذارد، و به شما کمک میکند تا از طریق دیگر تصمیمگیریهای طراحی غربال کنید و در عین حال به معماری و محدودیتهای پایگاه داده توجه داشته باشید. در طول مسیر، مهارت های جدید خود را با چالش های طراحی و مدل سازی در پایان هر بخش آزمایش کنید.