دوره آموزشی راهنمای کامل دریاچههای داده (Data Lakes) و Lakehouses
4 ساعت 24 دقیقهپیشرفته2024-08-30
مدرسین

Thalia Barrera
جزئیات دوره
در این دوره، مهندس داده و نویسنده فنی Thalia Barrera یک مرور کلی مقدماتی و در عین حال جامع از دریاچه های داده ارائه می دهد. در مورد مفاهیم کلیدی مانند معماری دریاچه داده، عملیات، و ادغام با سیستم های داده موجود بیاموزید. بررسی کنید که دریاچه های داده چگونه در جریان کار هوش مصنوعی و یادگیری ماشینی یکپارچه هستند. تفاوتهای بین دریاچههای داده، انبارهای داده و پایگاههای داده را بررسی کنید. فرمت های مختلف داده و کاربرد آنها را در محیط دریاچه داده کاوش کنید. از تمرینهای عملی برای تمرین راهاندازی یک دریاچه داده اولیه و انجام عملیات داده ساده استفاده کنید. پس از اتمام این دوره، برای تصمیم گیری آگاهانه در مورد پیاده سازی و مدیریت دریاچه های داده در سازمان خود مجهز خواهید شد.
مهارت ها
Data EngineeringArtificial Intelligence FoundationsArtificial Intelligence (AI)Data ScienceOne-Off
سرفصل ها
0. مقدمه
- 01 - دریاچههای داده، خانههای دریاچه و موارد دیگر
- 02 - آنچه باید بدانید
- 03 - پیش نمایش پروژه Capstone
1. مقدمه ای بر دریاچههای داده
- 04 - دریاچه داده چیست
- 05 - پیدایش و تکامل
- 06 - اجزای اصلی معماری
- 07 - دریاچه داده در مقابل انبار داده
- 08 - دریاچه داده در مقابل مش داده
2. ذخیرهسازی در دریاچههای داده
- 09 - انواع ذخیره سازی
- 10 - میزبانی ذخیره سازی
- 11 - راه حلهای ذخیرهسازی - S3، GCS و Azure Blob Storage و HDFS
- 12 - سازههای پوشه
- 13 - فرمتهای فایل
- 14 - فشرده سازی داده ها
- 15 - پارتیشن بندی داده ها
3. بلع دادهها در دریاچههای داده
- 16 - روشهای بلع داده ها
- 17 - ETL در مقابل ELT
- 18 - تبدیل داده ها
- 19 - کیفیت داده ها
- 20 - رسیدگی به خطا، ثبت و پایش
- 21 - ارکستراسیون
- 22 - پلتفرمهای هضم داده ها
4. مدیریت دادهها و حاکمیت در دریاچههای داده
- 23 - مقدمه ای بر مدیریت و حاکمیت داده
- 24 - مدیریت فراداده
- 25 - فهرست نویسی داده ها
- 26 - نسب داده
- 27 - امنیت داده ها , حریم خصوصی و انطباق
- 28 - ابزارها و بسترهای مدیریت داده
5. مقدمه ای بر Data Lakehouses
- 29 - خانه دریاچه داده چیست
- 30 - معاملات اسید
- 31 - مدیریت طرحواره
- 32 - فرمتهای جدول - دریاچه دلتا، کوه یخ آپاچی، آپاچی هودی
6. مصرف داده و موتورهای کوئری در دریاچهها و خانههای دریاچه
- 33 - مقدمه ای بر مصرف داده
- 34 - تجزیهوتحلیل یکپارچه دادهها - اسپارک
- 35 - SQL در Hadoop - Hive and Impala
- 36 - موتورهای کوئری تعاملی - Presto و Trino
- 37 - پروفایل سازی داده ها
- 38 - بهینهسازی عملکرد پرس و جو
- 39 - ملاحظات امنیتی مصرف داده ها
7. بسترهای داده پیشرفته برای دریاچهها و خانههای دریاچه
- 40 - پلتفرمهای تحلیلی یکپارچه - Databricks و Snowflake
- 41 - انبارهای داده ابری - BigQuery، Azure Synapse و Redshift
- 42 - پلتفرمهای داده سلف سرویس - Dremio و Starburst
- 43 - نوت بوکهای تعاملی - Jupyter، Zeppelin، Databricks
- 44 - ابزارهای BI - Tableau، PowerBI , Superset، Metabase
- 45 - APIها و خدمات برای مصرف داده
8. Capstone - ساختن دیتا لیک هاوس
- 46 - نمای کلی پروژه Capstone
- 47 - نمای کلی مدل داده
- 48 - نصب پروژه و ارائه کد
- 49 - راهاندازی زیرساخت
- 50 - مصرف دادههای خام
- 51 - بررسی اجمالی مدلهای تبدیل
- 52 - راه حل - ساخت مدل داده با SQL
- 53 - اجرای تبدیل داده ها
- 54 - ارکستراسیون داده ها
9. Capstone - BI، Advanced Analytics و ML in the Lakehouse
- 55 - پیشرفت Dremio
- 56 - اجرای کوئری و ایجاد مجموعه دادههای مجازی
- 57 - ایجاد مجموعه دادههای مجازی پیچیده با استفاده از SQL
- 58 - اتصال Dremio به Apache Superset
- 59 - ایجاد داشبورد بازاریابی
- 60 - اتصال Dremio به نوت بوک Jupyter
- 61 - تجزیهوتحلیل بررسیهای محصول پیشرفته
- 62 - راه حل - تجزیهوتحلیل سلامت خودرو در Jupyter
10. Capstone - هوش مصنوعی مولد در Lakehouse
- 63 - مقدمه ای بر LLMها و جاسازیهای برداری - لاما
- 64 - مقدمه ای بر RAG (نسل تقویت شده بازیابی)
- 65 - مقدمه ای بر پایگاههای داده برداری - کروما
- 66 - لنگ چین چیست
- 67 - نمای کلی پروژه هوش مصنوعی مولد - کمک فروش
- 68 - نصب و راهاندازی کد
- 69 - اجرای پروژه - استفاده از Copilot
نتیجه گیری
- 70 - جمع بندی و مواد غذایی کلیدی
- 71 - مراحل بعدی در سفر داده شما
دوره های مرتبط
- دوره آموزشی کلانداده در عصر هوش مصنوعی
- دوره آموزشی راهنمای کامل مهندسی تحلیل دادهها
- دوره آموزشی مهندسی تحلیل پیشرفته: تمرینهای دنیای واقعی
- دوره آموزشی راهنمای کامل Google BigQuery برای مهندسان داده و یادگیری ماشین
- دوره آموزشی یادگیری اصولی PySpark: معرفی ساخت خطوط پردازش داده
- دوره آموزشی پاکسازی دادهها برای علم داده مؤثر: واردکردن دادهها، تشخیص ناهنجاری، پرکردن مقادیر گمشده و مهندسی ویژگیها
- دوره آموزشی یادگیری جامع اسکالا برای علوم داده
- دوره آموزشی SPSS: آمادهسازی، مصورسازی و مدلسازی دادهها