دوره آموزشی Data Ingestion با پایتون

جزئیات دوره

بخش قابل توجهی از وقت دانشمندان داده، اغلب صرف واکشی و تمیز کردن داده‌های لازم برای آموزش الگوریتم‌های آنها می‌شود. در این دوره یاد بگیرید که چگونه از ابزارها و تکنیک‌های پایتون استفاده کنید تا داده‌های مناسب و باکیفیت مورد نیاز خود را بدست آورید. مربی Miki Tebeka خواندن فایل‌ها را پوشش میدهد، از جمله نحوه کار با فایل‌های CSV، XML و JSON . او همچنین در مورد فراخوانی API، scraping وب (و چرا باید آخرین راه حل) و اعتبار و تمیز کردن داده‌ها، بحث میکند. به علاوه، نحوه ایجاد و نظارت بر شاخص‌های کلیدی عملکرد (KPI) را که به شما در نظارت بر مسیر داده کمک می‌کند را کشف کنید.

اهداف یادگیری
ویژگی های انواع داده های مختلف و کار دانشمندان داده را شرح دهید.
فرمت های مختلف سریال سازی داده ها را توضیح دهید و نحوه استفاده از آنها را در پایتون توضیح دهید.
API ها را تعریف کنید و نحوه استفاده از آنها را با پایتون برای برقراری تماس http، تفسیر JSON و استفاده از صف های پیام توضیح دهید.
توضیح دهید که اسکرپ وب چیست و روشهای انجام آن را توضیح دهید.
طرحواره را تعریف کنید و ویژگی های طرحواره ها و نحوه تأثیر آنها بر عملیات را شرح دهید.
ویژگی های انواع مختلف پایگاه های داده را شرح دهید.
انواع خطاها را دسته بندی کرده و نحوه اصلاح آنها را توضیح دهید.
معیارهای طراحی سیستم های داده را توضیح دهید و نحوه نظارت بر عملکرد را با استفاده از KPI توضیح دهید.

سرفصل ها

0. مقدمه

01 - چرا Data Ingestion مهم است
02 - آنچه باید بدانید
03 - استفاده از فایل‌های تمرین
04 - استفاده از آزمون‌های Coderpad

1. مروری بر Data Ingestion

05 - مروری بر کار دانشمندان داده
06 - داده‌ها از کجا می‌آیند
07 - انواع مختلف داده ها
08 - خط لوله داده (ETL)
09 - مقصد نهایی (دریاچه داده)

2. خواندن فایل ها

10 - کار در CSV
11 - کار در XML
12 - کار در پارکت، Avro، و ORC
13 - متن بدون ساختار
14 - JSON
15 - راه حل - CSV به JSON

3. فراخوانی APIها

16 - کار با JSON
17 - برقراری تماس HTTP
18 - پردازش داده‌های مبتنی بر رویداد
19 - راه حل - مکان از IP

4. Web Scraping

20 - سعی کنید یک API پیدا کنید
21 - کار با Beautiful Soup
22 - کار با اسکرپی
23 - کار با سلنیوم
24 - سایر ملاحظات
25 - راه حل - اطلاعات سهام را از HTML دریافت کنید

5. طرحواره

26 - طرحواره‌ها چیست؟
27 - کار با ontologies
28 - آنچه باید در طرحواره باشد
29 - تغییرات طرحواره
30 - اعتبارسنجی طرحواره

6. کار با پایگاه‌های داده

31 - انواع پایگاه‌های اطلاعاتی
32 - میزبانی و هزینه عملیات
33 - کار با پایگاه داده‌های رابطه ای
34 - کار با پایگاه داده‌های کلیدی یا ارزشی
35 - کار با پایگاه‌های اسناد
36 - کار با پایگاه داده‌های گراف
37 - راه حل - ETL

7. عیب یابی داده ها

38 - داده‌ها هرگز 100 نیست
39 - علل خطا
40 - پر کردن مقادیر از دست رفته
41 - یافتن نقاط پرت (دستی)
42 - یافتن نقاط پرت (ML)
43 - راه حل - مجموعه داده سواری تمیز

8. KPIهای داده و فرآیند

44 - داده‌های خود را طراحی کنید
45 - KPI
46 - چه چیزی را نظارت کنیم

نتیجه

47 - مراحل بعدی