دوره آموزشی Data Ingestion با پایتون
1 ساعت 24 دقیقهمتوسط2023-12-22
مدرسین

Miki Tebeka
CEO at 353Solutions
جزئیات دوره
بخش قابل توجهی از وقت دانشمندان داده، اغلب صرف واکشی و تمیز کردن دادههای لازم برای آموزش الگوریتمهای آنها میشود. در این دوره یاد بگیرید که چگونه از ابزارها و تکنیکهای پایتون استفاده کنید تا دادههای مناسب و باکیفیت مورد نیاز خود را بدست آورید. مربی Miki Tebeka خواندن فایلها را پوشش میدهد، از جمله نحوه کار با فایلهای CSV، XML و JSON . او همچنین در مورد فراخوانی API، scraping وب (و چرا باید آخرین راه حل) و اعتبار و تمیز کردن دادهها، بحث میکند. به علاوه، نحوه ایجاد و نظارت بر شاخصهای کلیدی عملکرد (KPI) را که به شما در نظارت بر مسیر داده کمک میکند را کشف کنید.
اهداف یادگیری
ویژگی های انواع داده های مختلف و کار دانشمندان داده را شرح دهید.
فرمت های مختلف سریال سازی داده ها را توضیح دهید و نحوه استفاده از آنها را در پایتون توضیح دهید.
API ها را تعریف کنید و نحوه استفاده از آنها را با پایتون برای برقراری تماس http، تفسیر JSON و استفاده از صف های پیام توضیح دهید.
توضیح دهید که اسکرپ وب چیست و روشهای انجام آن را توضیح دهید.
طرحواره را تعریف کنید و ویژگی های طرحواره ها و نحوه تأثیر آنها بر عملیات را شرح دهید.
ویژگی های انواع مختلف پایگاه های داده را شرح دهید.
انواع خطاها را دسته بندی کرده و نحوه اصلاح آنها را توضیح دهید.
معیارهای طراحی سیستم های داده را توضیح دهید و نحوه نظارت بر عملکرد را با استفاده از KPI توضیح دهید.
اهداف یادگیری
ویژگی های انواع داده های مختلف و کار دانشمندان داده را شرح دهید.
فرمت های مختلف سریال سازی داده ها را توضیح دهید و نحوه استفاده از آنها را در پایتون توضیح دهید.
API ها را تعریف کنید و نحوه استفاده از آنها را با پایتون برای برقراری تماس http، تفسیر JSON و استفاده از صف های پیام توضیح دهید.
توضیح دهید که اسکرپ وب چیست و روشهای انجام آن را توضیح دهید.
طرحواره را تعریف کنید و ویژگی های طرحواره ها و نحوه تأثیر آنها بر عملیات را شرح دهید.
ویژگی های انواع مختلف پایگاه های داده را شرح دهید.
انواع خطاها را دسته بندی کرده و نحوه اصلاح آنها را توضیح دهید.
معیارهای طراحی سیستم های داده را توضیح دهید و نحوه نظارت بر عملکرد را با استفاده از KPI توضیح دهید.
مهارت ها
Data EngineeringPythonProgramming LanguagesData ScienceOpen SourceSoftware DevelopmentOne-Off
سرفصل ها
0. مقدمه
- 01 - چرا Data Ingestion مهم است
- 02 - آنچه باید بدانید
- 03 - استفاده از فایلهای تمرین
- 04 - استفاده از آزمونهای Coderpad
1. مروری بر Data Ingestion
- 05 - مروری بر کار دانشمندان داده
- 06 - دادهها از کجا میآیند
- 07 - انواع مختلف داده ها
- 08 - خط لوله داده (ETL)
- 09 - مقصد نهایی (دریاچه داده)
2. خواندن فایل ها
- 10 - کار در CSV
- 11 - کار در XML
- 12 - کار در پارکت، Avro، و ORC
- 13 - متن بدون ساختار
- 14 - JSON
- 15 - راه حل - CSV به JSON
3. فراخوانی APIها
- 16 - کار با JSON
- 17 - برقراری تماس HTTP
- 18 - پردازش دادههای مبتنی بر رویداد
- 19 - راه حل - مکان از IP
4. Web Scraping
- 20 - سعی کنید یک API پیدا کنید
- 21 - کار با Beautiful Soup
- 22 - کار با اسکرپی
- 23 - کار با سلنیوم
- 24 - سایر ملاحظات
- 25 - راه حل - اطلاعات سهام را از HTML دریافت کنید
5. طرحواره
- 26 - طرحوارهها چیست؟
- 27 - کار با ontologies
- 28 - آنچه باید در طرحواره باشد
- 29 - تغییرات طرحواره
- 30 - اعتبارسنجی طرحواره
6. کار با پایگاههای داده
- 31 - انواع پایگاههای اطلاعاتی
- 32 - میزبانی و هزینه عملیات
- 33 - کار با پایگاه دادههای رابطه ای
- 34 - کار با پایگاه دادههای کلیدی یا ارزشی
- 35 - کار با پایگاههای اسناد
- 36 - کار با پایگاه دادههای گراف
- 37 - راه حل - ETL
7. عیب یابی داده ها
- 38 - دادهها هرگز 100 نیست
- 39 - علل خطا
- 40 - پر کردن مقادیر از دست رفته
- 41 - یافتن نقاط پرت (دستی)
- 42 - یافتن نقاط پرت (ML)
- 43 - راه حل - مجموعه داده سواری تمیز
8. KPIهای داده و فرآیند
- 44 - دادههای خود را طراحی کنید
- 45 - KPI
- 46 - چه چیزی را نظارت کنیم
نتیجه
- 47 - مراحل بعدی
دوره های مرتبط
- دوره آموزشی کلانداده در عصر هوش مصنوعی
- دوره آموزشی راهنمای کامل مهندسی تحلیل دادهها
- دوره آموزشی مهندسی تحلیل پیشرفته: تمرینهای دنیای واقعی
- دوره آموزشی راهنمای کامل Google BigQuery برای مهندسان داده و یادگیری ماشین
- دوره آموزشی یادگیری اصولی PySpark: معرفی ساخت خطوط پردازش داده
- دوره آموزشی پاکسازی دادهها برای علم داده مؤثر: واردکردن دادهها، تشخیص ناهنجاری، پرکردن مقادیر گمشده و مهندسی ویژگیها
- دوره آموزشی یادگیری جامع اسکالا برای علوم داده
- دوره آموزشی SPSS: آمادهسازی، مصورسازی و مدلسازی دادهها