دوره آموزشی پردازش متن با یادگیری جامع پایتون
33 دقیقهمتوسط2019-06-20
مدرسین

Kumaran Ponnambalam
Working with data for 20+ years
جزئیات دوره
در دنیای داده های بزرگ، اطلاعات بیشتر و بیشتری به صورت متنی مصرف و تحلیل می شود. وبسایتها، رسانههای اجتماعی، ایمیلها و چتها به منابع کلیدی دادهها و بینشها تبدیل شدهاند. اگر با داده ها کار می کنید، درک نحوه برخورد با داده های متنی بدون ساختار ضروری است. در این دوره، مربی Kumaran Ponnambalam به شما کمک می کند تا مجموعه مهارت متن کاوی خود را بسازید و تکنیک های کلیدی استخراج، پاکسازی و پردازش متن در پایتون را پوشش دهد. کوماران مفاهیم کلیدی پردازش متن مانند رمزگذاری و ریشهیابی را بررسی میکند. او همچنین به تکنیک هایی برای تبدیل متن به فرم آماده تجزیه و تحلیل، از جمله n-gram و TF-IDF نگاه می کند. در طول مسیر، او نمونه هایی از این تکنیک ها را با استفاده از پایتون و کتابخانه NLTK ارائه می کند.
اهداف یادگیری
رابطه اسناد درون یک مجموعه را تفسیر کنید.
بین قابلیت های مختلف پردازش متنی که NLTK ارائه می دهد، تمایز قائل شوید.
توضیح دهید که چرا هنگام پردازش متن با پایتون، پاکسازی و استخراج متن رخ می دهد.
مراحل پردازش متن پیشرفته را برای یافتن و ایجاد TF-IDF و آرایه TF-IDF اعمال کنید.
بهترین روش ها را هنگام پردازش متن با پایتون توضیح دهید.
اهداف یادگیری
رابطه اسناد درون یک مجموعه را تفسیر کنید.
بین قابلیت های مختلف پردازش متنی که NLTK ارائه می دهد، تمایز قائل شوید.
توضیح دهید که چرا هنگام پردازش متن با پایتون، پاکسازی و استخراج متن رخ می دهد.
مراحل پردازش متن پیشرفته را برای یافتن و ایجاد TF-IDF و آرایه TF-IDF اعمال کنید.
بهترین روش ها را هنگام پردازش متن با پایتون توضیح دهید.
مهارت ها
Data EngineeringPythonData AnalysisEssential TrainingProgramming LanguagesData ScienceBusiness Analysis and StrategyBusiness Software and ToolsOpen SourceSoftware Development
سرفصل ها
0. مقدمه
- 01 - نیاز به مهارت متن کاوی در علم داده
1. متن کاوی
- 02 - متن کاوی امروز
- 03 - مفاهیم سند
- 04 - مفاهیم پیکره
- 05 - آشنایی با کتابخانه NLTK
- 06 - راه اندازی محیط
2. خواندن متن
- 07 - خواندن فایل های خام
- 08 - خواندن فایل ها با پیکره خوان
- 09 - کاوش پیکره
- 10 - تجزیه و تحلیل پیکره
3. پاکسازی و استخراج متن
- 11 - توکن سازی
- 12 - متن پاک کننده
- 13 - حذف کلمه را متوقف کنید
- 14 - ساقه
- 15 - کلمه نویسی
4. پردازش متن پیشرفته
- 16 - ساختمان n-gram
- 17 - برچسب گذاری قسمت هایی از گفتار
- 18 - فرکانس معکوس فرکانس سند (TF-IDF)
- 19 - ساخت ماتریس TF-IDF
5. بهترین شیوه ها
- 20 - ذخیره متن
- 21 - پردازش داده های متنی
- 22 - پردازش مقیاس پذیر داده های متنی
نتیجه
- 23 - مراحل بعدی
دوره های مرتبط
- دوره آموزشی کلانداده در عصر هوش مصنوعی
- دوره آموزشی راهنمای کامل مهندسی تحلیل دادهها
- دوره آموزشی مهندسی تحلیل پیشرفته: تمرینهای دنیای واقعی
- دوره آموزشی راهنمای کامل Google BigQuery برای مهندسان داده و یادگیری ماشین
- دوره آموزشی یادگیری اصولی PySpark: معرفی ساخت خطوط پردازش داده
- دوره آموزشی پاکسازی دادهها برای علم داده مؤثر: واردکردن دادهها، تشخیص ناهنجاری، پرکردن مقادیر گمشده و مهندسی ویژگیها
- دوره آموزشی یادگیری جامع اسکالا برای علوم داده
- دوره آموزشی SPSS: آمادهسازی، مصورسازی و مدلسازی دادهها