دوره آموزشی پردازش متون با یادگیری جامع زبان R
56 دقیقهمتوسط2019-09-19
مدرسین

Kumaran Ponnambalam
Working with data for 20+ years
جزئیات دوره
کلان داده ها و خطوط لوله تحلیلی امروزی داده های متنی تولید شده از طریق وب سایت ها، رسانه های اجتماعی و ارتباطات خصوصی را بیشتر و بیشتر مصرف می کنند. اما استخراج بینش از متن ساده نیست. برای تهیه متن برای تجزیه و تحلیل و یادگیری ماشین به یک سری تکنیک ها و فرم ها نیاز دارد. در این دوره، تکنیک های ضروری برای پاکسازی و پردازش متن در R را بیاموزید و نحوه تبدیل متن به فرمی آماده برای تجزیه و تحلیل و پیش بینی را بیاموزید. Kumaran Ponnambalam با مرور تکنیکهای استخراج، پاکسازی و پردازش متن شروع میکند. سپس نحوه تبدیل متن به فرم آماده تجزیه و تحلیل، از جمله نحوه استفاده از n-gram و TF-IDF را نشان می دهد. در طول دوره، او نمونه هایی برای تمرین این تکنیک ها با استفاده از کتابخانه های R و tm ارائه می دهد.
اهداف یادگیری
دریافت متن از منابع مختلف
پاکسازی و تبدیل داده های متنی
آماده سازی ماتریس های TF-IDF برای یادگیری ماشین
ساخت پایگاه داده n-gram برای پیش بینی متن
بهترین روش ها برای مقیاس پذیری و ذخیره متن
اهداف یادگیری
دریافت متن از منابع مختلف
پاکسازی و تبدیل داده های متنی
آماده سازی ماتریس های TF-IDF برای یادگیری ماشین
ساخت پایگاه داده n-gram برای پیش بینی متن
بهترین روش ها برای مقیاس پذیری و ذخیره متن
مهارت ها
RStatisticsEssential TrainingProgramming LanguagesData ScienceOpen SourceSoftware Development
سرفصل ها
0. مقدمه
- 01 - پیدایش تجزیه و تحلیل متن
1. مقدمه ای بر متن کاوی
- 02 - هدف
- 03 - سند
- 04 - پیکره
- 05 - کتابخانه های پردازش متن R
- 06 - راه اندازی محیط
2. Corpus در R
- 07 - PCorpus و VCorpus
- 08 - خواندن فایل ها با CorpusReader
- 09 - کاوش پیکره
- 10 - تداوم پیکره
3. پاکسازی و استخراج متن
- 11 - راه اندازی برای پردازش
- 12 - متن پاک کننده
- 13 - حذف کلمه را متوقف کنید
- 14 - ساقه
- 15 - مدیریت ابرداده
4. TF-IDF
- 16 - مقدمه ای بر tf-idf
- 17 - تولید ماتریس فرکانس مدت
- 18 - بهبود ماتریس فرکانس مدت
- 19 - فرکانس ترم رسم
- 20 - تولید tf-idf
5. N-گرم
- 21 - مفاهیم N گرم
- 22 - استفاده از RWeka NGramTokenizer
- 23 - ایجاد ماتریس بسامد متن n گرم
- 24 - استخراج جفت n گرم
6. بهترین شیوه ها
- 25 - ذخیره متن
- 26 - پردازش داده های متنی
- 27 - مقیاس پذیری
نتیجه
- 28 - مراحل بعدی
دوره های مرتبط
- دوره آموزشی گزارشنویسی دادهکاوی با Quarto برای پایتون
- دوره آموزشی تصویرسازی دادهها در R با استفاده از ggplot2
- دوره آموزشی گردآوری داده ها با زبان آر
- دوره آموزشی پاک کردن داده های بد در R
- دوره آموزشی طراحی مطالعات مراقبت های بهداشتی داده های بزرگ، بخش اول
- دوره آموزشی طراحی مطالعات مراقبت بهداشتی داده های بزرگ، بخش دوم
- دوره آموزشی یادگیری جامع تجارت الگوریتمی و مدلهای مالی با زبانهای پایتون، R و استاتا
- دوره آموزشی کاربردهای Tidyverse در زبان R