Exploratory Data Analysis (EDA) using Dataprep คืออะไร ?
Exploratory Data Analysis (EDA) คือ กระบวนการตรวจสอบการสำรวจข้อมูลเบื้องต้น
31 March, 2021 by
Exploratory Data Analysis (EDA) using Dataprep คืออะไร ?
Papatsorn thammaprasit (Aum)
| No comments yet

        ในการทำงานทางด้าน Data Science ขั้นตอนแรกที่จะทุกคนจะต้องเจอน่าจะเป็นเรื่องของการทำ Exploratory Data Analysis (EDA)

        ซึ่งในขั้นตอนนี้ เป็นขั้นตอนที่ต้องใช้ระยะเวลาในการทำค่อนข้างนาน และเราอาจจะพลาดบางหัวข้อในการสำรวจข้อมูลได้

        วันนี้ทีม Roots จะมาแนะนำ Dataprep ซึ่งเป็น library ของ Python เพื่อช่วยให้การทำ EDA เป็นเรื่องที่ง่ายและเร็วมากยิ่งขึ้น

โดยขั้นตอนในการติดตั้ง มีดังนี้

        1. ติดตั้ง Anaconda

        2. Pip install dataprep ใน anaconda             prompt

โดยการใช้งานจะใช้งานผ่าน jupyter notebook ในการ run 

        ตัวอย่างคำสั่งที่เลือกใช้งาน โดยเรียกข้อมูลที่เก็บไว้ในเครื่องชื่อ train.csv แล้วใช้คำสั่ง plot เพื่อทำ EDA จากข้อมูล Train

                            from dataprep.eda import plot                                                                                                          import pandas as pd                                                                                                                            df = pd.read_csv("train.csv")                                                                                                                plot(df)

          โดยผลลัพธ์ที่ได้ ตัว lib จะทำการคำนวนค่าที่สำคัญทางสถิติมาให้ครบถ้วน เราสามารถทำเป็นกราฟเพื่อดูผลลัพธ์ได้ง่ายขึ้น รวมถึงสามารถดูค่าว่าง จำนวนข้อมูลทั้งหมด และประเภทของข้อมูลได้ด้วย

ถ้าต้องการเทียบข้อมูลในแต่ละแถว เราก็สามารถทำได้ด้วยคำสั่ง ดังนี้
                            plot(df, "MSZoning", "SalePrice")

เราสามารถเรียกดูเป็นกราฟแท่งเทียน หรือเป็นกราฟเส้นก็ได้

            ทั้งหมดนี้เป็นตัวอย่างในการทำ EDA ด้วย Dataprep ซึ่งจะเห็นได้ว่า เราไม่ต้อง code เยอะ และยังได้ค่าท่าสถิติที่จำเป็นเกือบทั้งหมดมาแสดง ทำให้เราสามารถทำ EDA ได้อย่างรวดเร็ว ประหยัดเวลา สุดท้ายนี้ ทาง Roots หวังว่าทุกคนจะสนุกไปกับการทำ EDA ด้วย Dataprep เจอกันใหม่บทความหน้าครับ

References                                                                                                                                                           [1] L. Frei, Speed Up Your Exploratory Data Analysis With Pandas-Profiling (2019), Towards Data Science                                     [2] R. Rei, EDA Using Panda’s Profiling (2020), Towards Data Science                                                                               [3] D. Bourke, A Gentle Introduction to Exploratory Data Analysis (2019), Towards Data Science

Exploratory Data Analysis (EDA) using Dataprep คืออะไร ?
Papatsorn thammaprasit (Aum) 31 March, 2021
Share this post
Archive
Sign in to leave a comment