pandas¶
Pandas เป็นชุดคำสั่งที่ใช้สำหรับการจัดการและวิเคราะห์ข้อมูลด้วยภาษา Python โดยมีคลาสสำหรับแทนโครงสร้างข้อมูลหลักคือ pandas.Series และ pandas.DataFrame
ซึ่งเป็นโครงสร้างข้อมูลที่สามารถจัดการข้อมูลในแนวตั้งและตารางตามลำดับ
การสร้าง DataFrame¶
pandas.DataFrame(): สร้าง DataFrame จากข้อมูลที่มีอยู่ เช่น list, dictionary, numpy array, หรือ DataFrame อื่น ๆ
pandas.read_csv(), pandas.read_excel(): โหลดข้อมูลจากไฟล์ CSV หรือ Excel เพื่อสร้าง DataFrame
การทำงานกับข้อมูล:¶
DataFrame.head(), DataFrame.tail(): แสดงข้อมูลหัวหรือท้ายของ DataFrame
DataFrame.info(), DataFrame.describe(): แสดงข้อมูลเกี่ยวกับรายละเอียดของ DataFrame
DataFrame.shape: แสดงรูปร่างของ DataFrame
DataFrame.columns: แสดงชื่อคอลัมน์ของ DataFrame
การเข้าถึงข้อมูลใน DataFrame:¶
ใช้ชื่อคอลัมน์หรือ index เพื่อเข้าถึงข้อมูลใน DataFrame
DataFrame.loc[], DataFrame.at[]: เข้าถึงข้อมูลด้วย label หรือตำแหน่ง index
การทำงานกับข้อมูลทั่วไป:¶
DataFrame.drop(): ลบแถวหรือคอลัมน์จาก DataFrame
DataFrame.rename(): เปลี่ยนชื่อแถวหรือคอลัมน์
DataFrame.sort_values(): เรียงลำดับข้อมูลตามค่าของคอลัมน์
การทำงานกับข้อมูลทางสถิติ:¶
DataFrame.mean(), DataFrame.sum(), DataFrame.min(), DataFrame.max(): คำนวณค่าเฉลี่ย, ผลรวม, ค่าน้อยสุด, และค่ามากสุด
DataFrame.median(), DataFrame.std(): คำนวณค่ามัธยฐานและส่วนเบี่ยงเบนมาตรฐาน
การกระทำกับข้อมูลแบบกำหนดเงื่อนไข:¶
DataFrame[condition]: กรองข้อมูลตามเงื่อนไขที่กำหนด
DataFrame.isnull(), DataFrame.notnull(): ตรวจสอบข้อมูลที่เป็นค่าว่าง
DataFrame.isna(), DataFrame.notna(): ตรวจสอบตำแหน่งไม่มีข้อมูล
การทำงานกับข้อมูลที่มีหลายตาราง:¶
pandas.concat(): นำ DataFrame มาต่อกันในแนวแถวหรือคอลัมน์
pandas.merge(): รวมข้อมูลจากตารางต่าง ๆ ด้วยคอลัมน์ที่กำหนด
การจัดการข้อมูลที่มีวันที่ (Datetime):¶
DataFrame.resample(): ทำการ resample ข้อมูลที่มีวันที่
DataFrame.groupby(): แบ่งข้อมูลตามกลุ่มที่กำหนด
การสร้างและจัดการข้อมูลที่มีคอลัมน์ที่มีค่าเป็น Category:¶
DataFrame.astype(): เปลี่ยนประเภทของข้อมูล
DataFrame.groupby(): ใช้ในการจัดกลุ่มข้อมูลที่เป็น category