Python's pandas Library کی طرف سے پیش کردہ ڈیٹا فریم کی 4 اقسام

ڈیٹا تجزیہ کار کے طور پر، آپ کو اکثر متعدد ڈیٹاسیٹس کو یکجا کرنے کی ضرورت کا سامنا کرنا پڑے گا۔ آپ کو اپنا تجزیہ مکمل کرنے اور اپنے کاروبار/اسٹیک ہولڈرز کے لیے کسی نتیجے پر پہنچنے کے لیے ایسا کرنے کی ضرورت ہوگی۔

جب ڈیٹا کو مختلف ٹیبلز میں اسٹور کیا جاتا ہے تو اس کی نمائندگی کرنا اکثر مشکل ہوتا ہے۔ ایسے حالات میں، جوائنز اپنی قابلیت کو ثابت کرتے ہیں، قطع نظر اس کے کہ آپ جس پروگرامنگ زبان پر کام کر رہے ہیں۔

دن کی ویڈیو کا میک یوز

پائتھون جوائنز ایس کیو ایل جوائنز کی طرح ہوتے ہیں: وہ ایک عام انڈیکس پر اپنی قطاروں کو ملا کر ڈیٹا سیٹ کو جوڑتے ہیں۔

حوالہ کے لیے دو ڈیٹا فریم بنائیں

اس گائیڈ میں دی گئی مثالوں کی پیروی کرنے کے لیے، آپ دو نمونے ڈیٹا فریم بنا سکتے ہیں۔ پہلا ڈیٹا فریم بنانے کے لیے درج ذیل کوڈ کا استعمال کریں، جس میں ایک ID، پہلا نام اور آخری نام ہو۔

import pandas as pd 
  
a = pd.DataFrame({"ID": ["001", "002", "003", "004", "005"], 
    "Fname": ["Ron", "John", "Helen", "Jenny", "Kenny"], 
    "Lname": ["Keith", "Harley", "Smith", "Kerr-Hislop", "Barber"]}) 
print(a)

پہلے قدم کے لیے، درآمد کریں۔ پانڈے کتب خانہ. اس کے بعد آپ متغیر استعمال کر سکتے ہیں، a ، ڈیٹا فریم کنسٹرکٹر سے نتیجہ ذخیرہ کرنے کے لیے۔ کنسٹرکٹر کو اپنی مطلوبہ اقدار پر مشتمل ایک لغت بھیجیں۔

آخر میں، ڈیٹا فریم ویلیو کے مواد کو پرنٹ فنکشن کے ساتھ ڈسپلے کریں، یہ چیک کرنے کے لیے کہ ہر چیز آپ کی توقع کے مطابق نظر آتی ہے۔

اسی طرح، آپ ایک اور ڈیٹا فریم بنا سکتے ہیں، ب ، جس میں ایک ID اور تنخواہ کی قدر ہوتی ہے۔

b = pd.DataFrame({"ID": ["001", "002", "003", "004", "005"], 
    "Salary": [100000, 700000, 80000, 904750, 604772]}) 
  
print(b)

آپ کنسول یا IDE میں آؤٹ پٹ چیک کر سکتے ہیں۔ اسے آپ کے ڈیٹا فریمز کے مواد کی تصدیق کرنی چاہیے:

جوائنز Python میں مرج فنکشن سے کیسے مختلف ہیں؟

پانڈاس لائبریری ان اہم لائبریریوں میں سے ایک ہے جسے آپ ڈیٹا فریمز میں ہیرا پھیری کے لیے استعمال کر سکتے ہیں۔ چونکہ DataFrames میں متعدد ڈیٹا سیٹ ہوتے ہیں، اس لیے Python میں ان میں شامل ہونے کے لیے مختلف فنکشنز دستیاب ہیں۔

ٹیلی گرام میں اسٹیکرز کیسے شامل کریں۔

Python بہت سے دوسرے لوگوں کے درمیان جوائن اور ضم کرنے کے فنکشنز پیش کرتا ہے، جسے آپ ڈیٹا فریمز کو یکجا کرنے کے لیے استعمال کر سکتے ہیں۔ ان دونوں فنکشنز کے درمیان بالکل فرق ہے، جس کو استعمال کرنے سے پہلے آپ کو ذہن میں رکھنا چاہیے۔

جوائن فنکشن انڈیکس ویلیو کی بنیاد پر دو ڈیٹا فریمز کو جوڑتا ہے۔ دی مرج فنکشن ڈیٹا فریمز کو یکجا کرتا ہے۔ انڈیکس کی قدروں اور کالموں کی بنیاد پر۔

Python میں شمولیت کے بارے میں آپ کو کیا جاننے کی ضرورت ہے؟

دستیاب جوائنز کی اقسام پر بات کرنے سے پہلے، یہاں کچھ اہم باتیں نوٹ کرنی ہیں:

SQL جوائنز سب سے بنیادی افعال میں سے ایک ہیں۔ اور کافی حد تک ازگر کے جوائنز سے ملتے جلتے ہیں۔
ڈیٹا فریمز میں شامل ہونے کے لیے، آپ استعمال کر سکتے ہیں۔ pandas.DataFrame.join() طریقہ
ڈیفالٹ جوائن بائیں جوائن کرتا ہے، جب کہ مرج فنکشن اندرونی جوائن کرتا ہے۔

Python جوائن کے لیے پہلے سے طے شدہ نحو مندرجہ ذیل ہے:

DataFrame.join(other, on=None, how='left/right/inner/outer', lsuffix='', rsuffix='', 
   sort=False)

پہلے ڈیٹا فریم پر جوائن کا طریقہ استعمال کریں اور دوسرے ڈیٹا فریم کو اس کے پہلے پیرامیٹر کے طور پر پاس کریں، دوسرے . باقی دلائل یہ ہیں:

پر ، جس میں شامل ہونے کے لیے ایک انڈیکس کا نام ہے، اگر ایک سے زیادہ ہو۔
کیسے ، کونسا جوائن کی قسم کی وضاحت کرتا ہے، بشمول اندرونی، بیرونی، بائیں اور دائیں
lsuffix ، کونسا آپ کے کالم کے نام کے بائیں لاحقہ سٹرنگ کی وضاحت کرتا ہے۔
rs sufix ، کونسا آپ کے کالم کے نام کی صحیح لاحقہ تار کی وضاحت کرتا ہے۔
ترتیب دیں ، کونسا ایک بولین یہ بتاتا ہے کہ آیا نتیجے میں ڈیٹا فریم کو ترتیب دینا ہے۔

Python میں مختلف قسم کے جوائنز استعمال کرنا سیکھیں۔

Python میں شامل ہونے کے چند آپشنز ہیں، جنہیں آپ وقت کی ضرورت کے مطابق ورزش کر سکتے ہیں۔ یہاں شامل ہونے کی اقسام ہیں:

1. بائیں شمولیت

بائیں جوائن پہلی ڈیٹا فریم کی اقدار کو برقرار رکھتا ہے جبکہ دوسری سے مماثل اقدار کو لاتا ہے۔ مثال کے طور پر، اگر آپ اس سے مماثل اقدار لانا چاہتے ہیں۔ ب ، آپ اسے اس طرح بیان کر سکتے ہیں:

c = a.join(b, how="left", lsuffix = "_left", rsuffix = "_right", sort = True) 
print(c)

جب استفسار پر عمل ہوتا ہے، آؤٹ پٹ میں درج ذیل کالم کے حوالہ جات ہوتے ہیں:

ID_left
نام
نام
ID_right
تنخواہ

یہ جوائن پہلے ڈیٹا فریم سے پہلے تین کالم اور دوسرے ڈیٹا فریم سے آخری دو کالم کھینچتا ہے۔ اس نے استعمال کیا ہے۔ lsuffix اور rs sufix دونوں ڈیٹاسیٹس سے ID کالمز کا نام تبدیل کرنے کے لیے قدریں، اس بات کو یقینی بناتے ہوئے کہ نتیجے میں آنے والے فیلڈ کے نام منفرد ہوں۔

آؤٹ پٹ مندرجہ ذیل ہے:

کوڈ Python میں بائیں شمولیت دکھا رہا ہے۔'s dataframes

2. دائیں شمولیت

دائیں شمولیت دوسرے ڈیٹا فریم کی اقدار کو برقرار رکھتی ہے، جبکہ پہلی ٹیبل سے مماثل اقدار کو لاتی ہے۔ مثال کے طور پر، اگر آپ اس سے مماثل اقدار لانا چاہتے ہیں۔ a ، آپ اسے اس طرح بیان کر سکتے ہیں:

c = b.join(a, how="right", lsuffix = "_right", rsuffix = "_left", sort = True) 
print(c)

آؤٹ پٹ مندرجہ ذیل ہے:

ایک فون نمبر کے مالک کو تلاش کریں۔

کوڈ Python میں دائیں شمولیت دکھا رہا ہے۔'s dataframes

اگر آپ کوڈ کا جائزہ لیتے ہیں تو چند واضح تبدیلیاں نظر آتی ہیں۔ مثال کے طور پر، نتیجہ میں پہلے ڈیٹا فریم سے پہلے دوسرے ڈیٹا فریم کے کالم شامل ہیں۔

آپ کو کی قدر استعمال کرنی چاہئے۔ صحیح کے لئے کیسے صحیح شمولیت کی وضاحت کرنے کے لیے دلیل۔ اس کے علاوہ، نوٹ کریں کہ آپ کس طرح سوئچ کر سکتے ہیں۔ lsuffix اور rs sufix صحیح شمولیت کی نوعیت کی عکاسی کرنے والی اقدار۔

آپ کی باقاعدہ شمولیت میں، آپ اپنے آپ کو بائیں، اندرونی اور بیرونی جوائنز زیادہ کثرت سے استعمال کرتے ہوئے پائیں گے، جیسا کہ دائیں شمولیت کے مقابلے میں۔ تاہم، استعمال مکمل طور پر آپ کے ڈیٹا کی ضروریات پر منحصر ہے۔

3. اندرونی جوڑ

ایک اندرونی شمولیت دونوں ڈیٹا فریمز سے مماثل اندراجات فراہم کرتی ہے۔ چونکہ جوائنز قطاروں کو ملانے کے لیے انڈیکس نمبرز کا استعمال کرتے ہیں، اس لیے ایک اندرونی جوائن صرف ان قطاروں کو لوٹاتا ہے جو مماثل ہیں۔ اس مثال کے لیے، آئیے درج ذیل دو ڈیٹا فریم استعمال کریں:

a = pd.DataFrame({"ID": ["001", "002", "003", "004", "005", "006", "007"], 
    "Fname": ["Ron", "John", "Helen", "Jenny", "Kenny", "Daryl", "Cathy"], 
    "Lname": ["Keith", "Harley", "Smith", "Kerr-Hislop", "Barber", "Hooper", "Hope"]}) 
b = pd.DataFrame({"ID": ["001", "002", "003", "004", "005"], 
    "Salary": [100000, 700000, 80000, 904750, 604772]}) 
  
print(a) 
print(b)

آؤٹ پٹ مندرجہ ذیل ہے:

آپ اندرونی جوائن کا استعمال کر سکتے ہیں، جیسا کہ:

c = a.join(b, lsuffix="_left", rsuffix="_right", how='inner') 
print(c)

نتیجے میں آنے والے آؤٹ پٹ میں صرف قطاریں ہیں جو دونوں ان پٹ ڈیٹا فریمز میں موجود ہیں:

کوڈ Python میں اندرونی شمولیت دکھا رہا ہے۔'s dataframes

4. بیرونی شمولیت

ایک بیرونی شمولیت دونوں ڈیٹا فریمز سے تمام قدریں لوٹاتا ہے۔ کوئی مماثل اقدار کے بغیر قطاروں کے لیے، یہ انفرادی خلیات پر ایک کالعدم قدر پیدا کرتا ہے۔

اوپر کی طرح اسی ڈیٹا فریم کا استعمال کرتے ہوئے، بیرونی شمولیت کا کوڈ یہ ہے:

c = a.join(b, lsuffix="_left", rsuffix="_right", how='outer') 
print(c)

کوڈ Python میں بیرونی شمولیت دکھا رہا ہے۔'s dataframes

Python میں Joins کا استعمال کرنا

جوائنز، ان کے ہم منصب فنکشنز، مرج اور کنکٹ کی طرح، ایک سادہ شمولیت کی فعالیت سے کہیں زیادہ پیش کرتے ہیں۔ اس کے اختیارات اور افعال کے سلسلے کو دیکھتے ہوئے، آپ ان اختیارات کا انتخاب کر سکتے ہیں جو آپ کی ضروریات کو پورا کرتے ہیں۔

آپ جوائن فنکشن کے ساتھ یا اس کے بغیر، پائیتھون کے پیش کردہ لچکدار اختیارات کے ساتھ، نتیجے میں آنے والے ڈیٹاسیٹس کو نسبتاً آسانی سے ترتیب دے سکتے ہیں۔