In the context of data science and machine learning, "data features" refer to individual, measurable properties or characteristics of a dataset. These features are the variables used to describe or analyze the data and are crucial for building and training models.
Category
📚
LearningTranscript
00:00So next is our features.
00:07When we have data, we need to know which features are available.
00:17Imagine that we have a table.
00:21There are some columns available in this table.
00:25There are some information available in this table.
00:28The first column is ID.
00:30The second column is weight.
00:33Let's call this sex.
00:35This is heart rate.
00:37HR is called.
00:39Let's say prediction.
00:43Let's say disease predict.
00:46D-E-S-E-S-E.
00:48Let's say hepatitis.
00:53Just an imaginary case.
00:55So I can fill it.
00:58Okay.
00:59So I have a hypothetical table.
01:01If we have a patient data,
01:03we have a patient data.
01:05The column is ID.
01:07The weight is, sex is, heart rate.
01:11The heart rate is.
01:12And the other features are available.
01:16You must be aware of that these features are available.
01:20These three columns are called features.
01:22These three columns are called features.
01:26And when I say features,
01:28it is variable.
01:29We can say features variable.
01:30We can say features variable.
01:32so this variable is variable.
01:34So this is the most column what you see here.
01:36So that tells you that we haveindustrie variable,
01:39this is the last column which says the following name.
01:41That Dol αποost column that says the target variable means.
01:43This is the same Lily-E-S-E-E.
01:44So this is why tells you our target variable.
01:47It says so they COSTA aren't advising.
01:49So this is the target variable.
01:51The two things that you can see here,
01:53have seen, one is feature variable, the other is target variable, target variable
01:57which is what we have to predict.
02:01Now, we have more information on feature variable
02:05extract. Now, feature variable, if you look at
02:09feature variable, if you look at two features exist.
02:13One feature is basically
02:17numeric, number, and another feature is
02:21which is basically categorical feature.
02:25So, feature again, further, we have two categories.
02:29The first is numeric, numeric,
02:33and the second is categorical.
02:37There are two categories, numeric and categorical.
02:41Now, the data that you have to do
02:45basically, you can expand the data
02:49depending upon the existing information.
02:53Now, when you modify it,
02:57for example, you can see that
02:59I have seen that
03:01I have seen that
03:03I have seen that
03:05data,
03:07which is the one, two, three,
03:09which is the one,
03:11which is the one,
03:13which is the one,
03:15which is the one,
03:17which is the one,
03:19which is the one.
03:21So,
03:31if I can predict that,
03:33then I have seen the same type of
03:35data again,
03:37which is the one,
03:39is feature
03:40which you have
03:41basically
03:41existing data
03:43extract
03:44is called
03:45derived
03:46feature
03:47f e a
03:47t u r e
03:48feature
03:49derived
03:50feature
03:51okay
03:52now
03:53we have
03:541, 2, 3, 4
03:56and 5
03:57nominclature
03:58definition
03:59basic
04:00feature
04:01variable
04:02which is
04:02target
04:03variable
04:04which is
04:04feature
04:05variable
04:06which is
04:06numeric
04:07and
04:07ketaguerical
04:07which is
04:09feature
04:10which is
04:11feature
04:12which is
04:14the
04:15which is
04:16which is
04:18feature
04:18drive
04:19or
04:20you have
04:21let's say
04:22something
04:22or feature
04:23that is
04:24available
04:24but
04:25you have
04:25sufficient
04:26information
04:26and
04:27you have
04:27not
04:28that you have
04:30this
04:31silver
04:32plate
04:32and
04:32you have
04:33data
04:34that you have
04:35and
04:35you have
04:36algorithm ڈالیں اور minute کے اندر آپ کو prediction مل جائے گی جتنا
04:42بھی messy data possible ہو سکتا ہے وہ آپ کو ملے گا تو اکثر یہ
04:46ہوگا کہ جو information ہوگی وہ available نہیں ہوگی اب imagine
04:51کریں کہ یہاں پہ آپ کے پاس صرف ایک column ہے ٹھیک ہے جس کے اندر
04:56smoking کی information available ہے باقی دو column باقی دو patient کی
05:00نہیں ہے ٹھیک ہے تو اب اس کا مطلب یہ ہے کہ کیا اب یہ
05:05drive feature اس کے اندر exist کرنا چاہیے کیونکہ information
05:08sufficient ہے ہی نہیں تو یہ کیا criteria ہونا چاہیے basically
05:12normal ہے 10% of the sample کو ہونا چاہیے ان کے پاس وہ feature
05:17available ہونا مثال 100 بندوق اگر آپ 100 patient کا data deal
05:20کر رہے ہیں تو at least at least 10 information اب جب آپ اس کو
05:27modify کرتے ہیں مثال کے طور پہ اب ذرا آپ نے غور کرنا ہے کہ
05:31میں اس طرح کرتا ہوں کہ میں نے دیکھا کہ اچھا میرے پاس جو
05:35یہ جو ساری files آئیں data کی id 1,2,3
05:38اس کے اوپر کس کس نے let's say cigarette پی یا کس کس
05:43نے smoking کی یا نہیں کی اس کا بھی data available تھا
05:46تو میں کہتا ہوں یار یہ تو information بہت ہی important
05:49information ہے اس کو تو add کرنا چاہیے مجھے اگر میں let's say
05:54وہ hepatitis predict کرنا چاہتا ہوں تو آپ کیا کہتے ہیں کہ
05:57یار smoke کا میں column بنا دیتا ہوں اور smoke میں میں کہہ دیتا ہوں
06:02ہاں اس میں yes یہ smoking کرتا ہے یہ نہیں کرتا اور again یہ
06:07بھی smoking کرتا ہے ٹھیک ہے make sense
06:10اب اس feature کو جو کہ آپ نے basically existing data میں سے extract کیا
06:16اس کو کہتے ہیں derived feature
06:19data میں سے extract کیا اس کو کہتے ہیں derived feature
06:24f-e-a-t-u-r feature
06:26derived feature
06:29ٹھیک ہوگی بعد
06:30اچھا اب تک ہم نے ایک دو
06:32تین چار اور پانچ
06:34nomenclature یوں سمجھئے definition basic کو دیکھا
06:38feature variable کیا ہوتا ہے اس کے بعد target variable کیا ہوتا ہے
06:42feature variable کے اندر numeric اور ketaguerical ہوتے ہیں
06:45اور پھر جو feature آپ خود سے بناتے ہیں اس کو کیا کہتے ہیں drive feature
06:49کہتے ہیں صحیح ہوگی بات excellent
06:51اب اکثر ایسے ہوتا ہے
06:54کہ جو آپ feature drive کرتے ہیں
06:57یا پھر آپ کے پاس let's say
06:59کوئی اور feature آپ کے پاس available ہے
07:02لیکن اس کے اندر sufficient information
07:04اور آپ دیکھیں گے کہ اپنے پورے career میں
07:06لازمی نہیں ہے کہ آپ کو
07:08اس طرح silver plate کے اوپر رکھ کے data دیا جائے گا
07:11کہ ہاں جی یہ لیجئے حضور اور آپ بس اس کے اوپر algorithm ڈالیں
07:15اور minute کے اندر آپ کو prediction مل جائے گی
07:18جتنا بھی messy data possible ہو سکتا ہے
07:22وہ آپ کو ملے گا
07:23تو اکثر یہ ہوگا کہ جو information ہوگی
07:26وہ available نہیں ہوگی
07:28اب imagine کریں
07:29کہ یہاں پہ آپ کے پاس صرف ایک column ہے
07:32ٹھیک ہے
07:33جس کے اندر smoking کی information available ہے
07:35باقی دو patient کی نہیں ہیں
07:38ٹھیک ہے
07:39تو اب
07:40اس کا مطلب یہ ہے کہ کیا
07:42اب یہ derived feature اس کے اندر exist کرنا چاہیے
07:45کیونکہ information sufficient ہے ہی نہیں
07:46تو یہ کیا criteria ہونا چاہیے
07:49basically normal ہے
07:5010% of the sample کو ہونا چاہیے
07:53ان کے پاس وہ feature available ہونا
07:55مثال 100 بندوں کا
07:56اگر آپ 100 patient کا data deal کر رہے ہیں
07:58تو at least 10 بندوں کا آپ کے پاس data ہونا چاہیے
08:03at least
08:04ٹھیک ہے
08:05otherwise it's totally useless
08:07to include this
08:08صحیح ہوگی بات
08:09چلے
08:11یہ تو بات تھی ہماری features کے حوالے سے
08:14کہ آپ نے دیکھا
08:15کہ ہم نے پہلے problem کے حوالے سے دیکھا
08:17کہ problem کو کس طریقے سے solve کرنا ہے
08:19problem define کیسے کرنا ہے
08:21پھر آپ نے data کی categories دیکھا
08:22data کے بارے میں دیکھا
08:23evaluation سیکھا
08:25اور اب ہم نے features کے حوالے سے بات کی
08:27تو next lecture کے اندر
08:28ہم لوگ modeling کی بات کریں گے
08:30کہ modeling کو کس طریقے سے handle کرنا ہے