Skip to playerSkip to main contentSkip to footer
  • yesterday
Data validation is the process of ensuring the accuracy, consistency, and quality of data before it's used or processed. It involves checking data for errors, inconsistencies, and invalid values, aiming to maintain data integrity and prevent issues down the line.

Category

📚
Learning
Transcript
00:00Okay, guys, so last lecture
00:04I have closed. I said that in the next lecture
00:06we will basically model comparison
00:08which is actually validating the data
00:11Now, how do we do the model comparison
00:15which is what is the criteria
00:17which we will compare on the top of the model
00:20Let's see, let's see, here we have 100 patients
00:25we have split 3 parts
00:27we have 3 sets
00:303 sets, the first set was training
00:32we have model trained
00:34the second set was validation set
00:36validation data
00:37we have model tuned
00:39and tune in one important term
00:41I used to say hyperparameter
00:44we have at the moment
00:46we have hyperparameter exist
00:48and then we will see what works
00:50Okay, now, the question is
00:54that I have training data
00:57I have model trained
00:58so, my model
00:59was the same thing
01:01which was the same thing
01:02which has been told
01:03that my model
01:04is actually trained
01:05and that it will be
01:06so, it will be
01:07so, it will be
01:08so, it will be
01:09let's call this model accuracy
01:10okay, I will tell you
01:12model accuracy
01:13okay, I will tell you
01:14model accuracy
01:15and I will tell you
01:16let's say, 98%
01:17let's say, 98%
01:18my model
01:19accuracy
01:20training
01:21okay, I will tell you
01:22I will tell you
01:23I will tell you
01:24now, when we go to test
01:25test data
01:26we have model
01:27to deploy
01:28normal
01:29normal
01:30normal
01:31normal
01:32normal
01:33expected
01:34outcome
01:35validation
01:36your test data
01:37your test data
01:38your test data
01:39your accuracy
01:40your accuracy
01:41will come
01:42as compared to
01:43the accuracy
01:44which you have
01:45training
01:46achieve
01:47let's say, you have
01:48test accuracy
01:4992%
01:50this is a good indication
01:52this is a good indication
01:55however, those scenarios exist
01:58you can have
01:59a scenario
02:00one scenario
02:01that you have
02:02when you compare
02:03your model
02:04to your training
02:05accuracy
02:06I will tell you
02:07training
02:08accuracy
02:09let me say, this is a good indication
02:10test data
02:12accuracy
02:13this is a good indication
02:14and this is not true
02:15and this case
02:16modal accuracy
02:17is very good
02:19based on
02:20model accuracy
02:21that you have
02:22two cases
02:25existing
02:26Model accuracy is very very large than training accuracy. Sorry, test accuracy.
02:34Okay.
02:35This case is called overfitting.
02:38Overfitting.
02:41F I W T I N G.
02:42It's not that I can explain it to you for example.
02:46The other case is that model accuracy is very very less.
02:52Very very.
02:53That is very very less.
03:04Sمجھ رہے ہیں میری بات کو.
03:06Acha.
03:07To doosرا case کیا ہے?
03:08Test accuracy is very very greater than model accuracy.
03:14Isco کہتے ہیں underfitting.
03:16Underfitting.
03:18Underfitting.
03:20Ab, ذرا اپنے غور کرنا ہے.
03:22Overfitting کی case یہ ہے.
03:25For example, آپ کے پاس ایک data آیا.
03:26ٹھیک ہے.
03:27اس طرح کے example تھی.
03:29ٹھیک ہے.
03:31اور آپ نے overfitting آپ کا model کر رہا ہے.
03:34Overfitting کیسے?
03:35کہ وہ ہر point کے through جا رہا ہے.
03:37یار.
03:37یہ دیکھئے.
03:38یہ overfitting ہے basically.
03:39ٹھیک ہے.
03:41However,
03:42اگر آپ اس data کو replicate کریں گے.
03:44نئے data set میں.
03:45تو maybe یہ ایسا perform نہ کریں.
03:47اس کی میں ابھی آپ کو example دیتا ہوں.
03:48اور underfitting کی case میں imagine کریں.
03:50یہ آپ کے پاس کچھ data ہے.
03:52جو اس طرح سے جا رہا ہے.
03:54اور آپ کا جو model ہے.
03:55وہ predict یہ سیدھا line یہ کر رہا ہے.
03:57تو وہ کہہ رہا ہے.
03:58کہ جو اس کا جو اگلا point ہے.
03:59وہ بجائے یہاں ہونے کے.
04:01وہ basically یہاں پہ ہوگا.
04:04جو غلط predict کر رہا ہے نا.
04:05اس کو کہتے ہیں underfitting.
04:07اب ذرا میں آپ کو اس کی ایک example دیتا ہوں.
04:09ذرا.
04:09یا ہماری common world سے.
04:11imagine کریں.
04:12کہ آپ ایک school کا bus route system بنا رہے ہیں.
04:17جس میں بچوں کو school کے لیے bus نے اٹھانا ہے.
04:20imagine کریں جی.
04:21یہ bus کا stop ہے.
04:23ٹھیک ہے.
04:24آپ میں اس کو یہاں پہ ایک round سے represent کر رہا ہوں.
04:27ٹھیک ہے.
04:28اور یہ basically school ہے.
04:30یہ bus کا stop ہے.
04:31ٹھیک ہے.
04:31اور یہ ایک school ہے.
04:33ٹھیک ہے.
04:34تو اس کے درمیان بہت سارے بچے رہتے ہیں.
04:37کوئی یہاں پہ رہتا ہے.
04:38کوئی یہاں پہ کوئی یہاں پہ کوئی یہاں پہ رہتا ہے.
04:41ٹھیک ہے.
04:41تو یہ سارے بچوں کے گھر ہیں.
04:44اب آپ نے ایک ایسا route design کرنا ہے bus کا.
04:48ایک ایسا model بنانا ہے.
04:51کہ بچوں کو اپنے گھر سے کم سے کم چلنا پڑے.
04:56ٹھیک ہوگی بات.
04:57یعنی کہ بچے اپنے گھر میں رہتے ہیں.
04:58یہ جو cross نظر آرہے ہیں.
04:59یہ بچوں کے گھر ہیں.
05:00اب بچوں کو اپنے گھر سے کم سے کم pedal چلنا پڑے.
05:03بس ٹاپ پہ آنے کے لیے اس طریقے سے آپ نے bus کا route بنانا ہے.
05:06اب آپ کہتے ہیں یار میرے پاس unlimited resources ہیں.
05:09میں چاہتا ہوں میرے model کی accuracy 100% ہو.
05:13آپ کہتے ہیں no problem.
05:15یہ میں اس طرح کرتا ہوں.
05:17کہ بس ہر بچے کے گھر سے گزرے گی.
05:20اور ہر بچے کو اس کے دور سے اٹھائے گی.
05:22اور college چلی جائے گی.
05:23یہ آپ نے bus design کی.
05:24ٹھیک ہے.
05:26اچھا.
05:26اب ذرا آپ نے غور کرنا ہے.
05:28یہ یوں سمجھ لیجئے.
05:29یہ canvas ہے.
05:30city کا.
05:31سوری.
05:32میں اس کو replace کر کے تھوڑا سا.
05:34اس طریقے سے ڈال لیتا ہوں.
05:35یہ دیکھئے.
05:36یہ city کا canvas ہے.
05:38اب normally ہو کیا رہا ہے.
05:41کہ آپ کی جو basically model ہے.
05:45اگر میں اس کو اٹھاتا ہوں.
05:46اور میں کہتا ہوں یار یہ دیکھو.
05:48یہ آپ نے ایک model بنایا ہے.
05:50اور آپ یہاں پہ 100% accuracy لے رہے ہیں.
05:54اور یہ آپ کا basically کون سا data set تھا.
05:58اگر آپ پیچھے جائیں.
06:00تو یہ آپ کا model training data set تھا.
06:03training data set کے اوپر آپ نے کہا
06:05کہ یار میری accuracy 100% ہے.
06:08ٹھیک ہے.
06:09کسی بچے کو school سے چلنا نہیں پڑتا.
06:12میں کہتا ہوں اچھا چلو ٹھیک ہے.
06:13اگلا semester آ گیا.
06:14اگلے semester میں اس طرح کرتے ہیں.
06:17کہ ہمارے پاس ایک اور data set آ گیا.
06:21کسی اور.
06:22میں کہتا ہوں یار بات سنو.
06:23کہ یہ دیکھو.
06:25میرے پاس ایک اور school ہے.
06:26کیا تمہارا یہ model میرے کسی دوسرے school کے
06:29علاقے کے بچوں کو اٹھانے کے لیے valid ہوگا.
06:32اتنی accuracy دے گا.
06:33تو چلیے ٹیسٹ کرتے ہیں.
06:34میں اسی کو اٹھاتا ہوں.
06:35ٹھیک ہے.
06:36اور اس curve کو لے جاتے ہیں.
06:37یہاں پہ سیدھا.
06:38اور یہاں پہ ڈالتے ہیں.
06:39دیکھتے ہیں کہ اس کی accuracy کتنی آ رہی ہے.
06:41تو اب اگر آپ دیکھیں.
06:43تو اس کی accuracy تو کم ہو گئی ہے.
06:45مثال کے طور پہ.
06:53یہ ہنڈرڈ آ رہی تھی.
06:54یہ بھی exact نہیں ہے.
06:56ٹھیک ہے.
06:56اور imagine کریں.
06:57میں کہتا ہوں.
06:58یار چار student اور enroll ہو گئے ہیں.
07:00ایک یہ enroll ہوا.
07:01ایک یہ enroll ہوا.
07:02یہ ہوا.
07:02اور یہ ہوا.
07:04اب تو آپ کا model سب سے برا perform کر رہا ہے.
07:08ٹھیک ہے.
07:09اس کو کہتے ہیں overfitting.
07:11کہ آپ کے model کی accuracy 100% آئی.
07:14جب نیا model آیا.
07:14تو وہ وہاں پہ fit ہی نہیں ہوا.
07:16ٹھیک ہے.
07:17اچھا اب overfitting سے ہمیں دور رہنا ہے.
07:21ہمیں overfitting نہیں چاہیے.
07:22اور of course underfitting تو ویسے بھی نہیں چاہیے.
07:25آپ کہیں نہیں یہ میں سیدھا جاؤں گا.
07:26تو اب یہ دیکھئے کہ basically ہر student کو اتنا چلنا پڑے گا.
07:29اپنے school سے.
07:30اپنے bus stop سے.
07:32ٹھیک ہے.
07:34صحیح ہے نا.
07:35تو یہ بھی desirable نہیں ہے.
07:37outcome.
07:38تو underfitting اور overfitting دونوں سے ہم نے بچنا ہے.
07:41اور ہم نے basically ایک goldie lock یوں سمجھیں جیے.
07:45ایک in between راستہ ہم نے اختیار کرنا ہے.
07:49کہ ہم نے ایک ایسا model device کرنا ہے.
07:50جو کہ best طریقے سے outcome کو predict کرے.
07:55اور data کو represent کرے.
07:59ٹھیک ہے جی.
08:00تو یہ دیکھئے.
08:01یہ تھی validation test data.
08:05test data.
08:07اور یہ تھا validation data.
08:10ٹھیک ہے.
08:10اب آپ کا model validation data پہ صحیح کام کیا.
08:13test پہ آکے fail ہو گیا.
08:14اچھا.
08:14صحیح ہے.
08:15اچھا.
08:16اب اس کو کیونکہ یہ fail ہوا.
08:17کیونکہ یہ overfitted data تھا.
08:20overfitting کی وجہ سے یہ fail ہوا.
08:24اچھا.
08:24اب یہاں پہ ہم اس lecture کو کرتے ہیں close.
08:27ٹھیک ہے.
08:28اور next lecture کے اندر ہم لوگ.
08:31next section کے اندر ہم لوگ کو tools کی بھی بات کریں گے.
08:33اور کچھ اور چھوٹے موٹے concepts ہیں.
08:36ان کی بات کریں گے.
08:37ایک چیز اب ہمارے پاس رہ گئی ہے.
08:39وہ ہے جی final iterative process.
08:41اس کو next lecture.