Link to original video by Mì AI
LazyPredict - thử nghiệm nhiều mô hình Machine Learning một cách nhanh chóng - Mì AI

Tóm tắt video "LazyPredict - thử nghiệm nhiều mô hình Machine Learning một cách nhanh chóng - Mì AI"
Tóm tắt ngắn:
- Video giới thiệu LazyPredict - một thư viện Python giúp thử nghiệm nhiều mô hình Machine Learning một cách nhanh chóng và tự động.
- LazyPredict hỗ trợ cả bài toán hồi quy (regression) và phân loại (classification), cho phép người dùng so sánh hiệu suất của các mô hình khác nhau trên cùng một tập dữ liệu.
- LazyPredict giúp tiết kiệm thời gian và công sức trong việc tìm kiếm mô hình phù hợp nhất cho bài toán Machine Learning.
- Video minh họa cách sử dụng LazyPredict thông qua hai ví dụ thực tế: dự đoán giá nhà ở Boston và phân loại bệnh nhân có vấn đề về tim mạch.
Tóm tắt chi tiết:
Phần 1: Giới thiệu về Machine Learning và LazyPredict
- Video bắt đầu bằng việc giới thiệu khái niệm Machine Learning, nhấn mạnh vào việc sử dụng dữ liệu dạng bảng và những hạn chế của phương pháp này.
- Người dẫn chương trình chia sẻ về việc thử nghiệm nhiều mô hình Machine Learning để tìm ra mô hình phù hợp nhất, nhưng việc này thường tốn nhiều thời gian và công sức.
- LazyPredict được giới thiệu như một giải pháp giúp đơn giản hóa quá trình thử nghiệm mô hình Machine Learning, cho phép người dùng thử nghiệm nhiều mô hình cùng lúc và tự động so sánh hiệu suất của chúng.
Phần 2: Minh họa cách sử dụng LazyPredict với ví dụ dự đoán giá nhà ở Boston
- Video sử dụng bộ dữ liệu Housing Price dataset để minh họa cách sử dụng LazyPredict.
- Người dẫn chương trình so sánh cách thử nghiệm mô hình thông thường (viết code cho từng mô hình) với cách sử dụng LazyPredict.
- LazyPredict giúp người dùng thử nghiệm nhiều mô hình hồi quy (regression) khác nhau chỉ với vài dòng code và tự động hiển thị kết quả so sánh hiệu suất của chúng.
Phần 3: Minh họa cách sử dụng LazyPredict với ví dụ phân loại bệnh nhân có vấn đề về tim mạch
- Video sử dụng bộ dữ liệu Healthcare dataset để minh họa cách sử dụng LazyPredict cho bài toán phân loại (classification).
- Người dẫn chương trình sử dụng LazyPredict để thử nghiệm nhiều mô hình phân loại khác nhau và so sánh hiệu suất của chúng.
- LazyPredict giúp người dùng dễ dàng tìm ra mô hình phân loại phù hợp nhất cho bài toán cụ thể.
Phần 4: Kết luận
- Video kết thúc bằng việc khẳng định LazyPredict là một công cụ hữu ích giúp người dùng tiết kiệm thời gian và công sức trong việc thử nghiệm nhiều mô hình Machine Learning.
- Người dẫn chương trình khuyến khích người xem thử nghiệm LazyPredict và chia sẻ những trải nghiệm của mình.
Lời dẫn dắt:
- "Ok anh Em vẫn câu chào quen thuộc là chào mừng anh em quay lại với kênh mii và hôm nay chúng ta sẽ ngược thời gian quay lại một chút với machine learning và chúng ta sẽ tìm đến một cái thư viện tên là lazy predict cho ph Chúng ta thử một lúc multi cái mod nhiều cái mel m rning để tìm ra cái model phù hợp nhất mới data của chúng ta nhá rồi..."
- "Thế thì bây giờ thay V việc trước chúng ta làm gì mình hay làm một kiểu rất nó dân là mình sẽ list ra list ra những cái mod và mình giữ kiến dùng Sau đó mình viết code để mình thử từng mod V xong mình lưu lại cái bảng accuracy lưu lại cái bảng lỗi rbin Square rmse đấy Sau đó mình compare bằng mắt xem là cái m nào tốt thì mình dùng đúng không..."
- "Thì đại khái của bài hôm nay là như vậy c bây giờ chúng ta sẽ chuyển s cái phần thứ hai phần Hon là chúng ta sẽ lấy cái dữ liệu ở trên kle về sau đó chúng ta dùng một cái đoạn code để chúng ta code thông thường trước đó sau đó mình sẽ import cái thư viện lazy pic vào và cho các bạn thấy là nó nhanh như thế nào nha Let's go"
- "Cảm ơn tất cả anh em ok Bây giờ chúng ta sẽ vào cab nhá mình thường C trên colab nó nhanh đỡ phải để lại setup thư viện ở trên trên trên máy Loco rồi như một cái cet thôi đó đặt tên t đó là gì à lazy lazy predict mii đỡ mình không đặt tên là Leg predict vì sao vì nó sẽ trùng với cả cái thư viện này và nhiều khi có khả năng gây ra lỗi đó có rất nhiều bạn ở trên group miia rất hay là đặt tên theo cái thư viện nó luôn Ví dụ hôm nay mình nghiên cứu về lazy prix thì đặt luôn cái tên file là lazy prix Python đấy kết quả Lúc import nó luôn báo là lỗi rồi một số bạn học về học về về về gì nhỉ À NP cũng thế đặt luôn cái tên của file 5p chp đế lúc mình import 5p nó cứ báo lỗi đó đúng không đặt tên khác đi một tí đó rồi..."
- "Rồi thì bây giờ mình sẽ làm gì đầu tiên là mình sẽ upload hai cái dữ liệu lên đúng không upload dữ liệu lên thì ở đây mình trong bài này mình dùng hai cái dữ liệu một là dữ liệu là healthcare dataset shock Data là cái dữ liệu để mà dự đoán cái ch cái gọi là cái gì nhỉ Cái triệu chứng tim của cái người ta ấ xem nó bị gọi là vấn đề về team hay không nết hay đâu đó dựa vào những thông số mình đo được đó và cái thứ hai là cái housing.csv chính là cái data Housing Pon đó mình up lên đây đó thì đây mình Download cái Housing Price dataset ở đây trên kle nhá bạn C login và download về rất nhiều dữ liệu để bạn có thể là ừ thử nghiệm nghiên cứu vân vân đó đây Còn đây là stock prion đây đó Ok đó thì mình cũng tải về thôi rồi bây giờ mình sẽ làm việc gì mình sẽ thử Ờ trên model một cách thông thường nhá rồi đây phần 1 này trên thông thường mình sẽ import pandas đúng không PD rồi Cái thươ viện pandas này là thươ viện để chúng ta có thể đọc được file CSV hiển thị lên màn hình đó Bây giờ mình sẽ đọc thử cái này nhá Housing data bằng PD chre CSV đó và gần đây thì cái thằng colab này nó có một cái ai đỉnh cao Mình chỉ cần viết và Tab viết và Tab đỡ phải làm gì nhưng chắc là với đây n tích hợp cái gini và đấy Cái cái model gini mà mình có thường nói ở trên ai rồi đấy nhưng với user free như mình ấy dùng một tẹo thôi là hết nhá Ok đó đây là mình đọc cái hing này ra nhưng mà nó chưa Đúng mình phải là copy part vì part mình nó khác với cả part của cái ông này đó rồi ok thì đây là dữ liệu cái nhà Won và bạn để ý thấy có một số cái trường mình phải xử lý bạn nào mà làm về data hoặc là Follow những cái clip ở trong series là ai in Banking ở trên kênh mì ai ấ thì sẽ biết là mình phải xử lý một số cái như cái chỗ này đó là yết no mình phải chuyển về trf hoặc là chuyển về dummy ấy get dumy ấ đấy tất cả những cột này này đó Vì cái này nó đang là là Swing thì phải đó đây còn cái loại này nữa là nó loại là cái nội thất ấy thì có loại là có nội thất này bán nội thất này và unf đó là ba cái category khác nhau đúng không Vậy thì mình sẽ phải Ngoài ra mình cũng sẽ phải làm gì sẽ phải là này scale lại này Đó scale lại cái đống Price area này đó để cho nó về một cái cùng một khoảng đấy như là thằng tất cả thằng này này Price area bedroom bathroom Story parking là mình đều phải scale về một cái quãng là quãng từ 0 đến 1 hết đó thì ở đây mình sẽ không đi sâu vào phần scale này nhá nhá vì nếu mình đi sâu vào thì clip rất là dài nhá ở đây mình không phải một bài mình tập trung vào phần skill đấy đấ nhưng bạn nào mà cần hiểu thêm phần skill đấy thì lên trên kênh bii tìm vào cái model cái series ai in Banking hoặc là post lên group mii mọi người sẽ trả lá cho các bạn nhá Còn bây giờ mình sẽ chỉ làm mỗi việc là ờ get dumy thôi Sau đó thì mình sẽ làm luôn đó Ok đây thì mình sẽ ù mình sẽ không viết mình thử xem là thằng Germany nó có hiểu không generate get dumy dataset colum on m Road Wow Amazing chuẩn luôn đây mình sẽ lại một tí đây mình sẽ để là Housing data One h mình sẽ truyền Housing data vào và truyền main root này truyền thêm guest room này đó để mình copy cho nhanh nhá Đây đó mình sẽ làm ở main drop get room basement BL và mình thêm một cái cột là drop first CH2 để cho nó drop bớ đi một cột Ví dụ như cái cột main root này nó sinh ra hai cột là main root Yes và m ro no Ơ thì thằng này y thằng kia chắc chắn là no một thằng này một thằng kia là 0 Thằng này tr thằng này f Vậy rốt được một cột Chả ảnh hưởng gì đây và kết quả cuối cùng thì cái cái One hot chúng ta nó như này đó và cái phần việc mà scale lại các cái cột số là mình nhắc lại là mình không làm mình để lại cho các bạn Các bạn có thể search trên mạng và scale lại rồi Thế bây giờ nếu như thông thường chúng ta sẽ làm gì chúng ta sẽ import cái thư viện là LINE à Đâu mình làm ít về linear đã xong rồi chúng ta sẽ ừ chia dữ liệu sau đó chúng ta sẽ gọi là gì Trade đúng không Bây giờ mình lại lười tiếp và đây mình biết là trên test split on Housing One hot Housing data One hot drop price on x split 20 ph for test rồi mình xem nó có làm được không Ok ngon luôn nó import cho mình cái trên test split vào nó split ra x Wow Amazing xong luôn run ngon luôn mới ghê chứ rồi Vậy là mình đã có tập X tập y x train y train xtest yest rồi bây giờ là mình Lúc mình làm mod đây này rồi Bây giờ mình sẽ làm mod mình làm mod thì mình sẽ làm gì Bình thường mình sẽ viết một cái mod linear reaction thông thường đúng không Bây giờ mình sẽ lại sinh tiếp create linear regression Model on x train e train then test on x test e test enter ok đó import này trên này test này và in cho mình Min Square rot và a square run luôn rồi đã xong đó đây là việc chúng ta làm với việc code bình thường từ trước đến giờ ở trên mii đúng không như một cái model linear và làm và bây giờ nếu chúng ta làm một cái model khác chúng ta lại phải làm lại cái việc này ví dụ đây mình muốn tạo một cái model là không phải linear region nữa mà X boot chẳng hạn x Boost regress mình không nhớ tên nhá đó thì mình lại phải new xong xong lại làm đúng không Thế thì bây giờ chúng ta đã có một cái là chúng ta dùng lazy predict là như nào đây mình sẽ imp th viện này p install đó install này trừ Q lazy predict được chưa một số bạn hỏi Hà hay sao Hay cho cái tham số trừ q và để làm gì trừ Q vào để cho nó quired im lặng nó in nó cài đặt nó đỡ in ra nhiều thông số trên màn hình rồi xong rồi đấy Bây giờ mình sẽ làm cái việc là mình sẽ vẫn là làm việc prck thôi nhưng mình sẽ viết code kiểu khác và nó sẽ à nó sẽ nó sẽ thử một lúc hàng tá mod đồ cho mình xem ở đây form lazy predict ch Supervisor đó import lazy regress lazy classify luôn Để tí mình thử hai cái đó lazy reg là nó làm cái việc là hồi quy và nó thử trên nhiều đồ còn lazy classifier là nó cũng làm cái việc là classify nhưng lại làm trên nhiều mod rồi bây giờ mình sẽ làm gì mình sẽ tiến hành dự đoán đây lazy mod bằng lazy regress lazy mà ra l đó rồi mình sẽ lên cái S ôi giời nó lại hộ hết bên này thì dễ quá nhỉ này đơn giản quá nhỉ Ok thôi mình sẽ viết Từ từ nhá Nó viết kinh quá rồi v bằng 0 Để nó không hiện Cái dự đoán lên ignore warning ignore warning mình cho bằng tru cho nó đỡ nh rồi Custom Magic n Đúng rồi rồi Custom magic ntion bằng tr Ôi nó D đoán hết thế này thì nhàn quá nhỉ Ok xem nào rồi và mình sẽ là nốt cái thông sối cùng là regress reg đâu rồi đy bằng ôn cái này là cái gì O là gì đó nó là như này nghĩa là nó cho phép bạn chọn ra là bạn sẽ dùng những mod đồ gì để mà đưa vào quá trình mình test ở đây thì mình không biết là có những mod gì mình cũng muốn là thử cho tất cả mod đồ để là ôn đó và ở dưới mình sẽ làm gì mình sẽ ấ gọi một cái lệnh để cho nó fit trên cái dữ liệu của mình đây mod và prediction đây mình đây mình như là reg mod đi đó rồi run lazy à Chưa chạy câu này ố ồ lỗi gì à U biết nhầm l l đâu ok đấy ngon rồi chạy này Ok đang chạy rồi đó và nó chạy một lúc xong Đư một cái bảng à in ra ra cái bảng Đợi tí mình sẽ in thằng này ra mình clear đi cho nó đỡ dà nhá đó rồi bạn thấy không nó in ra tất cả phải tầm đến 1 2 3 mình đoán 30 chục cái m đồ gì đấy và nó xếp theo a square a square bạn biết rồi a square mà càng lớn thì sao càng tốt đó thì nó càng pric chuẩn và a square càng thấp càng kém thì nó đang xếp theo từ thứ tự từ cao xuống thấp large transform target regressor linear rection l so large lao lao rồi xuống dưới này là xg boot deess này này rồi thì deion tre này đó elastic net này svr này nhiều lắm đó thì mình nhấn mạnh lại bài này mình chỉ thử nghiệm thôi còn dữ liệu đ vào Thậm chí mình còn chưa scale number cơ nên là tất cả chỉ số này chỉ để tham khảo bạn biết là có một cái m đồ như vậy thôi Được chưa Bây giờ mình sẽ đến bài toán Thứ hai Đây là bài toán bài toán gì bài toán regression bây giờ đế classification là phân loại đó thì mình lập tức mình load cái dữ liệu healthcare này lên được chưa Lại lười nhỉ Làm tí ai nhỉ load data from copy p đấ and show On Screen by pandas Ok đó nó lại ngon thế chứ đ run đó bạn thấy không Nó có gì có ID khách hàng này có giới tính này có tuổi này có một vài thông số như là có kết hôn hay chưa làm nghề gì ở nông thôn hay hể thị vân vân và có hút thuốc hay không Và cuối cùng nó dự đoán là shock là có vấn đề của Hôi như mình cũng mình cũng không nên đi show và cái data này nhá data y tế mà shock là kiểu có vấn đề về Về Về team đi No không là không vấn đề về team đó thì B ta phân loại mà không có reaction đây đúng không thì tương tự như vậy mình sẽ lại làm một thử một cái à Một cái gì nhỉ get dumy đấ đ nào get dumy colum on ever marit này đấ work time này resident time này Smoking này not to drop First colum rồi Ok luôn nhanh gọn quá cơ mình đặt đâ One hot đấy để đỡ chạ ảnh Hưng Cá cũ chuẩn luôn đó nó đã chuyển hết thành chuf 01 rồi đó ok chưa Rồi bây giờ thì cái việc mà scale Thì mình à thiếu cột Gender rồi bổ sung vào đây gender rồi đó gender cũng xong rồi Rồi cái việc kêu số mình lại bỏ qua nhá Lười lắm rồi Bây giờ còn một vấn đề là cột BMI đang bị nann đó đúng chưa thì mình lại phải ph cho nó hết nann đi ch nó đỡ lỗi đó Đây là một ví dụ thôi mình cũng làm cái việc fin này rất nhiều ở trên mii rồi nhưng đây ví dụ thêm một tí bạn biết thì làm gì mình sẽt lại ai fin nan đ value in BMI column by average of BMI column mình sẽ lấy giá trị trung bình của cột này ph vào đấy Ok đó BMI fin Na và BMI inate bằng true để nó thay thế luôn đó thì sau cái câu lệnh này nó sẽ ph cái giá trị Na và không còn đâu đây đây đó hết rồi Được chưa Sẵn sàng data rồi bây giờ chúng ta sẽ Thông thường chúng ta sẽ dựng một cái mod Logistic region để chúng ta phân loại hiểu không như bây giờ mình lười rồi mà mình cũng sẽ không dùng Logistic nữa mình sẽ viết code để mình dùng lazy đúng không dùng lazy À quên phải speit data đã ấy lại dùng lười đi split train test data on cái stock auto on host này random number random seit bằng 42 split 20 for test rồi ngon thế giờ code giờ chỉ có Tab thôi theo một cái mà mình thấy là là là là là là là là mọi người hay nói bây giờ là gì cái nút Tab là nút hỏng nhiều nhất của lập trình viên là vì toàn Tab ấy toàn là II có ý mà và bạn để ý không có một cái rất hay nhá là ở trên này thì mình phải nói cho nó đây lúc mà trên test đâu nhỉ Đây ờ đâu à đây đây đây đâ đây đây đây đây mình phải nói nó là gì drop PR colum on x vì X là cái dữ liệu mình đã dùng để trên nên phải bỏ cái cột Pride đi để mình vì Pride là cột mình cần dự đoán mà Nhưng ở dưới này nhá Thậm chí mình chẳng cần bảo nó bỏ cái cột shock đi đây cột shock là Cột Cần dự đoán ra đúng không Đây dưới cùng đâu rồi đây thì thường mình sẽ phải bỏ đi mình chả cần phải nói nó cũng tự biết drop cho mình kin ba đạo và mình đã có TP x trên y train rồi Bây giờ thì mình đây lại làm như chế thôi lazy classifier bằng lazy classifier mở ngoạc này lại gi lại cho một đống này Đấy úi xời ơi uning bằng chu chu này được chưa đó Xóa đi cho nó mình bảo mình chả viết gì cả Toàn dù mod ai đây classifi bằng chu luôn Wow dã má thật rồi Thế thì sau khi mà xong rồi thì mình lại có một cái đây là classify Model option fit exent như ở trên thôi đó rồi run đó lúc này nó đang làm gì Nó đang làm nó thử một đống cái bồ classifier vào cái dữ liệu x trên y trên mà mình vừa làm ở trên Ê hình như mình nhầm mình chưa chạy cái này stop đâ ra rồi lỗi là đúng rồi chạy lại nào Ok bây giờ mới chạy này đó Đang làm classifier đấy OK Xong rồi đấy Bây giờ mình sẽ in cái này ra là chúng ta lại có một bảng ổn chưa Vẫn tầm độ 20 30 chục 20 30 chục gì đấy Cái mod đồ và nó xếp theo accuracy từ trên xuống dưới bạn thấy không Nó có accuracy và Balance accuracy Balance accuracy là nó làm dùng trong các trường hợp mà nó có cái lớp nó có impal data giữa hai lớp data nó không cân bằng nhau xêm xêm khoảng 5050 mà nó quá là lệch ví dụ như là dự đoán ung thư thì thường là người ung thư sẽ ít và người không Ung thư sẽ nhiều dự đoán mail spam thì mail spam sẽ ít và mail thường sẽ nhiều ví dụ như vậy nhá dự đoán khách hàng dày bỏ dịch vụ thì khách hàng dày bỏ dịch vụ là ít khách hàng thường là nhiều chứ ngân hàng khách hàng dày bỏ dịch vụ là nhiều thì H vỡ nợ đó rồi thì đây họ đang xếp theo mình theo accuracy từ cao xuống thấp và bạn để ý cái cột Balance accuracy nhá đó thì near s choy là cái model phù hợp nhất với cái bài Đán này cion nb rồi Đến perception rồi xbot classifier thì nó lại vượt trội đó các bạn thấy không có cái thằng xbot này có hay là gì cái acc là cao thế nhưng mà do class mình nghĩ class Không ấ nó phổ biến nên nó dễ đạt được cái cao nhưng mà lúc bance lại thì CN 0,55 thôi như vậy là chúng ta nên Focus vào năm cái mô đầu này để sau đó chúng ta phát triển tiếp tối ưu tiếp để ra được cái tốt nhất tro mô đồ này cho cái bài toán này Ok đó thì hôm nay thì mình giới thiệu nhanh cho các bạn một cái m cái cái cái thư viện lazy PR như vậy hi vọng là giúp các bạn nhanh chóng hơn trong cái việc mà chúng ta test nhiều mod đồ trên một tập dữ liệu của mình để tìm ra mod đồ tốt nhất nha nếu bạn thấy clip này hay thì cho mình một like và đăng ký Kênh Để ủng hộ m nhá Còn bây giờ thì tạm biệt các bạn bye bye".