Link to original video by Joma Tech
What REALLY is Data Science? Told by a Data Scientist

Tóm tắt video "Data Science là gì? Kể bởi một Data Scientist"
Tóm tắt ngắn:
- Video giải thích khái niệm Data Science không chỉ là tạo mô hình phức tạp, trực quan hóa dữ liệu hay viết code, mà là sử dụng dữ liệu để tạo ra tác động tích cực nhất cho công ty.
- Video đề cập đến các công cụ như mô hình phức tạp, trực quan hóa dữ liệu và code là những công cụ cần thiết để đạt được mục tiêu này.
- Video phân tích sự khác biệt giữa cách Data Science được hiểu trong công chúng và trong ngành công nghiệp, đồng thời nhấn mạnh vai trò của Data Science trong việc giải quyết các vấn đề thực tế của công ty.
- Video mô tả sự phát triển của Data Science từ Data Mining, Big Data và Machine Learning, đồng thời giải thích vai trò của các công nghệ như MapReduce, Hadoop, Spark và Deep Learning.
- Video cung cấp ví dụ thực tế về các công việc Data Science trong Thung lũng Silicon và phân tích nhu cầu của Data Science theo từng loại hình công ty.
Tóm tắt chi tiết:
Phần 1: Định nghĩa Data Science
- Data Science không chỉ là tạo mô hình phức tạp, trực quan hóa dữ liệu hay viết code, mà là sử dụng dữ liệu để tạo ra tác động tích cực nhất cho công ty.
- Tác động có thể là các insights, sản phẩm dữ liệu hoặc đề xuất sản phẩm.
- Các công cụ như mô hình phức tạp, trực quan hóa dữ liệu và code là những công cụ cần thiết để đạt được mục tiêu này.
- "Data Science là về việc sử dụng dữ liệu để tạo ra tác động tích cực nhất có thể cho công ty của bạn."
Phần 2: Sự phát triển của Data Science
- Data Science được phát triển từ Data Mining, một thuật ngữ được phổ biến trong bài báo "From Data Mining to Knowledge Discovery in Databases" năm 1996.
- William S. Cleveland đã nâng Data Mining lên một tầm cao mới bằng cách kết hợp khoa học máy tính với Data Mining, tạo ra Data Science vào năm 2001.
- Sự xuất hiện của Web 2.0 với các trang web như MySpace, Facebook và YouTube đã tạo ra một lượng lớn dữ liệu, dẫn đến sự ra đời của Big Data.
- Big Data đòi hỏi các công nghệ xử lý dữ liệu song song như MapReduce, Hadoop và Spark.
- "Sự gia tăng của Big Data vào năm 2010 đã thúc đẩy sự phát triển của Data Science để đáp ứng nhu cầu của các doanh nghiệp trong việc khai thác thông tin từ các tập dữ liệu phi cấu trúc khổng lồ."
Phần 3: Sự hiểu nhầm về Data Science
- Công chúng thường hiểu Data Science là nghiên cứu tập trung vào Machine Learning và AI, trong khi ngành công nghiệp lại tuyển dụng Data Scientist với vai trò là nhà phân tích.
- Sự khác biệt này là do các công ty lớn như Google, Facebook, Netflix có nhiều cơ hội để cải thiện sản phẩm mà không cần đến các kỹ thuật Machine Learning hay thống kê phức tạp.
- "Hầu hết các Data Scientist có thể làm việc trên các vấn đề kỹ thuật hơn, nhưng các công ty lớn như Google, Facebook, Netflix có rất nhiều cơ hội dễ dàng để cải thiện sản phẩm mà họ không cần bất kỳ kỹ thuật Machine Learning hay thống kê nâng cao nào để tìm ra những tác động này trong phân tích của họ."
Phần 4: Các công việc Data Science trong Thung lũng Silicon
- Video giới thiệu một biểu đồ mô tả nhu cầu của Data Science theo từng loại hình công ty.
- Nhu cầu về Data Science được chia thành 4 cấp độ: thu thập, xử lý, phân tích và AI/Deep Learning.
- Thu thập và xử lý dữ liệu thường được thực hiện bởi các kỹ sư phần mềm và kỹ sư dữ liệu.
- Phân tích dữ liệu là một trong những nhiệm vụ quan trọng nhất của Data Scientist, bao gồm việc khai thác insights, theo dõi metrics và thực hiện A/B testing.
- AI/Deep Learning là cấp độ cao nhất, thường được thực hiện bởi các nhà khoa học nghiên cứu hoặc các kỹ sư Machine Learning.
- "Phân tích, metrics và A/B testing thực sự rất quan trọng, nhưng chúng không được truyền thông nhiều. AI, Deep Learning lại được truyền thông rất nhiều, nhưng khi bạn nghĩ về nó cho một công ty, cho ngành công nghiệp, nó thực sự không phải là ưu tiên hàng đầu hoặc ít nhất là không phải là thứ mang lại kết quả nhiều nhất với ít nỗ lực nhất."
Phần 5: Vai trò của Data Scientist theo từng loại hình công ty
- Các công ty khởi nghiệp thường chỉ có một Data Scientist, người phải đảm nhận tất cả các nhiệm vụ từ thu thập dữ liệu đến phân tích và AI/Deep Learning.
- Các công ty vừa và nhỏ có thể phân chia nhiệm vụ cho các kỹ sư dữ liệu và Data Scientist.
- Các công ty lớn có thể phân chia nhiệm vụ cho nhiều chuyên gia khác nhau, cho phép mỗi người tập trung vào lĩnh vực chuyên môn của mình.
- "Trong một công ty lớn, tôi sẽ làm việc trong lĩnh vực phân tích, vì vậy tôi có thể tập trung vào công việc phân tích và metrics. Tôi không cần phải lo lắng về kỹ thuật dữ liệu hoặc AI/Deep Learning."
Kết luận:
- Data Science là một lĩnh vực đa dạng, với các vai trò và nhiệm vụ khác nhau tùy thuộc vào loại hình công ty.
- Video khuyến khích người xem đặt câu hỏi và chia sẻ quan điểm về các chủ đề liên quan đến Data Science.
- "Data Science có thể là tất cả những điều này và nó phụ thuộc vào công ty bạn đang làm việc. Định nghĩa sẽ thay đổi."