Google Keynote (Google I/O ‘24)

Tóm tắt video "Google Keynote (Google I/O ‘24)"

Tóm tắt ngắn:

Video giới thiệu về Google Gemini, một mô hình AI thế hệ mới của Google, với khả năng đa phương thức và ngữ cảnh dài, mở ra kỷ nguyên mới cho AI.
Gemini được ứng dụng trong nhiều sản phẩm của Google như Search, Photos, Workspace, Android, và giúp tạo ra các trải nghiệm mới cho người dùng.
Gemini cũng được sử dụng để xây dựng các AI agent thông minh, có khả năng suy luận, lập kế hoạch và ghi nhớ, giúp người dùng hoàn thành các nhiệm vụ phức tạp.
Google cũng giới thiệu các công cụ sáng tạo AI mới như Imagen 3, Veo, và LearnLM, giúp người dùng tạo ra hình ảnh, video và nội dung học tập một cách dễ dàng.
Google nhấn mạnh tầm quan trọng của việc phát triển AI một cách có trách nhiệm, bao gồm việc giảm thiểu rủi ro và tối đa hóa lợi ích cho xã hội.

Tóm tắt chi tiết:

Phần 1: Giới thiệu Google Gemini

Sundar Pichai, CEO của Google, mở đầu bài thuyết trình bằng việc giới thiệu Google Gemini, một mô hình AI thế hệ mới của Google, được xây dựng để đa phương thức (multimodal) từ đầu, có khả năng xử lý văn bản, hình ảnh, video, mã code và nhiều loại dữ liệu khác.
Gemini được xem là một bước tiến lớn trong việc chuyển đổi bất kỳ đầu vào nào thành bất kỳ đầu ra nào.
Google đã giới thiệu các phiên bản đầu tiên của Gemini, đạt hiệu suất cao nhất trên mọi điểm chuẩn đa phương thức.
Gemini 1.5 Pro, được giới thiệu hai tháng sau, đạt bước đột phá về ngữ cảnh dài (long context), có thể xử lý 1 triệu token trong sản xuất, vượt trội hơn bất kỳ mô hình nền tảng quy mô lớn nào khác.
Hiện tại, hơn 1,5 triệu nhà phát triển đang sử dụng các mô hình Gemini trên các công cụ của Google.
Google cũng tích hợp Gemini vào các sản phẩm của mình, bao gồm Search, Photos, Workspace, Android và nhiều sản phẩm khác.

Phần 2: Ứng dụng Google Gemini trong Google Search

Google đã ứng dụng Gemini vào Google Search để tạo ra trải nghiệm tìm kiếm mạnh mẽ hơn, bao gồm cả việc tìm kiếm bằng hình ảnh.
Google Search Generative Experience đã trả lời hàng tỷ truy vấn trong năm qua, cho phép người dùng tìm kiếm theo những cách hoàn toàn mới.
Google đang triển khai AI Overviews, một tính năng mới trong Google Search, cung cấp tổng quan về các thông tin liên quan đến truy vấn của người dùng.
AI Overviews sẽ được triển khai cho tất cả người dùng tại Hoa Kỳ trong tuần này và sẽ được triển khai cho nhiều quốc gia khác trong thời gian tới.

Phần 3: Ứng dụng Google Gemini trong Google Photos

Google Photos, được ra mắt gần chín năm trước, đã cho phép người dùng tổ chức những kỷ niệm quan trọng của họ.
Với Gemini, Google Photos cho phép người dùng tìm kiếm kỷ niệm của họ một cách dễ dàng hơn.
Tính năng Ask Photos cho phép người dùng đặt câu hỏi về những kỷ niệm của họ, chẳng hạn như "Khi nào Lucia học bơi?" hoặc "Cho tôi xem sự tiến bộ của Lucia trong việc bơi lội".
Gemini có thể nhận biết các ngữ cảnh khác nhau, chẳng hạn như Lucia bơi trong hồ bơi, lặn biển, hoặc chứng chỉ bơi lội của cô ấy.
Ask Photos sẽ được triển khai vào mùa hè này, với nhiều tính năng hơn nữa.

Phần 4: Khả năng đa phương thức và ngữ cảnh dài của Google Gemini

Google đã xây dựng Gemini để đa phương thức từ đầu, cho phép nó hiểu và kết nối các loại đầu vào khác nhau.
Khả năng đa phương thức mở rộng phạm vi câu hỏi mà người dùng có thể đặt và các câu trả lời mà họ nhận được.
Ngữ cảnh dài cho phép Gemini xử lý nhiều thông tin hơn, chẳng hạn như hàng trăm trang văn bản, hàng giờ âm thanh, một giờ video hoặc toàn bộ kho lưu trữ mã.
Gemini 1.5 Pro có thể xử lý 1 triệu token, cho phép người dùng sử dụng nó cho nhiều mục đích thú vị, chẳng hạn như phân tích mã, tìm kiếm thông tin trong các tài liệu nghiên cứu, hoặc tạo cơ sở dữ liệu có thể tìm kiếm từ video.

Phần 5: Ứng dụng Google Gemini trong Google Workspace

Google đang tích hợp Gemini vào Google Workspace để tạo ra trải nghiệm làm việc hiệu quả hơn.
Gemini có thể tóm tắt các email liên quan, phân tích các tệp đính kèm, tạo bản tóm tắt các cuộc họp, và soạn thảo email phản hồi.
Gemini 1.5 Pro hiện có sẵn trong Workspace Labs.

Phần 6: Google Gemini trong NotebookLM

Google đã tích hợp Gemini 1.5 Pro vào NotebookLM, một công cụ nghiên cứu và viết dựa trên thông tin được cung cấp.
NotebookLM có thể tạo ra các bản tóm tắt, hướng dẫn học tập, câu hỏi thường gặp, và các bài kiểm tra dựa trên các tài liệu được cung cấp.
Tính năng Audio Overviews cho phép NotebookLM tạo ra các cuộc thảo luận âm thanh dựa trên các tài liệu được cung cấp.
Audio Overviews có thể được cá nhân hóa cho từng người dùng và cho phép họ tham gia vào cuộc thảo luận.

Phần 7: AI agent của Google Gemini

Google đang phát triển các AI agent thông minh, có khả năng suy luận, lập kế hoạch và ghi nhớ, giúp người dùng hoàn thành các nhiệm vụ phức tạp.
Các AI agent có thể được sử dụng để mua sắm, di chuyển, tìm kiếm dịch vụ, và nhiều mục đích khác.
Google đang nỗ lực để đảm bảo rằng các AI agent được phát triển một cách riêng tư, an toàn và phù hợp với mọi người.

Phần 8: Google DeepMind và Project Astra

Demis Hassabis, CEO của Google DeepMind, giới thiệu về Google DeepMind, một đơn vị kết hợp các tài năng AI từ khắp Google.
Google DeepMind đã phát triển các hệ thống AI có thể thực hiện nhiều nhiệm vụ khác nhau, bao gồm điều khiển robot, giải quyết các vấn đề toán học, và khám phá các vật liệu mới.
Google DeepMind cũng giới thiệu AlphaFold, một mô hình có thể dự đoán cấu trúc và tương tác của hầu hết các phân tử trong đời sống.
Google DeepMind đang phát triển các mô hình Gemini đa phương thức, bao gồm Gemini 1.5 Pro và Gemini 1.5 Flash.
Google DeepMind cũng giới thiệu Project Astra, một dự án nhằm phát triển các AI agent có thể tương tác với thế giới thực một cách tự nhiên.
Các AI agent trong Project Astra có khả năng xử lý thông tin nhanh hơn, ghi nhớ thông tin hiệu quả hơn, và phản hồi một cách tự nhiên hơn.

Phần 9: Các công cụ sáng tạo AI của Google

Google giới thiệu các cập nhật mới cho các công cụ sáng tạo AI của mình, bao gồm Imagen 3, Music AI Sandbox, và Veo.
Imagen 3 là mô hình tạo ảnh thực tế nhất của Google, có thể tạo ra các hình ảnh với chi tiết phong phú và ít nhiễu hơn.
Music AI Sandbox là một bộ công cụ AI âm nhạc chuyên nghiệp, cho phép người dùng tạo ra các phần nhạc cụ mới, chuyển đổi phong cách giữa các bản nhạc, và nhiều hơn nữa.
Veo là mô hình tạo video mới nhất của Google, có thể tạo ra các video chất lượng cao 1080p từ văn bản, hình ảnh và video.

Phần 10: Cơ sở hạ tầng AI của Google

Google đã đầu tư vào cơ sở hạ tầng kỹ thuật đẳng cấp thế giới trong 25 năm qua, bao gồm các đơn vị xử lý tensor (TPU) được tùy chỉnh để hỗ trợ các tiến bộ AI của mình.
Google đã giới thiệu TPU thế hệ thứ sáu, được gọi là Trillium, cung cấp hiệu suất tính toán cao hơn 4,7 lần so với thế hệ trước.
Google cũng cung cấp CPU và GPU để hỗ trợ mọi khối lượng công việc, bao gồm cả bộ xử lý Axion mới, CPU tùy chỉnh đầu tiên của Google với hiệu suất và hiệu quả năng lượng hàng đầu ngành.
Google cũng là một trong những nhà cung cấp dịch vụ đám mây đầu tiên cung cấp GPU Blackwell thế hệ mới của Nvidia.
Google đã kết hợp các thành phần phần cứng và phần mềm để tạo ra AI Hypercomputer, một kiến trúc siêu máy tính đột phá.
Google cũng đã đầu tư vào hệ thống làm mát bằng chất lỏng trong các trung tâm dữ liệu của mình, giúp tăng hiệu quả năng lượng.
Google có mạng lưới kết nối cơ sở hạ tầng của mình trên toàn cầu, với hơn 2 triệu dặm cáp quang trên cạn và dưới biển.

Phần 11: Google Search trong kỷ nguyên Gemini

Google Search đã trải qua nhiều bước chuyển đổi, từ việc tìm kiếm trên máy tính để bàn đến tìm kiếm trên thiết bị di động.
Google Search hiện đang được hỗ trợ bởi Gemini, cho phép nó cung cấp các trải nghiệm tìm kiếm mạnh mẽ hơn, bao gồm cả việc tìm kiếm bằng giọng nói, hình ảnh và video.
Google Search đang được phát triển để trở thành một công cụ tìm kiếm thông minh hơn, có thể thực hiện các nhiệm vụ phức tạp, chẳng hạn như lập kế hoạch, soạn thảo email, và tạo ra các bản tóm tắt.

Phần 12: Google Workspace trong kỷ nguyên Gemini

Google đang tích hợp Gemini vào Google Workspace để tạo ra trải nghiệm làm việc hiệu quả hơn.
Gemini có thể giúp người dùng tóm tắt email, soạn thảo email phản hồi, tổ chức các tệp đính kèm, và phân tích dữ liệu.
Google đang phát triển các AI agent ảo, có thể được cấu hình để hỗ trợ các doanh nghiệp trong các nhiệm vụ khác nhau.

Phần 13: Ứng dụng Google Gemini trên Android

Google đang tích hợp Gemini vào Android để tạo ra trải nghiệm điện thoại thông minh thông minh hơn.
Circle to Search cho phép người dùng tìm kiếm thông tin trực tiếp từ màn hình điện thoại của họ, mà không cần phải chuyển đổi ứng dụng.
Gemini trên Android có thể dự đoán những gì người dùng muốn làm và cung cấp các đề xuất hữu ích.
Gemini Nano, một mô hình AI được tích hợp trực tiếp vào Android, cho phép điện thoại thông minh hiểu thế giới theo cách mà con người hiểu.
Gemini Nano có thể được sử dụng để cung cấp các mô tả hình ảnh cho người khiếm thị, phát hiện các cuộc gọi lừa đảo, và cung cấp các đề xuất dựa trên ngữ cảnh.

Phần 14: Google Gemini cho nhà phát triển

Google đã giới thiệu Gemini 1.5 Pro và Gemini 1.5 Flash, hai mô hình AI có sẵn cho nhà phát triển.
Gemini 1.5 Pro được thiết kế cho các nhiệm vụ phức tạp, trong khi Gemini 1.5 Flash được thiết kế cho các nhiệm vụ nhanh chóng.
Google cũng giới thiệu Gemma, một bộ mô hình AI mã nguồn mở, được xây dựng dựa trên cùng công nghệ với Gemini.
Gemma có sẵn trong các kích thước 7b và 2b, và được tối ưu hóa cho các nhiệm vụ khác nhau, chẳng hạn như tạo chú thích hình ảnh, trả lời câu hỏi dựa trên hình ảnh, và phân loại hình ảnh.
Google cũng giới thiệu Gemma 2, thế hệ tiếp theo của Gemma, với mô hình 27 tỷ tham số mới.

Phần 15: AI có trách nhiệm

Google nhấn mạnh tầm quan trọng của việc phát triển AI một cách có trách nhiệm, bao gồm việc giảm thiểu rủi ro và tối đa hóa lợi ích cho xã hội.
Google đang sử dụng các kỹ thuật red-teaming để kiểm tra và cải thiện các mô hình AI của mình.
Google đang phát triển các mô hình AI có khả năng chống lại các cuộc tấn công đối kháng và hạn chế các đầu ra có vấn đề.
Google đang hợp tác với các chuyên gia độc lập để xác định các rủi ro tiềm ẩn và phát triển các công cụ để ngăn chặn việc sử dụng sai các mô hình AI.
Google đang mở rộng SynthID, một công cụ thêm dấu nước không thể nhìn thấy vào các hình ảnh và video do AI tạo ra, để giúp xác định các nội dung giả mạo.
Google đang hợp tác với các tổ chức khác để phát triển các tiêu chuẩn cho việc tạo nội dung kỹ thuật số minh bạch.

Phần 16: AI cho giáo dục

Google giới thiệu LearnLM, một bộ mô hình AI mới được thiết kế để hỗ trợ việc học tập.
LearnLM được tích hợp vào các sản phẩm của Google, bao gồm Search, Android, Gemini và YouTube.
LearnLM có thể được sử dụng để cung cấp hướng dẫn học tập cá nhân hóa, thực hành bài tập, và kỹ thuật ghi nhớ.
Google đang hợp tác với các chuyên gia giáo dục để phát triển các công cụ AI hữu ích hơn cho việc học tập.

Kết luận:

Google đã giới thiệu một loạt các tiến bộ AI mới, bao gồm Google Gemini, các công cụ sáng tạo AI, và các AI agent thông minh.
Google cũng nhấn mạnh tầm quan trọng của việc phát triển AI một cách có trách nhiệm và sử dụng AI để mang lại lợi ích cho xã hội.
Google đang hợp tác với các nhà phát triển, các tổ chức giáo dục và các chuyên gia độc lập để thúc đẩy sự phát triển của AI.
Google tin tưởng rằng AI có tiềm năng to lớn để thay đổi thế giới và giúp mọi người sống tốt đẹp hơn.