AI đột phá cho phép robot nhảy múa chỉ bằng lệnh văn bản

0:00 / 0:00
0:00
(PLVN) - Hãy tưởng tượng bạn chỉ cần gõ dòng chữ “lùi một bước và nhảy lên”, ngay lập tức một con robot hoặc nhân vật số hóa sẽ thực hiện hành động đó – không cần viết mã, không cần huấn luyện đặc biệt. Đó không còn là viễn tưởng mà đã trở thành hiện thực nhờ MotionGlot – mô hình AI mới đầy đột phá từ Đại học Brown (Mỹ).
AI đột phá cho phép robot nhảy múa chỉ bằng lệnh văn bản. (Ảnh: Istock)
AI đột phá cho phép robot nhảy múa chỉ bằng lệnh văn bản. (Ảnh: Istock)

MotionGlot không đơn thuần là khiến robot chuyển động, mà còn giúp robot hiểu và hành động đúng như con người mong muốn, bất kể hình dạng cơ thể của robot là gì – từ robot hình người đến robot bốn chân giống chó. Đây là một bước tiến lớn trong trí tuệ nhân tạo, bởi trước đây, việc chuyển đổi lệnh văn bản thành chuyển động phù hợp với từng loại cơ thể robot vẫn là một thách thức lớn với các mô hình AI.

MotionGlot được phát triển dựa trên nguyên lý giống như ChatGPT: chia nhỏ thông tin đầu vào thành các “token” (mảnh thông tin nhỏ), rồi dự đoán phần tiếp theo dựa trên mẫu dữ liệu đã học. Nhưng thay vì dự đoán từ tiếp theo trong câu, MotionGlot dự đoán động tác tiếp theo trong chuỗi chuyển động.

Nhóm nghiên cứu đã "token hóa" chuyển động – tức là chia chuyển động thành những bước nhỏ như nhấc chân, chuyển trọng tâm, hạ chân xuống…, từ đó mô hình có thể sắp xếp các bước lại thành một hành động mượt mà, tự nhiên. Điểm đột phá của MotionGlot nằm ở khả năng học từ nhiều dạng cơ thể khác nhau.

Cụ thể, nhóm đã huấn luyện AI này bằng hai bộ dữ liệu chính: QUAD-LOCO – gồm chuyển động của robot bốn chân thực hiện nhiều nhiệm vụ, và QUES-CAP – gồm các hành động của con người kèm mô tả văn bản phong phú. Nhờ đó, MotionGlot hiểu rằng "đi bộ" của người và của robot bốn chân trông khác nhau, nhưng vẫn cùng một ý nghĩa.

Từ đó, AI có thể xử lý những câu lệnh như “bước tới rồi rẽ trái” và áp dụng linh hoạt cho cả hình thể người lẫn robot – với chuyển động tự nhiên phù hợp từng loại. Thậm chí, mô hình còn tạo ra những động tác mang tính cảm xúc như “đi một cách vui vẻ” hay “tập cardio” với sự khác biệt rõ ràng về sắc thái và tiết tấu.

Công nghệ này mang lại nhiều triển vọng thực tế. Trong tương lai gần, các robot dịch vụ, y tế hoặc hỗ trợ tại nhà có thể hiểu và làm theo chỉ dẫn ngôn ngữ tự nhiên từ con người, giảm bớt rào cản kỹ thuật trong tương tác người - máy.

Trong lĩnh vực trò chơi điện tử và hoạt hình, các nhà phát triển có thể tiết kiệm đáng kể thời gian tạo chuyển động nhân vật chỉ bằng cách gõ mô tả hành động. Người dùng thực tế ảo cũng sẽ được trải nghiệm các nhân vật ảo chuyển động mượt mà, sát thực hơn bao giờ hết.

Tuy nhiên, MotionGlot vẫn còn hạn chế. Mô hình hiện mới được thử nghiệm trong môi trường dữ liệu có kiểm soát. Để mở rộng và áp dụng trong môi trường thực tế đa dạng hơn, nhóm nghiên cứu cho biết cần thêm khối lượng dữ liệu huấn luyện quy mô lớn hơn.

“Những mô hình AI như thế này chỉ phát huy tối đa khi được huấn luyện với dữ liệu khổng lồ. Nếu thu thập được nhiều dữ liệu chuyển động hơn, MotionGlot hoàn toàn có thể được mở rộng và cải tiến hơn nữa” – giáo sư Srinath Sridhar từ Đại học Brown chia sẻ.

Một tin vui cho giới công nghệ là nhóm nghiên cứu đang có kế hoạch công khai mã nguồn và mô hình MotionGlot, giúp các nhà phát triển, chuyên gia AI và cộng đồng có thể cùng thử nghiệm, cải tiến và mở rộng ứng dụng của mô hình này.

Đọc thêm