Nhật Minh (Vietnamnet) đã đăng lúc 14:23 - 31.07.2023
Theo đó, Viettel bắt đầu thực hiện sản phẩm này trong năm nay và sẽ phải đảm bảo chủ động bố trí nhân lực và các nguồn lực của mình đúng theo các quy định pháp luật hiện hành.
Cụ thể hơn khi triển khai nhiệm vụ này, mục tiêu chung hướng đến nhằm xây dựng, hình thành, sử dụng bộ dữ liệu chung bằng ngôn ngữ tiếng Việt có chất lượng tốt, độ phủ rộng để phục vụ huấn luyện khả năng giao tiếp nhuần nhuyễn cho mô hình ngôn ngữ lớn tiếng Việt.
Yêu cầu sản phẩm khi tạo ra, sử dụng như nền tảng dịch vụ mô hình ngôn ngữ lớn tiếng Việt với các thành phần cơ bản bao gồm: Công cụ phục vụ thu thập, xử lý, dán nhãn dữ liệu và các giao diện lập trình ứng dụng (API) phục vụ phát triển trợ lý ảo.
Đặc biệt, sản phẩm trở thành công cụ trợ lý ảo phiên bản cơ bản dành cho cán bộ, công chức (CBCC) Nhà nước và ứng dụng Trợ lý ảo phiên bản dành cho Bộ Thông tin và Truyền thông (Bộ TT&TT).
Không chỉ hướng đến những giá trị, tính năng cơ bản trên, văn bản còn yêu cầu kết quả nghiên cứu, thử nghiệm cần đạt được: Có mô hình xác suất có khả năng hiểu và sinh ngôn ngữ tự nhiên (LLM) để hỗ trợ tiếng Việt được huấn luyện hỗ trợ độ dài ngữ cảnh (context length) 4096 token; dịch vụ LLM hỗ trợ tiếng Việt truy cập thông qua API, bao gồm mô hình và hạ tầng tính toán, có thể truy cập từ các tổ chức và doanh nghiệp trong nước.
Hơn nữa, yêu cầu đối với dịch vụ LLM cần đảm bảo cung cấp đầy đủ các API phổ biến gồm: API embedding: dùng để mã hóa văn bản tiếng Việt thành vector; API text completion dùng để hoàn thiện văn bản từ lời dẫn; API fine-tune dùng để DNN tự tinh chỉnh model mới trên model gốc với dữ liệu riêng của doanh nghiệp.
Bên cạnh những yêu cầu chung nêu trên, Bộ TT&TT cũng yêu cầu yêu riêng đối với Nền tảng Trợ lý ảo cho CBCC cần đáp ứng các yêu cầu cơ bản: Cho phép CBCC tự bổ sung dữ liệu riêng, cá nhân hoá trên trợ lý ảo thông qua nền tảng mà không cần tới nhân sự kĩ thuật; có kết nối dữ liệu đào tạo tới các cổng dữ liệu lớn của Chính phủ: cổng dữ liệu văn bản hành chính, cổng dữ liệu mua sắm công, cổng dữ liệu công dân…; có kết nối với dữ liệu đào tạo với máy tìm kiếm của doanh nghiệp trong nước để cung cấp thông tin từ Internet (có qua kiểm duyệt); có thể sử dụng trên website và mobile.
Trợ lý ảo cũng có hỗ trợ giao diện điều khiển bằng giọng nói tiếng Việt; có thể tích hợp dễ dàng vào website, Zalo OA…các kênh ứng dụng OTT phổ biến khác tại Việt Nam.
Cũng cụ thể yêu cầu cần đạt được như nền tảng, đối với bộ công cụ chuẩn bị dữ liệu huấn luyện Trợ lý ảo cần đảm bảo: Có thể nhập dữ liệu văn bản để huấn luyện; có thể bóc nội dung tiếng Việt từ file hình ảnh/file scan có chứa tiếng Việt; tự động bóc băng nội dung tiếng Việt từ file ghi âm cuộc họp, file video báo chí, truyền thông…để đưa vào huấn luyện; tích hợp tự động để lấy dữ liệu từ các bộ công cụ làm việc phổ biến tại Việt Nam.
Để triển khai hiệu quả những yêu cầu, nội dung nêu trên, Bộ TT&TT thành lập Tổ công tác triển khai việc nghiên cứu, thử nghiệm Phát triển Mô hình ngôn ngữ lớn tiếng Việt và trợ lý ảo cho CBCC tại Bộ TT&TT, đặt dưới sự chỉ đạo chung của Bộ trưởng.
Đặc biệt, định kỳ hàng tuần, tổ công tác của Bộ TT&TT và tổ công tác của Viettel họp để trao đổi, thảo luận, giải quyết các khó khăn, vướng mắc, cập nhật tiến độ và thống nhất hành động. Định kỳ hàng tháng, Bộ trưởng Nguyễn Mạnh Hùng sẽ chủ trì họp nghe báo cáo về tiến độ triển khai và giải quyết khó khăn, vướng mắc.
Nhiệm vụ này cũng yêu cầu Cục Chuyển đổi số quốc gia phối hợp với Trung tâm Không gian mạng Viettel xây dựng kế hoạch triển khai cụ thể, đồng thời, chủ trì, phối hợp với các đơn vị liên quan triển khai thực hiện các bước tiếp theo đúng quy định hiện hành. Còn lại, đối với các đơn vị khác trực thuộc Bộ có trách nhiệm phối hợp thực hiện xây dựng dữ liệu, triển khai sử dụng, đánh giá, nhận xét hoàn thiện sản phẩm.
Trung tâm Không gian mạng Viettel đã phát triển và đưa vào sử dụng nền tảng trợ lý ảo tiếng Việt - Viettel Cyberbot nhằm hỗ trợ các doanh nghiệp xây dựng hệ thống tổng đài tự động chăm sóc khách hàng thông qua tương tác bằng cuộc gọi và tin nhắn từ nhiều năm nay.