Anh Kiệt (Ban Thương hiệu & Truyền thông) đã đăng lúc 09:30 - 22.11.2024
Nhu cầu trích xuất cấu trúc bảng biểu ngày càng tăng cao, đặc biệt với khối ngành cần xử lý lượng thông tin đồ sộ như ngân hàng, bảo hiểm. Tuy nhiên, công nghệ trên thế giới chưa thực sự đáp ứng nhu cầu xử lý thông tin nhanh, đảm bảo chính xác cao.
Gần đây, Viettel AI đã khiến giới nghiên cứu bất ngờ khi trình làng giải pháp xử lý bảng biểu nhanh hơn gấp 4 lần các công nghệ hiện tại. Thành quả này có được chính nhờ mục tiêu khó tin là một sản phẩm vượt trội thế giới, và nhờ các kỹ sư Viettel AI dám thử, dám thất bại và rút ra bài học từ chính những lần thử sai ấy.
Thực tiễn thúc đẩy sáng tạo
Tại Hội nghị ECAI 2024 về trí tuệ nhân tạo diễn ra tại Tây Ban Nha vào cuối tháng 10, Viettel AI đã giới thiệu giải pháp trích xuất thông tin từ bảng biểu với tốc độ "nhanh gấp bốn lần" so với các công nghệ hiện hành bằng việc rút ngắn 2 giai đoạn còn 1 giai đoạn.
Từ trước tới nay, công nghệ về trích xuất thông tin từ bảng biểu thường tiến hành theo hai giai đoạn riêng. Giai đoạn đầu chịu trách nhiệm phát hiện các ô có trong bảng mà chưa cần quan tâm đến ô gộp. Giai đoạn sau sẽ tiến hành tái tạo lại các ô gộp để hoàn thiện cấu trúc bảng. Trong khi đó, giải pháp mới của Viettel AI cho phép phát hiện tất cả ô trong bảng mà không cần chia giai đoạn để tái cấu trúc bảng biểu từ hình ảnh theo thời gian thực.
Thực tế, từ năm ngoái, nhóm nghiên cứu của Viettel AI đã chú ý đến việc tốc độ của phương pháp trích xuất hai giai đoạn thông thường khá chậm, nhiều khách hàng phàn nàn. Khi tìm hiểu các giải pháp của những đơn vị khác cũng như thế giới, khách hàng nhận ra dịch vụ các bên cung cấp hầu như giống nhau về cả tốc độ lẫn sự chính xác. Do đó, họ cũng chẳng biết làm gì với một vấn đề cả thế giới đang đối mặt như nhau.
Với riêng Viettel AI, dù nhận ra vấn đề, việc cân bằng giữa nghiên cứu và phát triển sản phẩm trong bối cảnh nguồn lực hạn chế cũng gây ra nhiều khó khăn. Các nhà nghiên cứu không có đủ thời gian tập trung toàn bộ vào nghiên cứu vì đồng thời xử lý nhiều dự án.
Tuy nhiên, những kỹ sư của Viettel AI vẫn luôn thấy việc sản phẩm chưa đáp ứng đủ nhu cầu thực tế như “cái gai trong lòng”. Kỹ sư trí tuệ nhân tạo Nguyễn Nam Quân nói các công trình nghiên cứu đều cần đáp ứng nhu cầu của thực tiễn. Khi khách hàng thực sự cần một sản phẩm tốt hơn, các thành viên của Viettel AI không thể chấp nhận ngồi yên, hài lòng với những gì đang có chỉ vì “cả thế giới ai cũng như nhau”.
Bước ngoặt lớn đến vào tháng 4 khi Công ty bảo hiểm BIC là đơn vị đầu tiên gửi yêu cầu chính thức Viettel, trong đó yêu cầu tốc độ xử lý nhanh hơn. Các bảng biểu đơn vị này sử dụng hầu hết là những bảng kê khám chữa bệnh với đặc điểm dài, nhiều chi tiết. Trình trích xuất dữ liệu 2 giai đoạn sẵn có dùng vẫn được nhưng chậm, ảnh hưởng đến tiến độ công việc của khách hàng. BIC yêu cầu tháng 9 phải có kết quả nghiệm thu, buộc ViettelAI phải đối mặt với bài toán hiện thế giới cũng chưa có lời giải.
“Đó là thử thách khó khăn nhưng chúng tôi không ở thế bị động vì đã suy nghĩ rất nhiều về vấn đề này từ cuối năm ngoái và thử nghiệm một số giải pháp từ đầu năm nay”, anh Trần Tuấn Anh, Chuyên viên chính Trí tuệ nhân tạo, đồng thời là chủ nhiệm đề tài của ViettelAI ở ECAI 2024, nói.
Học từ chính những thất bại
Theo anh Tuấn Anh, thành công của nghiên cứu không giống như xây một ngôi nhà có từng công đoạn rõ ràng. Phương pháp 2 giai đoạn vẫn phổ biến và ViettelAI đang bước vào con đường chưa có người đi, không gì đảm bảo hướng nghiên cứu của nhóm là đúng. Thứ duy nhất họ có là niềm tin vào khả năng của bản thân và nỗ lực để đáp ứng nhu cầu thực tế từ khách hàng đặt ra.
Họ đã thử rất nhiều lần và nhận thất bại liên tục từ đầu năm. Vấn đề lớn nhất là nhóm tập trung quá nhiều vào cải thiện tốc độ khiến độ chính xác giảm, đặc biệt với các bảng “khó” như bị cong, vênh.
Kỹ sư Nam Quân nói bản thân đã có những nghiên cứu sơ khai về bài toán này trước nhưng chưa hoàn thiện. Trong quá trình được ViettelAI giao nghiên cứu, Quân nhận ra công nghệ nhận diện vật thể (Object Detection) truyền thống hiện được đổi mới từ hai giai đoạn xuống một giai đoạn, qua đó rút ngắn thời gian xử lý. Đây là tiền đề gợi mở cho công nghệ trích xuất bảng biểu ViettelAI trình bày tại ECAI 2024.
Bên cạnh vấn đề về kỹ thuật, cách làm và hoạt động nhóm của ViettelAI cũng góp phần đem lại thành công. Trưởng nhóm Tuấn Anh nhấn mạnh nghiên cứu là thành quả của cả nhóm, không phải một người. Thông qua việc liên tục báo cáo, phản biện, các sáng kiến được cải thiện không ngừng, giúp nghiên cứu tiến nhanh hơn, mở rộng kiến thức và chọn ra giải pháp tối ưu.
Trong quá trình nghiên cứu, nhóm không chờ hoàn thiện mới đem đánh giá kết quả. Thay vào đó, ở từng giai đoạn nhỏ, nghiên cứu liên tục được kiểm tra để đảm bảo chất lượng từng bước, cải tiến từng chi tiết nhỏ nhất như gán nhãn dữ liệu. Sự đồng bộ và liên tục này chỉ có được nhờ sức mạnh nghiên cứu tập thể.
Tới tháng 9, sản phẩm được đem cho BIC nghiệm thu và đem trình bày ở ECAI 2024 một tháng sau đó. Hiện tại, ViettelAI đã thay thế toàn bộ sản phẩm sử dụng phương pháp 2 giai đoạn cũ thành sản phẩm mới, nhận được đánh giá cao từ khách hàng. Anh Tuấn Anh cho biết ban thẩm định gồm 3 người ở ECAI cũng đều hài lòng với phần trình bày của nhóm, cho thấy giải pháp có tính áp dụng thực tiễn cao.
Độ chính xác của sản phẩm mới lên tới 90% với khả năng nhận diện nhiều loại bảng khó như giấy bị cong, vênh, bảng không tách viền… So với sản phẩm cũ, độ chính xác xấp xỉ nhưng tốc độ nhanh hơn tới 4 lần, vượt mặt các đối thủ khác trên thế giới. Bên cạnh các khách hàng gồm ngân hàng, công ty bảo hiểm, anh Tuấn Anh nghĩ giải pháp mới của ViettelAI còn hữu dụng nếu áp dụng vào đời sống thường nhật, nhất là trong lĩnh vực dịch vụ công.
Ví dụ, công nghệ có thể hỗ trợ trích xuất thông tin từ các bảng biểu trên trang dịch vụ công nhanh, chính xác hơn. Lúc trước, người dân phải tải tài liệu lên rồi chờ, nếu sai, cán bộ hành chính sẽ phản hồi. Tuy nhiên, khi công nghệ này được áp dụng, người dân chỉ cần khởi chạy trước khi nộp để đối soát thông tin trực tiếp, bảo đảm không lo nhập sai thông tin.
Dám nghi vấn, dám thử và dám sai
Thông thường, khi một nghiên cứu được công bố, đặc biệt từ các trường đại học danh tiếng hoặc doanh nghiệp lớn, lập luận rất chặt chẽ khiến người đọc dễ dàng chấp nhận mà ít khi đặt nghi vấn hay vượt ra khỏi giới hạn của cách tiếp cận này.
Trong bài toán từ 2 giai đoạn thành 1 giai đoạn của ViettelAI, các kỹ sư đã đạt thành công nhờ tìm ra hướng đi khác biệt dù gặp vô số thất bại do không có tiền lệ, tài liệu tham khảo. Thành công này là minh chứng cho phương châm “Sáng tạo là sức sống” của người Viettel. Bởi nếu các kỹ sư đều tự hài lòng với chính mình, thành quả sẽ chẳng bao giờ đến.
Với Nam Quân, bài học lớn nhất nhận được là thực tiễn là tiêu chuẩn kiểm nghiệm chân lý. Chính nhu cầu của khách hàng đã thúc đẩy nhóm không đi sai hướng, quyết tâm hoàn thành nhiệm vụ dù đối mặt muôn trùng khó khăn. Thay vì nghiên cứu những thứ viển vông, tiêu tốn nguồn lực vốn hạn chế, nhóm đã đáp ứng đúng tâm tư của người dùng, từ đó nâng tầm tên tuổi của ViettelAI trong lĩnh vực này.
“Từ thực tiễn và sự sáng tạo, chúng tôi đã tạo ra sản phẩm tiên phong trong giới công nghệ, phá bỏ suy nghĩ phải chờ đợi thế giới làm trước rồi mới tinh chỉnh lại phù hợp”, anh Quân nói, đồng thời cho biết độ chính xác 90% và tốc độ nhanh gấp 4 lần thế giới chưa phải đích cuối. Nhóm sẽ tiếp tục hoàn thiện sản phẩm trong thời gian tới để phù hợp hơn với thực tiễn, hướng tới lợi ích của khách hàng.