Mistral thêm một API mới biến tất cả các tài liệu PDF thành tập tin Markdown sẵn sàng cho trí tuệ nhân tạo

Vào thứ Năm, công ty phát triển mô hình ngôn ngữ lớn của Pháp, Mistral, đã ra mắt một API mới dành cho các nhà phát triển xử lý các tài liệu PDF phức tạp. Mistral OCR là một API nhận diện ký tự quang học (OCR) có thể chuyển đổi bất kỳ tài liệu PDF nào thành tập tin văn bản để dễ dàng cho các mô hình trí tuệ nhân tạo tiêu thụ.

Các mô hình ngôn ngữ lớn, là cơ sở của các công cụ GenAI phổ biến như ChatGPT của OpenAI, hoạt động đặc biệt tốt với văn bản nguyên thô. Vì vậy, các công ty muốn tạo luồng công việc trí tuệ nhân tạo riêng biệt của họ biết rằng việc lưu trữ và chỉ mục dữ liệu dưới dạng sạch sẽ trở nên cực kỳ quan trọng để dữ liệu này có thể được tái sử dụng cho xử lý trí tuệ nhân tạo.

Khác với hầu hết các API OCR, Mistral OCR là một API đa modal, có nghĩa là nó có thể nhận diện khi có các hình minh họa và hình ảnh xen kẽ với các khối văn bản. API OCR tạo các hộp giới hạn xung quanh các yếu tố đồ họa này và bao gồm chúng trong kết quả.

Mistral OCR cũng không chỉ đưa ra một tường văn bản lớn; đầu ra được định dạng theo Markdown, một cú pháp định dạng mà các nhà phát triển sử dụng để thêm liên kết, tiêu đề và các yếu tố định dạng khác vào một tập tin văn bản thông thường.

Các mô hình ngôn ngữ lớn phụ thuộc nhiều vào Markdown cho bộ dữ liệu huấn luyện của họ. Tương tự, khi bạn sử dụng một trợ lý trí tuệ, như Le Chat của Mistral hoặc ChatGPT của OpenAI, họ thường tạo ra Markdown để tạo danh sách đánh dấu, thêm liên kết hoặc đặt một số yếu tố vào đậm. Ứng dụng trợ lý tự động tự động định dạng đầu ra Markdown thành đầu ra văn bản phong phú. Đó là lý do tại sao văn bản nguyên thô - và Markdown - trở nên quan trọng hơn trong những năm gần đây khi GenAI đã phát triển mạnh mẽ.

“Trong nhiều năm qua, các tổ chức đã tích luỹ nhiều tài liệu, thường ở dạng tập tin PDF hoặc slide, mà không thể truy cập được cho các mô hình ngôn ngữ lớn, đặc biệt là các hệ thống RAG. Với Mistral OCR, khách hàng của chúng tôi giờ đây có thể chuyển đổi văn bản phong phú và phức tạp thành nội dung có thể đọc được bằng tất cả các ngôn ngữ,” Guillaume Lample, đồng sáng lập và giám đốc khoa học của Mistral nói.

“Đây là một bước quan trọng đối với việc áp dụng rộng rãi các trợ lý trí tuệ trong các công ty cần đơn giản hóa quy trình truy cập vào tài liệu nội bộ rộng lớn của mình,” ông thêm.

Mistral OCR có sẵn trên nền tảng API của Mistral hoặc thông qua các đối tác điện toán đám mây của họ (AWS, Azure, Google Cloud Vertex, v.v.). Và đối với các công ty làm việc với dữ liệu phân loại hoặc nhạy cảm, Mistral cung cấp triển khai trên cơ sở.

Theo công ty trí tuệ nhân tạo đóng tại Paris, Mistral OCR hoạt động tốt hơn so với các API từ Google, Microsoft và OpenAI. Công ty đã thử nghiệm mô hình OCR của mình với các tài liệu phức tạp bao gồm biểu thức toán học (định dạng LaTeX), bố cục tiên tiến hoặc bảng. Nó cũng được cho là hoạt động tốt hơn với các tài liệu không phải tiếng Anh.

Tín chỉnh ảnh: Mistral

Với việc Mistral OCR chỉ làm một việc và chỉ một việc, công ty tin rằng nó cũng nhanh hơn so với những gì hiện có. Điều đó không ngạc nhiên nếu bạn so sánh nó với một mô hình ngôn ngữ lớn đa modal như GPT-4o, cũng có các khả năng OCR (trong số nhiều tính năng khác).

Mistral cũng đang sử dụng Mistral OCR cho trợ lý trí tuệ Le Chat của mình. Khi một người dùng tải lên một tài liệu PDF, công ty sử dụng Mistral OCR trong nền để hiểu nội dung của tài liệu trước khi xử lý văn bản.

Các công ty và nhà phát triển có lẽ sẽ sử dụng Mistral OCR với hệ thống RAG (còn được gọi là Hồi quy Bổ Sung Trình tạo) để sử dụng tài liệu đa modal như đầu vào trong một mô hình ngôn ngữ lớn. Và có nhiều trường hợp sử dụng tiềm năng. Ví dụ, chúng ta có thể mường tượng các văn phòng luật sử dụng nó để giúp họ xuyên suốt nhanh chóng qua các khối lượng lớn tài liệu.

RAG là một kỹ thuật được sử dụng để tìm dữ liệu và sử dụng nó như ngữ cảnh với một mô hình trí tuệ sinh ra.