Runware sử dụng phần cứng tùy chỉnh và triển khai tiên tiến cho suy luận AI nhanh chóng

Đôi khi, một bản demo là tất cả những gì bạn cần để hiểu về một sản phẩm. Và đó là trường hợp của Runware. Nếu bạn truy cập trang web của Runware, nhập một yêu cầu và nhấn enter để tạo ra một hình ảnh, bạn sẽ bất ngờ vì tốc độ mà Runware tạo ra hình ảnh cho bạn - nó chỉ mất chưa đầy một giây.

Runware là một cái tên mới trong cảnh khởi nghiệp AI suy luận, hoặc AI tạo ra, đang nổ lực phấn đấu. Công ty đang xây dựng các máy chủ của riêng mình và tối ưu hóa lớp phần mềm trên các máy chủ đó để loại bỏ các chướng ngại và cải thiện tốc độ suy luận cho các mô hình tạo hình ảnh. Công ty đã thu được $3 triệu USD vốn đầu tư từ Speedrun của Andreessen Horowitz, Halo II của LakeStar và Lunar Ventures.

Công ty không muốn tái phát minh bánh xe. Chúng chỉ muốn làm cho nó quay nhanh hơn. Đằng sau hình vẽ, Runware sản xuất máy chủ của riêng mình với càng nhiều GPU càng tốt trên cùng một bo mạch chủ. Họ có hệ thống làm mát tự động tùy chỉnh và quản lý các trung tâm dữ liệu của riêng mình.

Khi đi vào chạy các mô hình AI trên máy chủ của mình, Runware đã tối ưu hóa lớp triển khai với các tối ưu hóa BIOS và hệ điều hành để cải thiện thời gian khởi đầu lạnh. Họ đã phát triển các thuật toán riêng cho phân bổ công việc can thiệp.

Bản demo đã gây ấn tượng một mình. Bây giờ, công ty muốn sử dụng tất cả công việc này trong nghiên cứu và phát triển và biến nó thành một doanh nghiệp.

Khác với nhiều công ty lưu trữ GPU, Runware sẽ không cho thuê GPU dựa trên thời gian sử dụng GPU. Thay vào đó, họ tin rằng các công ty nên được khuyến khích tăng tải công việc. Đó là lý do tại sao Runware đang cung cấp một API tạo hình ảnh với cấu trúc phí truy cập-API truyền thống. Được dựa trên các mô hình AI phổ biến từ Flux và Stable Diffusion.

“Nếu bạn nhìn vào Together AI, Replicate, Hugging Face - tất cả họ - họ đang bán tính toán dựa trên thời gian sử dụng GPU,” người đồng sáng lập và CEO Flaviu Radulescu nói với TechCrunch. “Nếu bạn so sánh thời gian mà chúng tôi tạo ra hình ảnh so với họ. Và sau đó bạn so sánh giá cả, bạn sẽ thấy rằng chúng tôi rẻ hơn, nhanh hơn rất nhiều.”

“Điều này sẽ là không thể cho họ để cạnh tranh với hiệu suất này,” ông thêm. “Đặc biệt trong một nhà cung cấp đám mây, bạn phải chạy trên một môi trường ảo, điều này thêm vào thêm độ trễ.”

Vì Runware đang nhìn vào toàn bộ ống dẫn suy luận, và tối ưu hóa phần cứng và phần mềm, công ty hy vọng rằng họ sẽ có thể sử dụng GPU từ nhiều nhà cung cấp trong tương lai gần. Điều này đã là một nhiệm vụ quan trọng đối với một số cơ hội khởi nghiệp khi Nvidia là người dẫn đầu rõ rệt trong lĩnh vực GPU, điều này có nghĩa là GPU của Nvidia thường khá đắt đỏ.

“Hiện tại, chúng tôi chỉ sử dụng GPU của Nvidia. Nhưng điều này cần phải là một phần trừu tượng của lớp phần mềm,” Radulescu nói. “Chúng tôi có thể chuyển một mô hình từ bộ nhớ GPU vào và ra rất nhanh, điều này cho phép chúng tôi đặt nhiều khách hàng trên cùng một GPU.”

“Vì vậy, chúng tôi không giống như các đối thủ của chúng tôi. Họ chỉ tải một mô hình vào GPU và sau đó GPU thực hiện một loại nhiệm vụ rất cụ thể. Trong trường hợp của chúng tôi, chúng tôi đã phát triển giải pháp phần mềm này, cho phép chúng tôi chuyển mô hình trong bộ nhớ GPU khi chúng tôi thực hiện suy luận.”

Nếu AMD và các nhà cung cấp GPU khác có thể tạo ra các lớp tương thích hoạt động với các công việc AI điển hình, Runware đã chuẩn bị rất tốt để xây dựng một đám mây lai sẽ phụ thuộc vào GPU từ nhiều nhà cung cấp. Và điều này chắc chắn sẽ giúp họ nếu họ muốn duy trì giá thấp hơn so với các đối thủ trong suy luận AI.