Câu hỏi thường gặp
Những câu hỏi mà người dùng hay hỏi nhất. Nếu câu của bạn không có ở đây, vui lòng liên hệ qua nhóm chính thức.
Thanh toán & Số dư
Tính giá thế nào?
Tính theo lượng token sử dụng thực tế ở giá upstream, kèm chiết khấu — không có gói thuê bao hay phí hàng tháng. Mỗi cuộc gọi đều ghi rõ token vào/ra, model, và chi phí thực tế trong Bảng điều khiển → Log.
Làm sao kiểm tra số dư?
Số dư còn lại hiển thị ở đầu trang chủ bảng điều khiển (theo đơn vị tương đương USD).
Có cấp hóa đơn không?
Hiện chưa cấp. Nếu cần, vui lòng liên hệ qua nhóm.
Tiền nạp có hoàn được không?
Không hỗ trợ hoàn tiền trừ khi có sự cố dịch vụ rõ ràng — vui lòng chỉ nạp số tiền bạn cần.
API Key & Token
Tôi có thể tạo nhiều token không?
Có. Chúng tôi khuyến nghị tạo token riêng cho mỗi ứng dụng hoặc môi trường (ví dụ app-prod, app-dev) để bạn có thể giám sát mức dùng độc lập và cô lập rủi ro.
Nên đặt hạn mức token thế nào?
Hạn mức 0 nghĩa là không giới hạn (vẫn bị giới hạn bởi số dư tài khoản). Nếu lo script bị bug làm cháy số dư, hãy đặt giới hạn cho từng token.
Nếu token bị rò rỉ thì sao?
Xóa token ngay tại Bảng điều khiển → Token — số dư vẫn còn trong tài khoản, chỉ cần tạo token mới.
Chọn model
Tôi nên chọn model nào?
- Chat hàng ngày / hỗ trợ code:
deepseek-chat,claude-haiku-4-5(hiệu năng/giá tốt nhất) - Suy luận phức tạp / tài liệu dài:
claude-sonnet-4-6,claude-opus-4-7,deepseek-reasoner - Toán / suy luận chuỗi dài:
deepseek-reasoner,claude-opus-4-7(suy luận mạnh) - Đa phương thức (hình ảnh):
claude-sonnet-4-6,claude-opus-4-7
Cửa sổ ngữ cảnh của mỗi model là bao nhiêu?
Chúng tôi tuân theo giới hạn chính thức của từng nhà cung cấp (Claude 200K, DeepSeek 64K, v.v.). Xem Danh sách model để biết chi tiết.
Hiệu năng & Giới hạn tốc độ
Có giới hạn concurrency không?
Mặc định 100 request đồng thời mỗi token; giới hạn cấp tài khoản được điều phối linh hoạt theo hạn mức upstream. Liên hệ hỗ trợ nếu cần giới hạn cao hơn.
Thi thoảng bị timeout thì sao?
- Đặt timeout HTTP của client tối thiểu 60s (180s cho model suy luận)
- Thêm retry tự động với exponential backoff cho thao tác idempotent (tối đa 3 lần)
- Đối với đường dẫn không quan trọng, fallback giữa các model (ví dụ retry trên
claude-haiku-4-5khiclaude-sonnet-4-6thất bại)
Có chậm hơn gọi trực tiếp upstream không?
Hosting của chúng tôi tại Trung Quốc đại lục, nên truy cập từ trong Trung Quốc thường nhanh hơn gọi upstream trực tiếp (phải đi vòng qua Great Firewall). Truy cập từ ngoài Trung Quốc có thể chậm hơn chút so với gọi trực tiếp.
Lỗi developer phổ biến
401 invalid_api_key
Kiểm tra: 1) chính tả của header Authorization; 2) token có bị vô hiệu hóa hoặc xóa không; 3) header có bao gồm tiền tố Bearer không.
404 model_not_found
Sai chính tả tên model, hoặc model đã ngừng hoạt động. Kiểm tra tên có sẵn mới nhất tại trang chính → Models.
402 insufficient_quota
Số dư tài khoản hoặc hạn mức token đã hết. Nạp tiền hoặc tăng giới hạn token trong cài đặt token đó.
429 rate_limit_exceeded
Chạm giới hạn tốc độ. Giảm concurrency hoặc thêm retry exponential backoff phía client.
Khác
Có cung cấp Embedding / TTS / Whisper không?
Hiện chưa — đang trong kế hoạch. Embedding họ OpenAI (text-embedding-3-*), TTS (tts-1), Whisper, v.v. sẽ được expose khi kênh OpenAI online, với cách gọi giống upstream OpenAI. Nếu bạn có nhu cầu mạnh, vui lòng nêu trong nhóm để chúng tôi ưu tiên.
Có hỗ trợ tạo hình ảnh (DALL-E / Midjourney) không?
Hiện chưa — đang trong kế hoạch. Chúng tôi dự định kích hoạt dall-e-3, gpt-image-1, doubao-seedream-4-0 và các model tạo ảnh tương tự; Midjourney chưa có thời gian rõ ràng vì cần tích hợp đặc biệt. Vui lòng đừng phụ thuộc vào tạo hình ảnh trong production lúc này.
Request có được log hay dùng để training không?
Trang này chỉ log metadata (timestamp, model, mức dùng token) — chúng tôi không lưu nội dung messages. Chính sách bảo mật riêng của mỗi nhà cung cấp upstream áp dụng độc lập cho dữ liệu họ xử lý.