Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nói chuyện với danh mục đầu tư của bạn.
Chúng tôi vừa phát hành tính năng giọng nói cho Muntze: hai chế độ, cùng một thanh nhập liệu.
Ghi âm: chạm vào mic, nói, từ xuất hiện trong trường văn bản. Chỉnh sửa trước khi gửi. Phản hồi sẽ trở lại dưới dạng văn bản.
Cuộc trò chuyện: chạm vào sóng âm, nói một cách tự nhiên. Muntze lắng nghe, suy nghĩ, rồi trả lời bạn trong khi văn bản
được phát đồng thời.
Phần kỹ thuật quan trọng: chúng tôi không sử dụng mô hình âm thanh gốc. Chúng tôi đã xây dựng một đường ống phát trực tuyến kép:
giọng nói của bạn đi qua Web Speech API, LLM của chúng tôi xử lý nó, và Sonic tổng hợp câu trả lời từng câu một khi các token đến. Âm thanh đầu tiên phát ra trong vòng chưa đầy 400ms sau khi câu đầu tiên hình thành.
Những vấn đề khó khăn mà chúng tôi đã giải quyết:
→ Khử tiếng vang: STT tạm dừng trong quá trình phát lại để Muntze không ghi âm giọng nói của chính nó và lặp lại mãi mãi
→ Thứ tự câu: các yêu cầu TTS được gửi song song để tăng tốc độ, nhưng âm thanh phát ra theo thứ tự nghiêm ngặt
→ Độ ngắn gọn của giọng nói: khi bạn đang lắng nghe, bạn không muốn một bài luận dài 2 phút. Đại lý tự động chuyển sang
các phản hồi ngắn gọn 2-3 câu trong chế độ giọng nói.
Cùng độ sâu có sẵn nếu bạn hỏi thêm.
Hai biểu tượng. Một lần chạm. Hỏi Muntze danh mục đầu tư của bạn đang hoạt động như thế nào và thực sự nghe câu trả lời trong khi bạn đang pha cà phê.
Hàng đầu
Thứ hạng
Yêu thích
