AI Machine Sound Inspection: vì sao LLM và model pretrain đều phá sản với bài toán nhà máy
Bài toán kiểm tra âm thanh khi bộ sạc không dây hoạt động — coil rub, shaft contact, scratch — cho thấy vì sao mô hình AI lớn lẫn model pretrain đều không đáp ứng được. QAAD xây CNN chuyên biệt từ đầu.
Trong các nhà máy sản xuất thiết bị điện tử tiêu dùng, có một loại "lỗi" rất khó bắt bằng camera hay AOI: các bất thường về cơ khí – âm học chỉ lộ ra khi sản phẩm vận hành. Với bộ sạc không dây, đó là tiếng di chuyển coil, cạ trục, hay tiếng xước vỏ khi bộ phận rung hoạt động ở tần số cao. Tai người thợ lành nghề có thể nghe ra — nhưng 8 giờ/ca, 1000 sản phẩm/giờ, độ chính xác tụt thảm hại.
Âm thanh "nhỏ mà quan trọng"
Các tín hiệu lỗi này rất đặc thù:
- Rất ngắn — thường 20–200 ms, nằm lẫn trong tiếng hum liên tục của cuộn dây.
- Tần số cao — phần lớn năng lượng đặc trưng nằm ở dải 3–10 kHz, không phải dải giọng nói (80–300 Hz).
- Biên độ thấp — chênh lệch với nền chỉ 3–8 dB, dễ bị bỏ sót nếu làm ngưỡng tuyến tính.
Vì sao LLM và các mô hình AI lớn không giải được?
Bài toán nghe có vẻ "nhỏ" nhưng lại phá sản với hầu hết các công nghệ AI phổ biến:
- LLM (GPT, Gemini, Claude): Hoàn toàn không xử lý âm thanh dạng raw signal. Dù có "multi-modal audio", chúng được huấn luyện cho giọng nói và mô tả nội dung — không cho đặc trưng cơ khí vi mô.
- Latency: Cỡ giây trên cloud. Dây chuyền cần phản hồi dưới 100 ms để gạt sản phẩm lỗi ra khỏi băng tải đúng vị trí.
- Chi phí/inference: Triệu lượt/ngày × API cloud = không khả thi.
- Privacy & độ ổn định: Mất mạng là mất dây chuyền — không chấp nhận.
Cả các mô hình pretrain âm thanh cũng phá sản
Có người sẽ nói: "Vậy dùng model pretrain chuyên về audio như Whisper, Wav2Vec2, AST, YAMNet, PANNs, CLAP rồi fine-tune?" — Chúng tôi đã thử, và câu trả lời là không:
- Whisper / Wav2Vec2 được huấn luyện cho giọng nói, feature extractor tập trung vào dải formant & phoneme — hoàn toàn không liên quan đến tiếng cơ khí.
- YAMNet / PANNs / AST huấn luyện trên AudioSet (âm thanh môi trường: chó sủa, còi xe, nhạc, tiếng nói). Không có class nào gần với "coil rub 5 kHz" cả. Transfer learning tệ hơn cả train from scratch.
- CLAP map âm thanh với text — không có "vocabulary" mô tả lỗi cơ khí mà sản phẩm của khách hàng gặp phải.
- Domain gap quá lớn: tần số lấy mẫu, SNR, độ dài mẫu, đặc trưng năng lượng — tất cả đều khác biệt. Fine-tuning 1000 mẫu NG không đủ để di chuyển feature space của model 100M tham số.
Kết luận: với bài toán âm thanh nhà máy cụ thể, pretrained không phải "starting point", nó là "dead end".
Giải pháp QAAD: CNN chuyên biệt, xây từ đầu
Với mỗi dòng sản phẩm, QAAD xây một mô hình riêng — nhỏ, nhanh, chính xác:
- Thu thập dữ liệu tại nhà máy: micro đo lường đặt đúng vị trí, sampling 48 kHz, gán nhãn NG theo từng loại lỗi:
coil_rub,shaft_contact,scratch,solder_crack, … - Feature: STFT → Mel 128 band × 96 frame cho cửa sổ 1 giây.
- Kiến trúc: 5 khối Conv2D + BatchNorm + ReLU, thêm Squeeze-and-Excitation cho channel attention. Global Average Pool + FC 256. Tổng ~320K tham số — chạy thẳng trên Raspberry Pi 4 hoặc Intel N100.
- Huấn luyện: SpecAugment + MixUp, focal loss vì NG hiếm hơn OK 50:1.
- Triển khai: ONNX → edge inference, latency < 50 ms.
Kết quả thực tế
- Tập test khách hàng thật: F1 = 0.983, false-negative < 0.4%.
- Latency trung bình trên Edge CPU: 38 ms.
- Kích thước model: 1.3 MB — có thể chạy offline hoàn toàn, không phụ thuộc cloud.
- Giải thích được (explainability): heatmap spectrogram + class kích hoạt → chuyên viên nhà máy hiểu ngay lỗi gì.
Sứ mệnh của QAAD
Quality Assurance · Active Development — không chạy theo model to nhất, mà xây giải pháp phù hợp nhất cho bài toán cụ thể của khách hàng.
Trong một thế giới AI toàn LLM, chúng tôi tin rằng domain expertise + mô hình nhỏ, chuyên biệt vẫn là con đường duy nhất đi vào nhà máy. Nếu doanh nghiệp của bạn có một bài toán "ngớ ngẩn mà không ai giải được", hãy liên hệ với QAAD Vietnam — đó chính xác là loại vấn đề chúng tôi muốn giải.
