ระบบจำแนกเสียง AI และการตรวจจับทิศทางเสียง Hanwha Vision SPS-A100M

การแนะนำ
เสียงมักถูกมองข้าม แต่เป็นเครื่องมือเฝ้าระวังที่ทรงพลังท่ามกลางภัยคุกคามที่มองไม่เห็น ในขณะที่ระบบเฝ้าระวังวิดีโอแบบเดิมมุ่งเน้นไปที่การบันทึกภาพเหตุการณ์ที่เกิดขึ้น แต่สภาพแวดล้อมด้านความปลอดภัยในปัจจุบันได้พัฒนาไปจนไม่เพียงแต่สามารถรับรู้ประเภทของเหตุการณ์เสียงได้เท่านั้น แต่ยังรวมถึงแหล่งที่มาที่แน่นอนด้วย เมื่อขอบเขตของความปลอดภัยสาธารณะและการปกป้องทรัพย์สินขยายกว้างขึ้น เทคโนโลยีการวิเคราะห์เสียงจึงมีศักยภาพที่จะมีส่วนช่วยมากกว่าแค่การป้องกันอาชญากรรมและการตอบสนองต่อเหตุการณ์อย่างรวดเร็ว
ในบริบทนี้ เทคโนโลยีการจำแนกเสียงที่ขับเคลื่อนด้วยการเรียนรู้เชิงลึกของ Hanwha Vision มอบฟังก์ชันอัจฉริยะที่สามารถจดจำเหตุการณ์เสียงเฉพาะได้อย่างแม่นยำ เช่น เสียงกรีดร้องที่ฝึกไว้ล่วงหน้าและเสียงกระจกแตก ซึ่งจะส่งสัญญาณเตือนทันที นอกจากนี้ เทคโนโลยีการตรวจจับทิศทางเสียงยังระบุตำแหน่งของแหล่งกำเนิดเสียง ให้ข้อมูลที่ชัดเจนไม่เพียงแต่ว่า "เสียงนั้นคืออะไร" เท่านั้น แต่ยังรวมถึง "แหล่งกำเนิดเสียง" อีกด้วย เทคโนโลยีทั้งสองนี้ทำงานร่วมกันอย่างมีประสิทธิภาพเพื่อเพิ่มขีดความสามารถในการรับรู้สถานการณ์แบบบูรณาการให้สูงสุด ซึ่งเป็นการสร้างมาตรฐานใหม่สำหรับระบบรักษาความปลอดภัยยุคใหม่
เอกสารข้อมูลนี้เจาะลึกเทคโนโลยีเหล่านี้ พร้อมให้คำแนะนำเชิงปฏิบัติสำหรับการนำไปใช้งานและใช้งานอย่างเหมาะสมที่สุดในสภาพแวดล้อมที่หลากหลาย
เทคโนโลยีการวิเคราะห์เสียงที่ใช้ AI
- การจำแนกเสียง
เทคโนโลยีการจำแนกเสียงของ Hanwha Vision สร้างขึ้นบนโมเดลการเรียนรู้เชิงลึกหลัก นั่นคือ Convolutional Neural Network (CNN) เทคโนโลยีนี้เริ่มต้นด้วยการแปลงข้อมูลเสียงเชิงนามธรรมให้เป็นรูปแบบภาพที่เรียกว่า spectrogram1
สเปกโตรแกรมทำหน้าที่เป็น "ลายนิ้วมือ" อะคูสติก ซึ่งแสดงรูปแบบเฉพาะของเสียงแต่ละเสียงได้อย่างชัดเจน CNN มีความสามารถพิเศษในการเรียนรู้และจดจำลักษณะและรูปแบบเสียงที่ละเอียดอ่อนภายในภาพสเปกโตรแกรมเหล่านี้โดยอัตโนมัติ ซึ่งมักเป็นเรื่องยากที่หูของมนุษย์จะแยกแยะได้ กระบวนการนี้ช่วยให้สามารถระบุและจำแนกเหตุการณ์เสียงต่างๆ ได้อย่างแม่นยำ เช่น เสียงกรีดร้อง เสียงกระจกแตก เสียงแตรรถ และยางรถไถล
เมื่อตรวจพบและจำแนกเสียงแล้ว ระบบจะดึงข้อมูลจากสตรีมเสียงโดยอัตโนมัติ เนื่องจากข้อมูลเสียงได้รับการประมวลผลล่วงหน้าแล้วampนำเสียงที่ถูกจำแนกแล้วมาสร้างเป็นคลิปเสียง file, พร้อมข้อมูลเมตาสำหรับการดาวน์โหลดและรีโหลดได้ง่ายview.
เทคโนโลยีนี้มีอยู่ในผลิตภัณฑ์ Hanwha Vision บางรุ่น - การตรวจจับทิศทางเสียง
เทคโนโลยีการตรวจจับทิศทางเสียงของ Hanwha Vision ช่วยให้ตอบสนองได้อย่างรวดเร็วด้วยการระบุและแจ้งเตือนผู้ใช้เกี่ยวกับทิศทางของเหตุการณ์เสียงที่ระบุ เทคโนโลยีนี้จะกำหนดทิศทางนี้โดยการวัดความแตกต่างของเวลาที่มาถึง
(TDoA) ของสัญญาณเสียงเมื่อเข้าถึงไมโครโฟนหลายตัวที่แยกจากกันทางกายภาพ
อัลกอริทึม TDoA ทำงานโดยการวิเคราะห์ความแตกต่างของเฟสในเวลาที่เสียงมาถึงไมโครโฟนแต่ละตัว เพื่อประเมินระยะทางจริงไปยังแหล่งกำเนิดเสียง จากนั้นข้อมูลนี้จะถูกนำมาใช้เพื่อคำนวณมุมของแหล่งกำเนิดเสียง ดังแสดงในรูปที่ 1 ระบบไมโครโฟนหลายตัวที่มีไมโครโฟน (MIC1, MIC2, MIC3, MIC4) เรียงเป็นวงกลมสามารถคำนวณความแตกต่างของระยะทาง (d1, d2, d3, d4) ระหว่างแหล่งกำเนิดเสียงและไมโครโฟนแต่ละตัวได้ การคำนวณความแตกต่างของเวลาที่เสียงมาถึงโดยอ้างอิงจากความแตกต่างของระยะทางเหล่านี้ถือเป็นหัวใจสำคัญของอัลกอริทึม TDoA
รูปที่ 2 แสดงให้เห็นความแตกต่างของเวลา (τij) ในการมาถึงของสัญญาณเสียงที่ไมโครโฟนสองตัว (รูปคลื่นสีน้ำตาลและสีน้ำเงิน) ด้วยการวัดความแตกต่างของเวลาการมาถึงเหล่านี้อย่างแม่นยำ ระบบจึงสามารถระบุทิศทางของแหล่งกำเนิดเสียงได้อย่างแม่นยำ 
กระบวนการตรวจจับทิศทางเสียงแบ่งออกเป็น 4 ขั้นตอนหลัก:
- การรวบรวมสัญญาณ: รวบรวมสัญญาณเสียงพร้อมกันผ่านไมโครโฟนหลายตัว
- การประมวลผลสัญญาณ: วิเคราะห์สัญญาณที่รวบรวมโดยใช้อัลกอริทึมเฉพาะทาง
- การประมาณทิศทาง: ประมาณทิศทางของเสียงโดยอิงจากสัญญาณที่ประมวลผล
- ผลลัพธ์เอาท์พุต: แสดงทิศทางที่ตรวจพบขั้นสุดท้ายเป็นมุมแบริ่ง
เทคโนโลยีนี้มีอยู่ในผลิตภัณฑ์ Hanwha Vision ที่รองรับไมโครโฟนหลายตัว เช่น Audio Beacon (SPS-A100M) และกล้องบางรุ่นที่ติดตั้ง Wisenet 9 SoC

การติดตั้งและสภาพแวดล้อม: คู่มือสู่ประสิทธิภาพที่เหมาะสมที่สุด
ประสิทธิภาพของโซลูชัน AI Audio ของ Hanwha Vision นั้นขึ้นอยู่กับสภาพแวดล้อมการติดตั้งอย่างใกล้ชิด การพิจารณาประเด็นต่อไปนี้อย่างจริงจังจะช่วยเพิ่มศักยภาพของระบบและรับประกันประสิทธิภาพที่เสถียร
การเลือกตำแหน่งการติดตั้งที่เหมาะสมที่สุด
เพื่อประสิทธิภาพการจำแนกเสียงและการตรวจจับทิศทางที่เชื่อถือได้ ขอแนะนำเงื่อนไขต่อไปนี้:
การจำแนกประเภทเสียง: ระบบจะทำงานได้อย่างน่าเชื่อถือที่สุดเมื่อระยะห่างระหว่างผลิตภัณฑ์และแหล่งกำเนิดเสียงอย่างน้อย 2 เมตร ระยะห่างนี้คำนวณจากความสูงของแหล่งกำเนิดเสียง หากระยะห่างใกล้เกินไป (ภายใน 2 เมตร) แม้แต่เสียงที่ดูเหมือนจะเบา เช่น เสียงปรบมือ ก็อาจดังเกินไปจนทำให้เกิดผลบวกลวงได้ การติดตั้งบนเพดานภายในอาคารเป็นวิธีการจำแนกประเภทเสียงที่เหมาะสมที่สุด เนื่องจากช่วยลดการสะท้อนของเสียงและช่วยให้สามารถตรวจจับเสียงได้อย่างสม่ำเสมอในพื้นที่กว้าง
การตรวจจับทิศทางเสียง: เพื่อการตรวจจับทิศทางที่แม่นยำ ขอแนะนำให้มีพื้นที่อย่างน้อย 6.0 เมตร และ 6.0 เมตร เพื่อลดผลกระทบจากการสะท้อนและเสียงก้องของเสียง และให้พื้นที่เพียงพอสำหรับการวิเคราะห์สัญญาณระหว่างไมโครโฟนหลายตัว 
การรักษาระยะห่างและมุมตกกระทบให้เหมาะสม: ระยะห่างและมุมระหว่างแหล่งกำเนิดเสียงจากเหตุการณ์กับผลิตภัณฑ์มีความสำคัญอย่างยิ่งต่อความแม่นยำในการตรวจจับ หากมุมตกกระทบของเสียงจากเหตุการณ์มากเกินไป (เกิน 20 องศาฟาเรนไฮต์) หรือระยะห่างสั้นเกินไป ความแม่นยำในการตรวจจับอาจลดลง ตารางด้านล่างแสดงระยะห่างขั้นต่ำที่แนะนำโดยพิจารณาจากความสูงในการติดตั้งของผลิตภัณฑ์
| ความสูงในการติดตั้งผลิตภัณฑ์ | ระยะตรวจจับทิศทางขั้นต่ำ |
| 2.3ม. | ≥ 2.2 เมตร |
| 2.5ม. | ≥ 2.7 เมตร |
| 2.7ม. | ≥ 3.3 เมตร |
| 2.9ม. | ≥ 3.8 เมตร |
| 3.1ม. | ≥ 4.4 เมตร |
| 3.3ม. | ≥ 4.9 เมตร |
| 3.5ม. | ≥ 5.5 เมตร |
| 3.8ม. | ≥ 6.3 เมตร |
| 4m | ≥ 6.9 เมตร |
| 5m | ≥ 9.6 เมตร |
การรับประกันเส้นทางเสียงที่ชัดเจน: สิ่งกีดขวางทางกายภาพ เช่น กำแพง กระจก หรือม่านหนาทึบระหว่างแหล่งกำเนิดเสียงและผลิตภัณฑ์ อาจทำให้สัญญาณอ่อนลงหรือผิดเพี้ยนได้ เพื่อให้ได้ประสิทธิภาพสูงสุด ควรตรวจสอบให้แน่ใจว่าเส้นทางเสียงตรงและชัดเจน
การวิเคราะห์สิ่งแวดล้อมเพื่อการตรวจจับและการจำแนกเสียงที่มีประสิทธิภาพ
เพื่อการตรวจจับและจำแนกเสียงที่แม่นยำ โปรดพิจารณาเงื่อนไขเสียงและปัจจัยแวดล้อมโดยรอบต่อไปนี้
| ประเภทเสียง | เกณฑ์เดซิเบล | ระยะทางที่คาดการณ์ |
| กรีดร้อง | มากกว่า 70 เดซิเบล | 2ม.~20ม. |
| กระจกแตก, แตรรถ, ยางรถลื่นไถล | มากกว่า 80 เดซิเบล | 2ม.~16ม. |
เช่นampเสียงกรีดร้องสามารถจำแนกและตรวจจับทิศทางได้อย่างแม่นยำเมื่อระดับเสียงสูงกว่า 70 เดซิเบล ระดับเสียงของเหตุการณ์ต้องดังกว่าเสียงพื้นหลังโดยรอบอย่างมาก (แนะนำ: ดังกว่าอย่างน้อย 30 เดซิเบล) เพื่อการวัดและจำแนกที่แม่นยำ เสียงพื้นหลังไม่ควรเกิน 60 เดซิเบล ซึ่งจะทำให้สามารถแยกความแตกต่างระหว่างเหตุการณ์และเสียงรอบข้างได้อย่างชัดเจน
เนื่องจากเสียงรบกวนรอบข้างอาจส่งผลต่อประสิทธิภาพ จึงควรวิเคราะห์สิ่งต่อไปนี้ล่วงหน้า:
- สภาพแวดล้อมภายนอกอาคาร: ระวังเสียงธรรมชาติ (ลม ฝน ฟ้าร้อง) และเสียงสังเคราะห์ (เสียงจราจร เสียงกระแทก เสียงรถกระตุก) ในสภาพแวดล้อมที่คาดเดาไม่ได้ การวิเคราะห์อย่างละเอียดจะช่วยให้คุณเลือกตำแหน่งการติดตั้งที่เหมาะสมที่สุดได้
- สภาพแวดล้อมภายในอาคาร: การสะท้อนและเสียงสะท้อนอาจมีนัยสำคัญ ขึ้นอยู่กับวัสดุ (ผนัง เพดาน พื้น) และขนาดห้อง เสียงที่คล้ายกับเหตุการณ์เป้าหมาย เช่น เสียงลูกโป่งแตก หรือเสียงกล่องหนักๆ ตก อาจสร้างเสียงสะท้อนที่นำไปสู่สัญญาณเตือนภัยที่ผิดพลาดได้ การติดตั้งควรคำนึงถึงคุณสมบัติทางเสียงของพื้นที่ภายในอาคาร
การกำหนดค่าเกณฑ์การจำแนกเสียง dB
เพื่อเพิ่มประสิทธิภาพฟังก์ชันการจำแนกเสียง คุณสามารถกำหนดค่าเกณฑ์ dB ให้เหมาะกับสภาพแวดล้อมเฉพาะของคุณได้
- ในสภาพแวดล้อมที่มีเสียงดัง ให้ตั้งค่าเกณฑ์ให้สูงขึ้นเพื่อลดการแจ้งเตือนที่ผิดพลาด
- ในสภาพแวดล้อมที่เงียบสงบซึ่งมีเหตุการณ์ไม่ร้ายแรง ให้ตั้งค่าเกณฑ์ให้ต่ำลงเพื่อหลีกเลี่ยงการพลาดการแจ้งเตือนที่สำคัญ
- หลังจากตรวจสอบค่าเฉลี่ยของเสียงรบกวนพื้นหลัง (dB) แล้ว ขอแนะนำให้ตั้งค่าเกณฑ์ให้สูงกว่าค่าเฉลี่ยอย่างน้อย 55dB
ดังที่แสดงในรูปที่ 6 สามารถปรับค่าเกณฑ์เดซิเบลได้อย่างง่ายดายโดยใช้แถบเลื่อนหรือช่องป้อนตัวเลข ซึ่งส่งผลโดยตรงต่อความไวในการตรวจจับแบบเรียลไทม์ กราฟแสดงการเปลี่ยนแปลงของเดซิเบลเสียงเมื่อเวลาผ่านไป (เส้นสีดำ) และค่าเกณฑ์ที่กำหนดค่าไว้ (เส้นสีเทา) ทำให้มองเห็นได้ง่ายเมื่อเหตุการณ์เสียง (จุดสูงสุดสีส้ม) เกินค่าเกณฑ์
การสอบเทียบทิศทางเสียงและการกำหนดค่าระบบ
ผลิตภัณฑ์ Hanwha Vision นำเสนอเหตุการณ์ในรูปแบบคลิปเสียง ซึ่งรวมถึงทั้งการจำแนกเสียงและผลการตรวจจับทิศทาง
ตามที่แสดงในรูปที่ 7 ผลการจำแนกเสียงจะแสดงด้วยไอคอนใช้งานง่ายที่ด้านล่าง พร้อมกับผลการตรวจจับทิศทางเสียง 'ทิศทาง (N+301.8∘)' หมายความว่าแหล่งกำเนิดเสียงตั้งอยู่ที่ 301.8∘ ตามเข็มนาฬิกาจากทิศเหนือ (N)
ค่า 'ความเชื่อมั่น (0.74)' ที่แสดงไว้นั้น แสดงถึงระดับความเชื่อมั่น 74% เมื่อรวมกับระดับความดังของเสียง (52dB) จะช่วยให้ผู้ใช้สามารถประเมินสถานการณ์ได้อย่างแม่นยำและตอบสนองได้อย่างรวดเร็ว
ข้อมูลทิศทางเสียงของระบบอาจเบี่ยงเบนไปจากทิศเหนือจริงเมื่อเวลาผ่านไปหรือเนื่องจากการติดตั้ง เนื่องจากข้อมูลทิศทางที่แม่นยำเป็นสิ่งสำคัญ จึงจำเป็นต้องปรับเทียบจุดอ้างอิงทิศเหนือตามความจำเป็น ซึ่งสามารถทำได้โดยใช้หนึ่งในสามวิธีต่อไปนี้:
- ติดตั้งผลิตภัณฑ์ให้หันไปทางทิศเหนือจริงตามที่เข็มทิศระบุ
- ในเมนูผลิตภัณฑ์ ให้ไปที่ [ระบบ] > [ข้อมูลผลิตภัณฑ์] > [โหมดการติดตั้ง] และป้อนมุมที่วัดตามเข็มนาฬิกาจากทิศเหนือของเข็มทิศไปยังจุดอ้างอิงของกล้องโดยตรง
- ใช้ฟีเจอร์เข็มทิศที่รวมอยู่ในเครื่องมือติดตั้ง Wisenet เพื่อการตั้งค่าเริ่มต้นที่สะดวกและแม่นยำยิ่งขึ้น
เคล็ดลับสำหรับสภาพแวดล้อมอะคูสติกที่ซับซ้อน
- สภาพแวดล้อมอะคูสติกที่ซับซ้อน: ในสภาพแวดล้อมที่มีเสียงหลายเสียงเกิดขึ้นพร้อมกัน โมเดล AI อาจจำแนกเสียงเหล่านั้นเป็นเสียงเดียวหรือจำแนกผิด นี่เป็นปรากฏการณ์ทางธรรมชาติ การวิเคราะห์ข้อมูลที่ระบบให้มาอย่างครอบคลุมจะช่วยให้มั่นใจได้ว่าระบบจะรับรู้สถานการณ์ได้อย่างแม่นยำ
การวิเคราะห์สภาพแวดล้อมเพื่อการแจ้งเตือนที่แม่นยำ: แบบจำลองการจำแนกเสียงอาจสร้างการแจ้งเตือนสำหรับเสียงที่คล้ายกับเสียงเหตุการณ์ แต่ไม่อยู่ในหมวดหมู่การจำแนก เช่น เสียงเสียดสีของวัตถุโลหะ เสียงสัตว์ เครื่องดนตรี หรือเสียงอื่นๆ ที่เกิดขึ้นอย่างฉับพลันและทรงพลัง การทำความเข้าใจคุณลักษณะนี้ของแบบจำลองจะช่วยให้คุณคาดการณ์และเตรียมพร้อมสำหรับการแจ้งเตือนจากเสียงที่ผิดปกติเหล่านี้ ซึ่งจะช่วยลดความสับสนที่ไม่จำเป็นได้อย่างมีประสิทธิภาพ
บทสรุป
ด้วยการก้าวข้ามข้อจำกัดของการสังเกตด้วยภาพ โซลูชัน AI Audio ของ Hanwha Vision ได้สร้างระบบเตือนภัยล่วงหน้าที่ครอบคลุมอย่างแท้จริงซึ่งวิเคราะห์เสียงอย่างชาญฉลาด
เอกสารข้อมูลนี้ทำหน้าที่เป็นแนวทางปฏิบัติที่ช่วยให้คุณสามารถนำเทคโนโลยีไปใช้งานและเพิ่มประสิทธิภาพให้เหมาะกับสภาพแวดล้อมเฉพาะของคุณได้ ตั้งแต่การติดตั้งครั้งแรกจนถึงการปรับแต่งเพื่อประสิทธิภาพสูงสุด
ในขณะที่ความท้าทายด้านความปลอดภัยมีการพัฒนาอย่างต่อเนื่อง Hanwha Vision ยังคงมุ่งมั่นที่จะพัฒนาความสามารถในการวิเคราะห์เสียง เพื่อให้แน่ใจว่าประสบการณ์ด้านความปลอดภัยจะมีเสถียรภาพ มีประสิทธิภาพ และเชิงรุกมากขึ้นในทุกสถานการณ์
ฮันวาวิชั่น
- 13488 ศูนย์วิจัยและพัฒนาฮันวาวิชั่น
- 6 Pangyo-ro 319-gil, Bundang-gu, Seongnam-si, Gyeonggi-do, เกาหลี www.HanwhaVision.com
- ลิขสิทธิ์ © 2025 Hanwha Vision สงวนลิขสิทธิ์ทุกประการ
เอกสาร / แหล่งข้อมูล
![]() |
ระบบจำแนกเสียง AI และการตรวจจับทิศทางเสียง Hanwha Vision SPS-A100M [พีดีเอฟ] คู่มือเจ้าของ SPS-A100M ระบบจำแนกเสียง AI และการตรวจจับทิศทางเสียง, SPS-A100M, ระบบจำแนกเสียง AI และการตรวจจับทิศทางเสียง, การจำแนกและการตรวจจับทิศทางเสียง, การตรวจจับทิศทางเสียง, การตรวจจับทิศทาง, การตรวจจับ |

