डिजिटल ध्वनि मूलतत्त्वे

ऑड्यासिटी विकासाच्या माहितीपुस्तिकेवरून
येथून जा : निर्देशक, शोधा
डिजिटल ध्वनि अ‍ॅनालॉग ध्वनि एका रूपात आणते जेथे ते संगणकावर संग्रहित ठेवता येतात आणि हाताळले जाऊ शकतात. ऑड्यासिटी संपादन, मिश्रण आणि डिजिटल ध्वनि ध्वनिमुद्रणावर प्रभाव लागू करण्यासाठी सॉफ्टवेअर अनुप्रयोग आहे.

डिजिटल नमुना

आम्ही आपल्या कानांनी ऐकत असलेले सर्व आवाज हवेतील दाबांच्या लहरी आहेत. थॉमस एडिसन यांनी १८७७ मध्ये पहिल्या फोनोग्राफच्या प्रात्यक्षिक प्रक्षेपणानंतर, या दाबाच्या लहरी प्रत्यक्ष माध्यमावर हस्तगत करणे आणि नंतर त्याच दाबाच्या लहरी पुन्हा निर्माण करून पुन्हा त्याचे पुनरुत्पादन करणे शक्य झाले. ध्वनि दाबांच्या लहरी किंवा लहरींचे स्वरूप, असे काहीतरी दिसतात :

WaveformAbstract.png

फोनोग्राफ ध्वनिमुद्रण आणि कॅसेट टेप सारख्या एनालॉग ध्वनिमुद्रण माध्यमे ध्वनिमुद्रणासाठी खोबणीची खोली किंवा टेपसाठी मॅग्निटायझेशनचे प्रमाण वापरुन थेट लहरींचे स्वरूपचा आकार दर्शवितात. एनालॉग ध्वनिमुद्रण प्रभावी ध्वनि पुनरुत्पादित करू शकते, परंतु हे आवाजाच्या समस्यांपासून देखील ग्रस्त आहे. विशेष म्हणजे, प्रत्येक वेळी एनालॉग ध्वनीमुद्रणाची प्रत तयार केल्यावर, अधिक आवाज येतो, पण त्यातील हमी कमी होते. हा आवाज कमी केला जाऊ शकतो परंतु पूर्णपणे काढून टाकला जाऊ शकत नाही.

डिजिटल ध्वनिमुद्रण वेगळ्या प्रकारे कार्य करते : ते समान-अंतराच्या वेळापत्रकावर लहरींच्या स्वरूपाचे नमुने घेते, प्रत्येक नमुना अचूक संख्या म्हणून दर्शवते. कॉम्पॅक्ट डिस्क (सीडी), डिजिटल ध्वनि टेप (डीएटी) किंवा वैयक्तिक संगणकावर संग्रहित असो की डिजिटल ध्वनिमुद्रण कालांतराने अवनत होत नाहीत आणि कोणत्याही अतिरिक्त आवाज न आणता अचूकपणे प्रत तयार केली जाऊ शकते. खालील प्रतिमा एक नमुना असलेल्या ध्वनि लहरींचे स्वरूपाचे वर्णन करते :

Waveform digital.png

कोणताही अतिरिक्त आवाज न आणता डिजिटल ध्वनि संपादित आणि मिश्रित केले जाऊ शकतात. याव्यतिरिक्त, डिजीटल ध्वनि ध्वनिमुद्रणावर बरेच डिजिटल प्रभाव लागू केले जाऊ शकतात, उदाहरणार्थ, पुनर्विभाजन अनुकरण करणे, विशिष्ट वारंवारता वाढविणे किंवा ध्वनीची पट्टी बदलणे.

आपल्या संगणकावरून ध्वनि थेट प्ले करण्याची किंवा ध्वनिमुद्रण करण्याची ऑड्यासिटीची क्षमता आपल्या विशिष्ट संगणक हार्डवेअरवर अवलंबून असते. आपल्याकडे मायक्रोफोन किंवा ध्वनिमुद्रणासाठी अन्य स्त्रोतामध्ये प्लग इन करण्यासाठी स्पीकर्स किंवा हेडफोन ऐकण्यासाठी बहुतेक डेस्कटॉप संगणक १/८ इंच (३.५ मिमी) जॅकसह ध्वनि कार्डसह येतात. बर्‍याच लॅपटॉप कॉम्प्युटरमध्ये स्पीकर्स आणि अंगभूत मायक्रोफोन असतो. बर्‍याच संगणकांसह येणारे ध्वनि कार्ड विशेषतः उच्च दर्जाचे नसते, अशा परिस्थितीत आपण बाह्य युएसबी ध्वनि मुखपृष्ठ वापरण्याचा विचार करू शकता. प्लेबॅक आणि ध्वनिमुद्रणासाठी ऑड्यासिटी कशी सेट करावी याबद्दल अधिक माहितीसाठी ऑड्यासिटी रचना आणि मांडणी पहा.

डिजिटल ध्वनि गुणवत्ता

डिजिटल ध्वनि ध्वनिमुद्रणाची गुणवत्ता दोन घटकांवर अवलंबून असते : नमुना दर आणि नमुना स्वरूप किंवा थोडी खोली. प्रत्येक नमुन्यामधील नमुना दर किंवा बिट्सची संख्या वाढविणे ध्वनिमुद्रणाची गुणवत्ता वाढवते, परंतु संगणक किंवा तबकडीवरील ध्वनि धारिकेद्वारे वापरलेल्या जागेचे प्रमाण देखील वाढवते.

नमुना दर

नमुने दर हर्ट्ज (Hz), किंवा प्रति सेकंद चक्रात मोजले जातात. हे मूल्य लहरींचे स्वरूपाचे प्रतिनिधित्व करण्यासाठी प्रति सेकंद हस्तगत केलेल्या नमुन्यांची संख्या आहे. उच्च नमुना दर उच्च ध्वनि वारंवारतेचे प्रतिनिधित्व करण्यास अनुमती देतात. प्रदान केलेला नमुना दर सध्याच्या ध्वनि वारंवारतेपेक्षा दुप्पट आहे, तर डिजिटल नमुन्यांमधून वेवफॉर्मची पुनर्रचना केली जाऊ शकते. नमुने दरापेक्षा अर्ध्यापेक्षा जास्त वारंवारता डिजिटल नमुन्यांमध्ये योग्यरितीने दर्शविली जाऊ शकत नाहीत आणि मूळ ध्वनीमध्ये असल्यास ती डिजिटलमध्ये रुपांतरित करण्यापूर्वी काढली जाणे आवश्यक आहे. "अर्धा नमुना दर" म्हणून एन.वाय.क्विस्ट वारंवारतानावाची अप्पर मर्यादा दर्शवते आणि अ‍ॅनालॉग लहरींचे स्वरूप योग्यरित्या डिजिटल स्वरुपात प्रतिनिधित्व करण्यासाठी या मर्यादेच्या खाली असणे आवश्यक आहे. या मर्यादेवरील किंवा त्यावरील एनालॉग वारंवारता डिजिटल नमुन्यांद्वारे योग्यरित्या दर्शविल्या जाऊ शकत नाहीत आणि एक प्रकारचे विरूपणहोऊ शकते ज्याला उपनाम म्हणतात.

मानवी कान अंदाजे २० हर्ट्ज आणि २०००० हर्ट्ज दरम्यान वारंवारतेसह ध्वनि नमुन्यांशी संवेदनशील असतो. त्या श्रेणीबाहेर ध्वनि ऐकण्यायोग्य नाहीत. म्हणूनच ४०००० हर्ट्जचा नमुना दर मानवी श्रवणशक्तीच्या श्रेणीत पुनरुत्पादित करण्यासाठी आवश्यक किमान परिपूर्ण आवश्यक आहे. उच्च दर ( ओव्हर्सॅम्पलिंग म्हणतात) सहसा एन.वाय.क्विस्ट वारंवारतेभोवती कृत्रिम वस्तूंपासून दूर राहण्यासाठी पुरेसे फिल्टर टाळण्यासाठी वापरले जातात.

ध्वनी सीडीद्वारे वापरलेला नमुना दर ४४१०० हर्ट्ज आहे. ४००० हर्ट्जवरील वारंवारता काढून टाकल्या तरीही मानवी भाषण समजण्यायोग्य असते; खरं तर टेलिफोन फक्त २०० हर्ट्ज आणि ४००० हर्ट्ज मधील वारंवारता प्रसारित करतात. म्हणून ध्वनिमुद्रणासाठी सामान्य नमुना दर ८००० हर्ट्ज आहे, ज्यास कधीकधी भाषण गुणवत्ता देखील म्हटले जाते. लक्षात घ्या की या कटऑफ पॉईंटच्या वरील सिग्नलला डिजिटल कन्व्हर्टरद्वारे पुन्हा ऐकू येण्याजोग्या श्रेणीमध्ये दुमडण्यापासून प्रतिबंधित करण्यासाठी आणि अलियझिंग आवाजाची विरुपित कलाकृती तयार करण्यासाठी, अत्यंत तीव्र फिल्टरिंग (ज्याला अँटी-एलियाझिंग फिल्टर म्हटले जाते) आवश्यक आहे.

८०००, १६०००, २२०५०, ४४१००, ४८०००, ९६००० आणि १९२००० हे हर्ट्जमध्ये मोजले जाणारे सर्वात सामान्य नमुन्याचे दर आहेत. नमुना दर देखील के.एच.झेड. किंवा १००० हर्ट्जच्या युनिटमध्ये संदर्भित केला जाऊ शकतो. म्हणून के.एच.झेड.च्या युनिट्समध्ये सर्वात सामान्य दर ८ केएचझेड, १६ केएचझेड, २२.०५ केएचझेड, ४४.१ केएचझेड, ४८ केएचझेड, ९६ केएचझेड आणि १९२ केएचझेड म्हणून दर्शविले जातात.

ऑड्यासिटी यापैकी कोणत्याही नमुना दरांना समर्थन देते, तथापि बहुतेक संगणक ध्वनि कार्डे ४८००० हर्ट्ज, ९६००० हर्ट्ज किंवा कधीकधी १९२००० हर्ट्ज पेक्षा जास्त मर्यादित नाहीत. पुन्हा, आतापर्यंतचा सर्वात सामान्य नमुना दर ४४१०० हर्ट्झ आहे आणि बरीच कार्डे या दरास किंवा ज्या दरास समर्थन दिले जाईल अशा कोणत्याही दारास पूर्वनियोजितवर येतील.

खालील प्रतिमेमध्ये डाव्या अर्ध्या भागास कमी नमुना दर आहे आणि उजव्या अर्ध्या भागामध्ये उच्च नमुना दर आहे (उदा. उच्च रेझोल्युशन) :

Waveform sample rates.png

नमुना स्वरूप

ध्वनी गुणवत्तेचे दुसरे माप म्हणजे नमुना स्वरूप (किंवा बिट खोली), जे सहसा प्रत्येक नमुन्याचे प्रतिनिधित्व करण्यासाठी वापरल्या जाणार्‍या संगणक बिट्स च्या संख्येद्वारे मोजले जाते. जितके अधिक बिट्स वापरले जातील, तितके प्रत्येक नमुन्याचे प्रतिनिधित्व अधिक अचूक होईल. बिट्सची संख्या वाढवल्याने ध्वनिमुद्रणची जास्तीत जास्त गतिमान श्रेणी देखील वाढते, दुसऱ्या शब्दांत सांगायचे तर, सर्वात मोठा आणि सर्वात मऊ आवाजांमधील आवाजातील फरक जे प्रतिनिधित्व केले जाऊ शकतात.

गतिमान श्रेणी डेसिबल (डीबी) मध्ये मोजली जाते. मानवी कान कमीत कमी ९० डीबी च्या गतिमान श्रेणीसह आवाज ओळखू शकतो. तथापि, जेव्हा जेव्हा शक्य असेल तेव्हा ९० डीबी पेक्षा जास्त गतिमान श्रेणीसह डिजिटल ध्वनि ध्वनीमुद्रित करणे चांगली कल्पना आहे, जेणेकरुन खूप मऊ आवाज जास्तीत जास्त विश्वासार्हतेसाठी वाढवता येतील. लक्षात ठेवा की उपलब्ध गतिमान श्रेणीचा फायदा घेण्यासाठी सामान्यतः निम्न स्तरांवर ध्वनीमुद्रित केलेले सिग्नल वाढवले जाऊ शकतात (म्हणजे सामान्यीकृत), कमी पातळीच्या सिग्नलचे ध्वनीमुद्रण उपलब्ध बिट खोलीचा वापर करणार नाही. रेझोल्युशनची ही हानी फक्त डिजिटल लहरींचे स्वरूपची एकंदर पातळी सामान्य करून पुन्हा कॅप्चर केली जाऊ शकत नाही.

सामान्य नमुना स्वरूप आणि त्यांच्या संबंधित गतिमान श्रेणीमध्ये हे समाविष्ट आहे :

  • ८-बिट पूर्णांक: ४८ डीबी
  • १६-बिट पूर्णांक: ९६ डीबी
  • २४-बिट पूर्णांक: १४५ डीबी
  • ३२-बिट फ्लोटिंग बिंदू : अनंत डीबी

लक्षात ठेवा हार्डवेअर आणि इनपुट आणि आउटपुट कन्व्हर्टरच्या क्षमतेमुळे गतिमान श्रेणीवर व्यावहारिक मर्यादा आहेत. हे व्यावहारिक मर्यादा १६-बिटसाठी ९० डीबीसारखेच बनवते.

इतर नमुने स्वरूप जसे की एडीपीसीएम अंदाजे १६-बिट ध्वनीसह संकुचित ४-बिट नमुन्यांसह. ऑड्यासिटी यापैकी अनेक स्वरूपने आयात करु शकते, परंतु त्या चांगल्या नवीन कम्प्रेशन पद्धतींपेक्षा अधिक क्वचितच वापरल्या जातील.

ध्वनी सीडी आणि बर्‍याच संगणक ध्वनि धारिका स्वरूपांमध्ये १६-बिट पूर्णांक वापरतात. ऑड्यासिटी अंतर्गत ३२-बिट फ्लोटिंग-पॉईंट नमुना वापरते आणि आवश्यक असल्यास, अंतिम मिश्रित निर्यात केल्यावर नमुना बिट खोलीमध्ये रूपांतरित करते. ध्वनीमुद्रण दरम्यान ऑड्यासिटीचे पूर्वनियोजित नमुना स्वरूप गुणवत्ता प्राधान्यांमध्ये कॉन्फिगर केले जाऊ शकते किंवा ध्वनी गीतपट्टा ड्रॉपडाउन यादीमधील प्रत्येक गीतपट्ट्यासाठी स्वतंत्रपणे सेट केले जाऊ शकते. प्लेबॅक दरम्यान, प्रकल्पातील भिन्न नमुना स्वरूप असलेल्या कोणत्याही गीतपट्ट्यामधील ध्वनि गुणवत्ता प्राधान्यांमधील रीअल-टाइम रूपांतरण रचनाचा वापर करुन फ्लायवरपुन्हा तयार केला जाईल. प्रक्रिया करताना, मिश्रित करताना किंवा निर्यात करताना उच्च-गुणवत्तेची रूपांतरण रचना वापरली जातात.

खालील प्रतिमेत डाव्या अर्ध्या भागामध्ये काही बिट्ससह नमुना स्वरूप आहे आणि उजव्या अर्ध्यामध्ये अधिक बिटसह नमुना स्वरूप आहे. आपण उभ्या ग्रिडलाइन दरम्यानचे अंतर म्हणून नमुना दर विचार केल्यास, नमुना स्वरूप हे आडवे ग्रिडलाइन दरम्यानचे अंतर आहे.

Waveform sample formats.png

ध्वनी धारिकांचा आकार

ध्वनी धारिका खूप मोठ्या असतात, आपण कार्य केलेल्या बर्‍याच धारिकापेक्षा कदाचित खूपच मोठ्या असतात (आपण चित्रफीत धारिकासह कार्य केल्याशिवाय). संकुचित ध्वनि धारिकेचा आकार निश्चित करण्यासाठी, नमुना दर (उदाहरणार्थ ४४१०० हर्ट्ज) नमुना स्वरूप बिट दर (उदाहरणार्थ 16-बिट) वाहिनीच्या संख्येने (स्टिरीओसाठी 2) गुणाकार करा. संपूर्णपणे पूर्ण ७४-मिनिटांच्या स्टिरिओ ध्वनि सीडीमध्ये ६ अब्ज बिट जास्त लागतात. बाइटची संख्या मिळविण्यासाठी हे ८ ने विभाजित करा; ध्वनि सीडी ८०० मेगाबाइट (एमबी) पेक्षा थोडी कमी आहे. खालील संकुचित ध्वनी पहा.

क्लिपिंग

डिजिटल ध्वनीची एक मर्यादा ही आहे की बर्‍याच कारणांसाठी ते आवाजातील दाबांच्या लाटा हाताळू शकत नाही जे हाताळण्यासाठी तयार केलेल्या कमाल पातळीपेक्षा जास्त आहे. जेव्हा सिग्नल ध्वनिमुद्रण केला जातो जो +/- १.० रेषीय किंवा ० डीबीच्या कमाल पातळीपेक्षा जास्त असतो तेव्हा श्रेणीच्या बाहेरील नमुने जास्तीत जास्त मूल्यावर क्लीप केले जातात, याप्रमाणे :

WaveformClippingAbstract.png

क्लिपिंगसह ध्वनीमुद्रित केलेला आवाज विरुपित आणि कर्कश आवाज होईल. अशी काही तंत्रे आहेत जी क्लिपिंगमुळे थोडासा आवाज काढून टाकू शकतात, परंतु ध्वनिमुद्रण करताना क्लिपिंग टाळणे नेहमीच श्रेयस्कर आहे. आपल्या इनपुट स्त्रोतावरील आवाज बदला (मायक्रोफोन, कॅसेट प्लेयर, ध्वनीमुद्रित प्लेयर) आणि ऑड्यासिटीचे इनपुट व्हॉल्यूम नियंत्रण ( मिक्सर साधनपट्टीमध्ये) सेट करा जेणेकरून लहरींचे स्वरूप क्लिपिंगशिवाय शक्य तितके मोठे असेल (जास्तीत जास्त विश्वासार्हतेसाठी).

लक्षात ठेवा ऑड्यासिटीच्या पूर्वनियोजित ३२-बिट फ्लोट नमुना स्वरूपात, जास्तीत जास्तपेक्षा जास्त प्रमाणात कायदेशीररित्या कॅप्चर केलेले नमुने मूल्ये संग्रहित केली जाऊ शकतात परंतु जरी निर्यात ३२-बिट फ्लोट धारिकामध्ये जतन केली गेली तरीही ती अद्याप कोणत्याही पारंपारिक पुनरुत्पादनाच्या उपकरणांवर विरुपित होऊ शकतात. जर ऑड्यासिटीने मर्यादेपेक्षा जास्त वैध नमुने आढळले तर एम्प्लिफाई प्रभाव नकारात्मक पूर्वनियोजित "एम्प्लिफिकेशन (डीबी)" मूल्य दर्शवेल आणि आपण लहरींचे स्वरूपची मूळ शिखरे गमावल्याशिवाय शिखर विस्तार वाढवण्यासाठी जास्तीत जास्त ० डीबी पर्यंत कमी करण्यासाठी या सेटिंगवर 'ठीक' क्लिक करू शकता.

संकुचित ध्वनी

डिजिटल ध्वनि धारिका खूप मोठ्या असल्याने, कमी केलेले नमुना दर सामान्यत: जेव्हा शक्य असेल तेव्हा वापरले जातात. १९९१ मध्ये, एम.पी.३ (एम.पी.इ.जी. I, स्तर ३) साधारणाने सर्वकाही बदलले. एम.पी.३ हे एक नुकसानकारक संकुचन तंत्र आहे जे गुणवत्तेवर आश्चर्यकारकपणे कमी प्रभावासह डिजिटल ध्वनि धारिकाचा आकार आश्चर्यकारकपणे कमी करू शकते. CD-गुणवत्तेच्या ध्वनीचा एक सेकंद १.४ मेगाबिट घेतो, तर एम.पी.३ धारिकासाठी सामान्य बिट दर १२८ kbps आहे, जो १०एक्स पेक्षा जास्त कॉम्प्रेशन फॅक्टर आहे! आपले कान आणि मेंदू आवाज कसा काढतात याच्या सायकोकॉस्टिक मॉडेलच्या आधारे, मानव ज्या ध्वनि तरंगांबद्दल फारसे संवेदनशील नसतात त्याबद्दलचे तपशील चतुराईने "फेकून" देऊन एम.पी.३ कार्य करते. सर्व एम.पी.३ धारिका सारख्याच तयार केल्या जात नाहीत; वेगवेगळ्या सायकोकॉस्टिक मॉडेल्समुळे ध्वनि धारिकामध्ये वेगवेगळ्या प्रमाणात विरूपण निर्माण होईल.

पाठवल्याप्रमाणे ऑड्यासिटी एमपी ३ धारिका आयात व निर्यात करु शकते.

चांगल्या स्पीकर्ससह, बहुतेक जण सीडीवरून १२८ केबीपीएस एमपी ३ आणि एक संकुचित ध्वनि धारिकामधील फरक ऐकू शकतात. २५६ केबीपीएस आणि ३२० केबीपीएस एमपी ३ धारिका ध्वनि धारिकांमध्ये अधिक लोकप्रिय आहेत जे उच्च गुणवत्तेला प्राधान्य देतात.

इतर बरेच नुकसानकारक संकुचित ध्वनि धारिका स्वरूप आहेत. ऑड्यासिटी संपूर्णपणे ओजीजी व्हॉर्बिस स्वरूपनास समर्थन देते, जे एमपी ३ प्रमाणेच आहे परंतु पूर्णपणे मुक्त, पेटंट-मुक्त साधारण आहे. कालांतराने ओजीजी व्हॉर्बिस धरिकेची गुणवत्ता एमपी ३ च्या गुणवत्तेला मागे टाकण्यासाठी आली आहे आणि त्याचे स्वरूप अधिक विस्तारणीय आहे म्हणून अधिक सुधारणा शक्य आहेत. ओजीजी व्हॉर्बिस आपल्या स्वतःच्या ध्वनीसाठी एक उत्तम निवड आहे, तथापि वास्तविकता अशी आहे की आयपॉड्स आणि इतर पोर्टेबल ध्वनि प्लेयर्स सारख्या बर्‍याच उपकरणे एमपी ३ चे समर्थन करतात परंतु ओजीजी व्हॉर्बिस अद्याप नाही.

इतर सुप्रसिद्ध संकुचन पद्धतींमध्ये एटीआरएसी, सोनी मिनीडिस्क ध्वनिमुद्रक, विंडोज मीडिया ध्वनि (डब्ल्यूएमए) आणि एएसी यांचा समावेश आहे. वैकल्पिक एफएफएमपीईजी ग्रंथालय जोडून अधिक स्वरूपाचे समर्थन करते.

नुकसानविरहित संकुचन

नुकसानविरहित संकुचन गुणवत्ता न गमावता धारिकेचा आकार कमी करते. धारिकेचा आकार कमी करण्याची ही जादूची पद्धत ध्वनि धारिकांवर लागू केली जाऊ शकते. एमपी ३ हानीकारक संकुचन वापरत असताना, नवीन संकुचन अल्गोरिदम, जसे की एफ.एल.ए.सी. आणि एप्पल नुकसानविरहित संकुचन, नुकसानविरहित संकुचन केलेले ध्वनि धारिका तयार करण्यासाठी वापरले जाऊ शकतात.

मुळात अशा प्रकारचे संकुचन मूळ धरिकेचा माहिती अधिक कार्यक्षम मार्गाने पुन्हा लिहितात. तथापि, कोणतीही गुणवत्ता गमावली नसल्यामुळे, परिणामी धारिका हानीकारक संकुचनासह संकलित केलेल्या प्रतिमा आणि ध्वनि धारिकांपेक्षा जास्त मोठी असतात. उदाहरणार्थ, हानीकारक संकुचनाचा वापर करून संकुचित केलेली धारिका मूळ आकाराच्या दहाव्या आकाराची असू शकते, तर नुकसानविरहित संकुचन मूळ आकाराच्या अर्ध्यापेक्षा लहान धारिका तयार करण्याची शक्यता नसते.

दोषरहित ध्वनि स्वरूप बहुतेक वेळा संग्रहण किंवा उत्पादन हेतूसाठी वापरले जातात, तर लहान हानीकारक ध्वनि धारिका विशेषत: पोर्टेबल प्लेयर्सवर वापरल्या जातात आणि स्टोरेज स्पेस मर्यादित असल्यास किंवा ध्वनीची अचूक प्रतिकृती अनावश्यक असते.