今井慎太郎




Twenty Years of Ircam Spat: Looking Back, Looking Forward
Ircam Spatの20年——過去と未来



ABSTRACT
要旨

Ircam Spat is a software suite dedicated to sound spatialization and artificial reverberation. This paper traces the evolution of the software during the last few years and presents its current state with a focus on the newly available features.
Ircam Spatは、音の空間化と人工リバーブのためのソフトウェア・パッケージである。本論文は、ここ数年間のソフトウェアの進化を辿り、新しく利用できるようになった機能に焦点を当てながら、現在の状況を報告する。



1. HISTORICAL BACKGROUND
1. 歴史的背景

Ircam’s Spatialisateur (commonly referred to as Spat∼) is a tool dedicated to real-time sound spatialization and artificial reverberation. It comes as a library of audio signal processors which core consists of an algorithmic reverberation engine [1] and a panning module. Since its origins in the early 1990s Spat∼ has been conceived as a modular and scalable framework[2,3] and it is integrated in the Max/MSP(*1) environment. Thanks to this modular architecture and design, the tool can be seamlessly adapted for various use cases (live concerts, mixing, post-production, virtual reality, interactive installations, etc.) and configured according to the reproduction system — headphones or loudspeaker arrangement— and the available processing power.
IrcamのSpatialisateur(一般にSpat~と呼ばれる)は、リアルタイムでの音の空間化と人工リバーブに特化したツールである。アルゴリズム・リバーブ・エンジン[1]とパンニング・モジュールで構成されるコアを持った、音声信号処理のライブラリとして提供される。その起源である1990年代初期から、Spat~はモジュール式で拡張可能なフレームワークとして考案され[2,3]、またMax/MSP(*1)の環境に統合されている。このモジュール式アーキテクチャとデザインのおかげで、様々な使用場面(ライブ・コンサート、ミキシング、ポスプロ、VR、インタラクティブ・インスタレーションなど)へ、このツールをシームレスに適合させることができる。そして再生システム——ヘッドフォンやスピーカーの設置方法——と、利用できる処理能力に応じて、環境設定をすることができる。

The Spatialisateur can be controlled by a high-level interface which includes perceptual features derived from psychoacoustic studies [4, 5]. This allows the user to intuitively specify the characteristics of the desired room effect and to interpolate continuously towards a different acoustic quality, going through natural-sounding transformations.
音響心理学の見地から得られた知覚的描写を含む高レベル・インターフェースにより[4, 5]、Spatialisateurは操作可能である。こうしてユーザは、求める室内エフェクトの特徴を直感的に指定でき、また自然に聞こえる変形を経ながら異なった音響特性へと連続的に補間できる。

In terms of software engineering, the Spatialisateur was originally developed as a set of Max/MSP patches and abstractions. During the years 1990–2000 the most critical elements (filtering and reverberation stages) were progressively ported to C code as externals objects. However this architecture (Max abstractions and a few C externals) was not flexible enough for configuring the Spat∼ modules: the Spatialisateur was typically restricted to one input source (mono or stereo) and a dozen of output channels. In 2008–2010 it was then decided to completely refactor the software. The refactoring further aimed at taking better advantage of the massively multichannel audio interfaces and computing power now available.
ソフトウェア・エンジニアリングについて、SpatialisateurはもともとMax/MSPのパッチやアブストラクションのセットとして開発された。1990年から2000年にかけて、最も重要な部分(フィルタとリバーブの層)が、エクスターナル・オブジェクトとしてC言語のコードに徐々に移植された。しかしこのアーキテクチャ(MaxのアブストラクションといくつかのCエクスターナル)は、Spat~モジュールを設定するのに十分に柔軟ではなかった。その典型としてSpatialisateurは、ひとつの入力音源(モノまたはステレオ)と12の出力チャンネルに限定されていた。 2008年から2010年に、ソフトウェアを完全に書き直すことが決定された。この書き直し(リファクタリング)はさらに、現在利用可能である大規模なマルチチャンネル・オーディオインターフェースや計算能力による利点を引き出すことを目標にした。

This paper presents an overview of the developments carried out in the last few years, with an emphasis on the new functionalities.
本論文は、新しい機能に重点を置きながら、ここ数年で行われた開発成果の概要を報告する。

*1 http://cycling74.com/



2. SOFTWARE ARCHITECTURE
2. ソフトウェア・アーキテクチャ

The Spatialisateur has been completely rewritten from scratch in C++ language (and marginally in objective-C). Indeed object-oriented programming is well suited for the modular and scalable design of Spatialisateur. The most critical signal processing blocks are highly optimized and vectorized (e.g. with the Accelerate framework(*2) under MacOS).
C++言語(またわずかなオブジェクティブC言語)のフル・スクラッチで、Spatialisateurは書き直されている。実際オブジェクト指向プログラミングは、Spatialisateurのモジュラー式で拡張可能なデザインによく合っている。最も重要な信号処理ブロックは(例えば、MacOS下のAccelerateフレームワーク(*2)により)高度に最適化され、ベクトル化されている。

The source code is split in two main libraries: one is dedicated to the signal processing tasks while the other contains the graphical user interfaces. These two libraries are crossplatform, independent from the host application —i.e. they do not rely on Max/MSP— and autonomous (the only dependency is the Juce framework(*3), which is used for developing the graphical interfaces).
ソースコードは2つの主要ライブラリに分けられ、一方は信号処理タスク専用で、他方はグラフィカル・ユーザー・インターフェースを含む。これら2つのライブラリはクロスプラットフォームであり、ホスト・アプリケーションから独立し——すなわち、Max/MSPに依存しておらず——また自律的である(グラフィカル・インターフェースを開発するために用いるJuceフレームワーク(*3)に、唯一依存している)。

The benefits from this complete refactoring are manifold:
この完全なリファクタリングの恩恵は多種多様である:

• the signal processing algorithms show better performances (compared to the patch implementation),
・信号処理アルゴリズムが(パッチによる実装に比べて)より良いパフォーマンスを見せる。

• the algorithms can be flexibly configured: the number of input and output channels of the objects are defined by the @numinputs and @numoutputs attributes (see Figure 4) and they typically vary from 1 to 512 depending on the setup,
・アルゴリズムを柔軟に設定できる。オブジェクトの入出力数は@numinputsと@numoutputsアトリビュートにより定義され(図4を参照)、セットアップにしたがって通常は1から512に変更できる。

• the Spatialisateur no longer relies on Max/MSP and it can spread in new environments: several bindings have been developed in order to cover various use cases (see Figure 1). Max/MSP externals are used for concerts or interactive installations. Audio plugins(*4) can be inserted in digital audio workstations for mixing and post-production applications. Several tools have been integrated into the OpenMusic environment [6] for spatialization authoring and synthesis. Finally mexfunctions are generated for Matlab and they are used (internally) for research and numerical simulation purposes.
・SpatialisateurはもはやMax/MSPに依存しておらず、新しい環境に拡がり得る。様々な使用場面をカバーするために、複数のバインディングが開発されている(図1を参照)。Max/MSPのエクスターナルは、コンサートやインタラクティブ・インスタレーションに用いる。オーディオ・プラグイン(*4)は、ミキシングやポスプロのアプリケーションのためのDAWに挿入できる。空間化のオーサリングや合成のためのいくつかのツールが、OpenMusicの環境に統合されている。最後に、Matlabのためにmexfunctionsが生成され、研究や数値シミュレーションの目的のために(内部的に)用いられている。

In the remainder of this paper, we will focus on the new features of Spat∼ running in Max/MSP as this is the most commonly employed environment and it contains the latest innovations.
本論文の後半は、Max/MSP上で稼働するSpat~の新しい機能に焦点を当ててゆく。これは最も一般的に用いられている環境であり、また最新のイノヴェーションを含むからである。

*2 http://developer.apple.com
*3 http://www.juce.com
*4 released by Flux: company http://www.ircamtools.com


Figure 1. Spatialisateur bindings in various working environments.

図1.様々な作業環境でバインディングされるSpatialisateur



3. REVERBERATION ENGINE
3. リバーブ・エンジン

Spat∼ is built around a multichannel algorithmic reverberation engine. The generated room effect consists of four temporal segments (Figure 2): the direct sound, a few early reflections generated by a delay line with multiple tap delays, a set of dense late reflections (referred to as cluster) generated by multiple delay lines feeding a decorrelation matrix, and a late reverb tail synthesized by a feedback delay network (FDN) [1].
Spat∼は、マルチチャンネルのアルゴリズム・リバーブ・エンジンを中心に構築されている。生成される室内エフェクトは、4つの時間的な分節から成り立つ(図2):直接音、マルチタップ・ディレイによるディレイ・ラインが生成する初期反射、非相関行列に送られる複数のディレイ・ラインが生成する(クラスタとして表される)高密度な後期反射の集合、フィードバック・ディレイのネットワーク(FDN)が合成する後期リバーブ・テイルである[1]。


Figure 2. Archetype of an impulse response generated by the Spatialisateur reverberation engine.

図2.Spatialisateurのリバーブ・エンジンが生成するインパルス応答の典型。

OD: direct sound. R1: early reflections. R2: late reflections. R3: reverberation tail.
OD:直接音、R1:初期反射、R2:後期反射、R3:リバーブ・テイル

With version 4.x of Spat∼ several changes have been applied to the FDN code, compared to the original implementation of Jot [1]: the number of internal feedback channels which was limited to 8 can now be increased to 16 or 32. A higher number of feedback channels allows to increase the modal or echo density; this reveals useful when creating long reverberation effects (several seconds long) or when processing percussive sounds with sharp transients. A set of filters simulating the air absorption have further been inserted into the FDN loop. These filters have a lowpass response which shapes the reverberation profile in a more realistic way. Finally the control over the decay relief (i.e. reverberation time), which was originally operated in two or three frequency bands, has been extended to an arbitrary number of bands (see e.g. the spat.multiverb∼ object).
Spat~のバージョン4.xで、Jotのオリジナル実装[1]に比べ、FDNコードにいくつかの変更を適用した。8つに限定されていた内部フィードバック・チャンネルの数が、16または32に増加した。フィードバック・チャンネル数が大きいほど、モード密度またはエコー密度を増加させることができる。これは(数秒程度の)長いリバーブ効果をつくるときや、鋭いトランジェントの打楽器的な音を処理するときに、役立つことが分かる。空気吸収をシミュレートするフィルタの集合を、さらにFDNループに挿入した。これらのフィルタは、よりリアルな方法でリバーブの輪郭を形づくる、ローパス応答を持つ。最後に、もともと2〜3の周波数帯域で操作していたディケイ・レリーフ(すなわちリバーブ時間)の制御を、任意の数の帯域に拡張した(例えば、spat.multiverb~オブジェクトを参照)。

Besides these evolutions, the global architecture of the reverberation processor (and its link with the panning modules) remains similar to the original design [2, 7]; as a reminder, Figure 3 presents a synoptic view of the audio processing chain.
こうした進化のほか、リバーブ・プロセッサ(およびパンニング・モジュールとのリンク)の全体的なアーキテクチャは、オリジナルのデザインに近いままである[2, 7]。リマインダとして、図3に音声処理チェーンの概観を示す。


Figure 3. Global architecture of Spat∼. The “Input” module handles the source pre-processing such as filtering and simulating the Doppler effect and air absorption. The “Room” module generates the reverberation effect split in four temporal segments, each filtered independently. These four sections are later panned according to a simple space-time model: early reflections R1 “surround” the direct sound while sections R2 and R3 are spatially diffuse. Finally the “Output” module decodes or transcodes the signals according to the playback system, and it includes loudspeaker equalization and delay/gain alignment.

図3.Spat~の全体的なアーキテクチャ。「Input」モジュールは、フィルタやドップラー効果、空気吸収のシミュレーションなど、音源の事前処理を扱う。「Room」モジュールは、それぞれが独立してフィルタ処理される、4つの時間的な節に分けられるリバーブを生成する。これらの4つの節は、単純な時空間モデルにしたがって後にパンニングされる。初期反射R1は直接音を「取り囲」み、R2やR3は空間的に拡散される。最後に「Output」モジュールが、再生システムに従って信号をデコードもしくはトランスコードする。またラウドスピーカのイコライゼーションとディレイ/ゲインの調整を行う。



4. PANNING.
4.パンニング

From now on, the panning stage is implemented as a unique external, spat.pan∼. The object is polymorphic: according to its attributes it configures the appropriate number of input and output channels as well as the type of spatialization to use. A wide range of spatialization algorithms are supported: traditional stereo techniques (AB, XY, MS), binaural synthesis, amplitude panning (e.g. VBAP in 2D or 3D [8], VBIP [9], DBAP [10], SPCAP [11]), etc.
これから、単独のエクスターナルであるspat.pan~として、パンニング層を実装する。このオブジェクトはポリフォニックであり、その属性に従って、適切な入出力チャンネル数と用いる空間化タイプを設定する。伝統的なステレオ技術(AB、XY、MS)やバイノーラル合成、アンプリチュード・パンニング(例えば2Dや3DのVBAP[8]、VBIP[9]、DBAP[10]、SPCAP[11]など)、広範な空間化アルゴリズムがサポートされている。

The remainder of this section details some panning families that include the most substantial innovations.
本章の後半では、最も重要な新手法を含む、パンニングの種類について詳述する。

4.1 Higher Order Ambisonics
4.1 高次アンビソニックス

First order Ambisonic (B-format) encoding and decoding has been supported in the Spatialisateur for many years. In the early 2000s, Daniel [12] extended and formalized the Ambisonic paradigm for higher orders (HOA). These scientific advances have been integrated into Spat∼ in the last few years: the spat.pan∼ object now supports 2D and 3D HOA encoding for any order (the algorithms are all implemented with recursive formulae). For instance, pieces created in the performance hall of Ircam (Espace de Projection [13]) typically use 7th order 3D HOA, thus encoding the sound field on 64 spherical harmonics. Near-field Compensation Coding (NFC-HOA, see [14]) is also available in Spat∼ and order-dependent high-pass compensation filters are applied in order to avoid problematic bass-boost when synthesizing finite distance sources. The spat.hoatransform∼ object is used to apply transformations in the spatial Fourier domain; one can e.g. weight the different spherical harmonic components in order to create spatial blur effects, or apply transformation matrix to efficiently rotate the 3D sound scene. Finally spat.decoder∼ performs HOA decoding in 2D or 3D. Traditional decoding approaches consist in sampling the spherical harmonic excitation at the loudspeaker positions or matching the excitation modes of a continuous sound field to those of the loudspeakers. As these techniques perform unsatisfactorily with non-uniformly distributed loudspeaker arrays, a new decoder design has been proposed [15] and implemented in Spat∼. This so-called energy-preserving decoder avoids sudden variations in the decoded energy and preserves the apparent width of the virtual sources even with sparse loudspeaker coverage. Furthermore spat.decoder∼ can perform dual-band decoding, with adjustable crossover frequency, and in-phase or max-re optimizations can be applied in each band [12]. Figure 4 depicts the standard workflow for creating synthetic HOA scenes.
1次アンビソニックス(Bフォーマット)エンコーディングとデコーディングは、長年Spatialisateurでサポートしてきた。2000年代の初め、ダニエル[12]はアンビソニックス・パラダイムを高次に拡張し、正式化した(HOA)。これらの科学的進展を、ここ数年でSpat~の内部に統合してきた。spat.pan~オブジェクトは現在、あらゆる次数での2Dと3DのHOAエンコーディングをサポートする(このアルゴリズムはすべて再帰式で実装されている。) 例えば、Ircamの演奏ホール(Espace de Projection)で制作された作品は、通常は7次3DのHOAを用い、したがって64の球面調和関数で音場をエンコードする。近距離補正コーディング(NFC-HOA、[14]を参照)もSpat~で使用でき、有限距離の音源を合成する際に問題となる低音のブーストを避けるために、次数依存性ハイパス補正フィルタを適用する。spat.hoatransform∼オブジェクトは、空間フーリエ領域で変換を適用するために用いられる。例えば、空間ブラー効果をつくるために、異なる球面調和関数要素の重みづけをしたり、3D音場を効率的に回転させるための変換行列を適用することができる。 最後に、spat.decoder∼が2Dと3DでHOAのデコーディングを行う。 伝統的なデコーディング方法は、ラウドスピーカの位置における球面調和関数のサンプリング、もしくは連続音場の励起モードをラウドスピーカのそれと一致させることにある。こうした技術は不均一に分散されたラウドスピーカ配置では満足の行く動作をしないため、新しいデコーダのデザインが提案され[15]、Spat~に実装されている。このいわゆるエネルギー保存デコーダは、デコードされたエネルギーの急な変化を防ぎ、ラウドスピーカのカバー範囲がまばらであっても仮想音源の外見上の幅を保持する。さらにspat.decoder∼は、調整可能なクロスオーバー周波数でデュアルバンドのデコーディングを行うことができ、inPhaseもしくはmaxReの最適化も各バンドに適用できる[12]。

In addition to that, several utility tools have been developed in order to ease frequent operations and to increase the uptake of Ambisonic: spat.hoaconverter∼ converts between various existing formats (N3D, SN3D, FuMa, etc.), spat.eigenencode∼ encodes in the HOA domain the signals captured by a spherical microphone array, spat.hoasorting∼ sorts the HOA channels according to different conventions, etc.
それに付け加えて、頻繁な操作を簡略化し、アンビソニックスの理解を高めるための、いくつかのユーティリティ・ツールを開発してきた。様々な既存のフォーマット(N3D、SN3D、FuMa等)の間を変換するspat.hoaconverter∼、球状マイクロフォン・アレイで収録された信号をHOA領域でエンコードするspat.eigenencode∼、異なる慣習に応じてHOAチャンネルを整理するspat.hoasorting∼、など。


Figure 4. HOA workflow. In this example, three sources are encoded in 2D 3rd order Ambisonic then decoded over seven loudspeakers.

図4.HOAワークフロー。この例では、3つの音源を2D3次アンビソニックスにエンコードし、それから7つのラウドスピーカに対してデコードする。

4.2 Nearfield binaural synthesis
4.2 近距離バイノーラル合成

Realtime binaural and transaural synthesis have been supported in Spat∼ since its first versions [7]. Such processing techniques rely on filtering the input signals with a set of HRTFs(*5) which characterize the transfer path of sound from a position in space to the ear of a listener. HRTFs are usually measured for a large number of positions on a surrounding sphere in the far-field of a listener’s head. However, it is well known from literature that HRTFs are significantly different for sources located in the proximal region of the subject. Virtual reality environments constitute a typical use case where binaural synthesis of nearby sources is required. On the one hand, a novel technique has been developed for radial extrapolation of HRTFs [16] and on the other hand, the binaural synthesis renderer (spat.pan∼) has been adapted to sources located in the proximal region. The solution adopted for the realtime implementation is based on non-individualized filters [17] for correcting the ILD(*6), cross-ear selection of HRTF filters, and geometrical corrections of monaural gains and delays [18].
リアルタイムのバイノーラルおよびトランスオーラル合成を、Spat~では最初のバージョンからサポートしている[7]。こうした処理技術は、空間内のある位置からの音がリスナーの耳に届く経路を特徴づける、頭部伝達関数(HRTF)(*5)の集合を用いた入力信号のフィルタリングを必要とする。HRTFは通常、リスナーの頭部を遠距離で取り囲む球体上の多数の位置について計測される。しかしながら、被験者の中心に近い領域に位置する音源についてHRTFが著しく異なることは、文献からはよく知られている。VR環境では、近接音源のバイノーラル合成が必要となる典型的な使用場面がある。一方で、HRTFのラジアル外挿のための革新的な技術が開発され、また一方では、バイノーラル合成レンダラ(spat.pan~)は、中心に近い領域に位置する音源に適応してきた。リアルタイム実装に採用される解決法は、ILD(Interaural Level Differences 両耳間レベル差)(*6)の収集、HRTFフィルタの交耳選択、モノラル・ゲインとディレイの幾何補正[18]のための、非特化型フィルタ[17]に基づく。

*5 Head-Related Transfer Function
*6 Interaural Level Differences
*5 Head-Related Transfer Function
*6 Interaural Level Differences

4.3 TransPan
4.3 TransPan

TransPan [19] is a new tool dedicated (mainly) to 5.1 mixing and conceived in partnership with the CNSMDP(*7). It aims at overcoming some of the weaknesses of the 5.1 standard in terms of stability and precision of lateral sources. To that purpose, TransPan combines several spatialization layers: 1) a traditional surround panning (constant-power panning and/or multichannel microphone recordings) and 2) a binaural/transaural [7] processing layer using two loudspeaker pairs (L/R and Ls/Rs). The binaural/transaural layer provides the spatial precision that lacks for the lateral images, and can also be employed for creating virtual sources in elevation (outside of the 5.1 horizontal plane).
TransPan[19]は、(主に)5.1chミキシングに特化し、CNSMDP(*7)とのパートナーシップで考案された新しいツールである。側面音源の安定性と精度について、5.1ch規格の弱点のいくつかを克服することを目標にしている。この目的のために、TransPanはいくつかの空間化レイヤを組み合わせている。1)伝統的なサラウンド・パンニング(コンスタント・パワー・パンニングと/もしくはマルチチャンネル・マイクロフォン録音)。2)2つのラウドスピーカ・ペア(L/RとLs/Rs)を用いたバイノーラル/トランスオーラル[7]処理レイヤ。バイノーラル/トランスオーラル・レイヤは、側面イメージに欠ける空間の精度を与え、さらに仰角(5.1ch水平面の外部)に仮想音源をつくるためにも使用できる。

The spat.transpan∼ object comes as a mixing engine capable of combining the different spatialization layers. The balance (levels, delays and equalization) between the layers can be adjusted manually or automatically based on empirical mixing curves that aim at maximizing the spatial impressions while minimizing the risk of tonal coloration (inherent to any transaural processing). Figure 5 illustrates one view of the spat.transpan∼ control interface.
spat.transpan∼オブジェクトは、異なる空間化レイヤを組み合わせることができるミックス・エンジンとして存在する。レイヤ間のバランス(レベル、ディレイ、イコライゼーション)は、手動で、もしくは(あらゆるトランスオーラル処理につきものである)音の色付けの危険性を最小化しながら空間の印象を最大化することを目指す、実験に基づいたミキシング曲線に基づき、自動で調整できる。図5はspat.transpan∼の操作インターフェースを図解する。


Figure 5. TransPan control interface. Example with six sound sources.

図5 TransPanの操作インターフェース。6つの音源による例。

*7 Conservatoire National Supérieur de Musique et de Danse de Paris
*7 Conservatoire National Supérieur de Musique et de Danse de Paris



5. USER INTERFACES
5. ユーザ・インターフェース

Version 4.x of the Spatialisateur library is shipped with several user interfaces for controlling and monitoring sound spatialization.
Spatialisateurライブラリのバージョン4.xは、音の空間化の操作とモニタリングのための、いくつかのインターフェースと共に出荷されている。

spat.viewer (see Figure 6) is a tool for the visualization and editing of spatial sound scenes. The object allows to display and manipulate a variable number of sources and loudspeakers in a 2D representation (view from the top, from the bottom, or both side-by-side). The look and feel is highly customizable through Max/MSP attributes. The position and orientation of the scene entities (sources or loudspeakers) can be controlled by a set of Max/MSP messages with a clear, human-readable, syntax. Many coordinate systems are supported. Furthermore, several utility objects are provided for efficient manipulation of the geometrical data (translation, rotation, scaling, nearest neighbors search, source grouping, conversion between absolute and relative coordinate systems, etc.). It is also worth noting that spat.viewer is not tied to the Spatialisateur rendering engine, and it could be used to operate other spatialization processors.
spat.viewer(図6を参照)は音空間シーンの視覚化と編集のためのツールである。このオブジェクトは、可変数の音源とラウドスピーカの表示と操作を、(頭上から、下から、また両方を並べての)2D表現で可能にする。Max/MSPのアトリビュートにより、ルック&フィールは高度にカスタマイズ可能である。シーンに存在する物(音源またはラウドスピーカ)の位置と方向は、明瞭かつ人間に理解できるシンタクスによりMax/MSPの一連のメッセージで操作できる。多くの座標系をサポートしている。さらに、幾何データ(移動、回転、拡大縮小、最も近い他の音源の検索、音源のグルーピング、絶対座標系と相対座標系の間の変換など)の効率的な操作のために、いくつかのユーティリティ・オブジェクトを提供している。spat.viewerはSpatialisateurのレンダリング・エンジンに結びつけられておらず、別の空間化プロセッサを操作するために使うことができることも重要である。


Figure 6. spat.viewer interface. Example with four sources, five loudspeakers and one listener, all in a virtual space. View from the top.

図6.spat.viewerインターフェース。4つの音源、5つのラウドスピーカと1人のリスナーが、すべてひとつの仮想空間にある例。頭上からの視点。

spat.oper (see Figures 7 and 8) is the main control interface for the Spatialisateur (i.e. for the spat.spat∼ rendering object). spat.oper is a “perceptual operator” which provides high-level control over the acoustical quality of the virtual room [4, 5]. It allows to navigate along different perceptual axes called “perceptual factors”. These axes are mutually independent and they correlate with physical criteria observed in real concert halls. Amongst the nine perceptual factors, three are related to the source itself (presence, warmth, brillance), three characterize the room itself (reverberance, heaviness and liveness), and three account for the interaction between the source and the room (room presence, running reverberance and envelopment). spat.oper can be set to imitate the acoustics of an existing room and allows to interpolate naturally (and continuously) between different acoustic qualities.
spat.oper(図7と8を参照)はSpatialisateur(すなわちspat.spat~レンダリング・オブジェクト)の主な操作インターフェースである。spat.operは、仮想室内の音響特性について高レベルの操作を提供する、「知覚的オペレータ」である[4, 5]。「知覚因子」と呼ばれる様々な知覚軸に沿ってナビゲートできる。これらの軸は相互に独立しており、現実のコンサート・ホールで観測される物理的な尺度と関連付けられる。9つの知覚因子について、3つは音源自体に関係し(存在感、暖かさ、明るさ)、3つは室内自体を特徴づけ(リバーブランス〈音がリバーブで引き伸ばされる感覚〉、重厚感、躍動感)、3つが音源と室内の間の相互作用(室内の存在感、ランニング・リバーブランス〈初期減衰時間〉、包まれ感)を占める。spat.operは、現実の室内の音響を模倣するよう設定することができ、また異なる音響特性の間を自然に(かつ連続的に)補間することができる。


Figure 7. Screenshot of spat.oper: the reverb tab.

図7.spat.operのスクリーンショット:リバーブ・タブ

Besides the perceptual factors, spat.oper allows to control the filtering parameters (filtering of the direct and reverberant sounds), the radiation of the sources (aperture and orientation of the radiation pattern), the characteristics of the distance attenuation law, as well as miscellaneous options. spat.oper displays as a tabbed component: there is one tab for each source (Figure 8) and one tab for each virtual room (Figure 7). Finally, spat.oper embeds a spat.viewer component for a schematic view of the sound scene.
知覚因子のほか、フィルタのパラメータ(直接音とリバーブ音のフィルタ)、音源の放射(放射パターンの絞りと方向)、距離減衰法則の特性など、多種多様なオプションをspat.operは操作できる。spat.operはタブの付いた要素として表示する。各音源(図8)と各仮想室内(図7)につき1つのタブがある。最後に、サウンド・シーンの図式的な表示のために、spat.operはspat.viewerの要素を取り込んでいる。

Many other graphical user interfaces have been developed (and are progressively enhanced) for controlling, monitoring and authoring sound spatialization. It is beyond the scope of this paper to describe these interfaces in detail. A quick overview is presented in Figure 9.
ほかにも、音の空間化の操作やモニタリング、オーサリングのために、多くのユーザー・インターフェースを開発し(また徐々に拡張し)てきた。それらのインターフェースを詳述することは、この論文の範囲を超える。簡単な概要を図9に示す。


Figure 8. spat.oper: source tab. selection of the source tab. selection of the room tab. perceptual factors for the source. localization and radiation panel. direct sound filter. reverberated sound filter. visualization of the sound scene. other options.

図8.spat.operの音源タブ:1.音源タブの選択、2.室内タブの選択、3.音源の知覚因子、4.位置と放射、5.直接音フィルタ、6.リバーブ音フィルタ、7.サウンド・シーンの視覚化、8.その他のオプション




Figure 9. Several user interfaces included in Spat∼. Jitter interface for spat.viewer. parametric equalizer. HRTFs inspection (magnitude/phase responses). multichannel level meter. geometrical model with image sources. binary matrix. matrix control. authoring of spatial trajectories. 3D sound field visualization.

図9:Spat~に組み込まれたいくつかのユーザー・インターフェース。1.spat.viewerのためのJitterインターフェース、2.パラメトリック・イコライザ、3.HRTFインスペクション(強度/位相応答)、4.マルチチャンネル・レベル・メータ、5.幾何学モデルとイメージ・ソース、6.バイナリ・マトリクス、7.マトリクス・コントロール、8.空間移動のオーサリング、9.3D音場の視覚化



6. ROOM IMPULSE RESPONSES
6. 室内インパルス応答

Due to the increase in available processing power, convolution-based reverberation processing became widely applied during the last few decades. Several new objects have then been added to the Spatialisateur suite for manipulating and processing room impulse responses (IR).
利用できる処理能力の増加に従って、ここ数十年ほどにわたってコンボリューション・ベースのリバーブ処理が広範に適用されるようになった。そこで、室内インパルス応答(IR)を操作し処理するためのいくつかの新しいオブジェクトを、Spatialisateurパッケージに追加してきた。

6.1 (Parametric)convolution
6.1(パラメトリック)コンヴォリューション

spat.conv∼ is a multichannel convolution engine based on overlap-saved block-partitioned FFT algorithms [20]. The computation of the high latency blocks is handled in a background thread in order to take advantage of modern multi-core processors. The user can adjust the minimum block size which offers a tradeoff between audio latency (which can be set to zero) and computational load.
spat.conv~は、オーバーラップ保存ブロック分割FFTに基づく[20]、マルチチャンネルのコンヴォリューション・エンジンである。モダンなマルチコア・プロセッサの利点を得るために、高遅延ブロックの計算はバックグラウンドで扱われる。(ゼロに設定できる)オーディオ遅延と計算的な負荷の間のトレードオフとなる最小ブロック・サイズを、ユーザは調節できる。

spat.converb∼ is another convolution processor based on the same DSP algorithms. spat.converb∼ further truncates the impulse response in four temporal segments (with adjustable lengths) according to the Spatialisateur paradigm (Figure 2); additionally a parametric filter is applied to each segment of the IR. The user can control the four filters either at the low-level (gains and cutoff frequencies) or by means of the high-level perceptual approach of spat.oper [21].
spat.converb~は、同様のDSPアルゴリズムに基づく別のコンヴォリューション・プロセッサである。spat.converb~は、Spatialisateurのパラダイム(図2)に従って(長さを調節できる)4つの時間的分節でインパルス応答をさらに切り詰める。加えて、パラメトリック・フィルタをIRの各分節に適用する。低レベル(ゲインとカットオフ周波数)もしくはspat.operの高レベル知覚アプローチを用いて、ユーザは4つのフィルタを操作できる。

6.2 Measurement of room impulse responses
6.2 室内インパルス応答の測定

spat.smk∼ is a tool for measuring the impulse response of linear time-invariant systems using the swept-sine technique [22]. After configuration of the sweep signal (duration, waveform, frequency range, etc.), the object performs the measurement of the system (which can be multichannel), deconvolves the raw signals, and saves the data as well as meaningful metadata to disk. After each measurement, the object estimates various criteria in realtime (signal-to-noise ratio, harmonic distortion ratio, reverberation time, etc.) for controlling the quality of the measure.
spat.smk~は、掃引サイン法を用いた線型時不変系のインパルス応答を測定するためのツールである[22]。掃引信号の設定(持続、波形、周波数幅などの)後に、このオブジェクトは(マルチチャンネルも可能な)系の計測を実行し、未加工の信号をデコンヴォリューションし、データと意味のあるメタデータをディスクに保存する。各計測の後、測定の質を制御するために、このオブジェクトはリアルタイムに様々な尺度(SN比、高調波歪み比、リバーブの時間など)を推定する。

In addition to that, spat.smk∼ can be linked to other acoustical tools such as spat.edc which computes and displays the energy decay curve of the IR, spat.mixingtime which estimates and displays the mixing time, or spat.ir.infos which derives many acoustical criteria (clarity, central time, early decay time, etc.).
それに加えてspat.smk~は、IRのエネルギー減衰曲線を計算し表示するspat.edcや、ミックス時間を推定し表示するspat.mixingtime、もしくは多くの音響的尺度(明瞭度、中心時間、初期減衰時間など)を得るspat.ir.infosなど、その他の音響ツールとリンクできる。

6.3 Analysis of room impulse responses
6.3 室内インパルス応答の解析

Measured room impulse responses can be further analyzed thanks to the spat.rat object (Room Acoustics Toolbox). This external implements a time-frequency analysis of the energy decay relief (spectral energy density after any time) [23]. From this analysis it is possible to extract all the (frequency dependent) characteristics of the decay: noise level, reverberation time and initial power spectrum.
spat.rat(Room Acoustics Toolbox)により、測定した室内インパルス応答をさらに解析できる。このエクスターナルは、エネルギー・ディケイ・レリーフ(任意時間後のスペクトル・エネルギー密度)の時間−周波数解析を実行する[23]。この解析から、すべての(周波数依存の)減衰特性である、ノイズ・レベル、リバーブの時間と初期パワースペクトルを抽出することができる。

The benefits of such estimation are twofold: 1) it is possible to denoise the measured IRs (the part corrupted by noise is subtracted and replaced by a synthetic late reverberation conform to the original energy decay relief) [23]; such denoising is crucial if the IR is to be used in a convolution processor. 2) it is also possible to estimate the perceptual factors corresponding to the IR; in other words the spat.rat object can derive a set of parameters for spat.oper such that the Spat∼ FDN seamlessly mimics the measured IR.
そのような推定の恩恵は2つの要素から成る。1)測定されたIRのノイズ除去が可能(ノイズにより破壊された部分が差し引かれ、オリジナルのエネルギー・ディケイ・レリーフに一致する合成された後期リバーブによって置き換えられる)。このようなノイズ除去は、コンヴォリューション・プロセッサでIRが使われる際にきわめて重大である。2)IRに対応して知覚因子を推定することも可能である。言い換えれば、spat.ratオブジェクトは、Spat~ FDNが測定されたIRをシームレスに模倣するように、spat.operのパラメータ・セットを引き出すことができる。

6.4 Hybrid reverberation processor
6.4 ハイブリッド・リバーブ・プロセッサ

Convolution-based approaches (such as spat.conv∼, see paragraph 6.1) guarantee for an authentic and natural listening experience as they preserve the acoustical signature of existing rooms. However convolution processors are often difficult to parametrize: the control over the reverberation effect is, in general, limited to only a few low-level parameters such as early-to-reverb ratio. Also the computational cost of such engines depends on the length of the processed IR. On the other hand, parametric reverberators (such as FDNs) are scalable and they allow for a continuous tuning of the time and frequency behavior of the room response. A commonly reported drawback of FDN rendering is the lack of authenticity in the early part of the room response (coloration artifacts, insufficient echo and/or modal densities).
コンヴォリューションに基づくアプローチ(spat.conv~など、第6.1節を参照)は、実際の室内の音響的特徴を保持しているため、忠実で自然な聴取体験を保証する。しかしながらコンヴォリューション・プロセッサは、しばしばパラメータ化するのが困難である。リバーブ効果を操作することは、一般的に、初期反射−リバーブ比といった、少数の低レベルパラメータに限定される。またそのようなエンジンの計算的負担は、処理されたIRの長さによる。一方で、パラメトリックな(FDNのような)リバーブ装置は、拡張可能であり、室内応答の時間と周波数の振る舞いを連続的にチューニングすることができる。よく報告されるFDNレンダリングの欠点は、室内応答の初期部分で忠実性に欠ける(人工的色づけ、不十分なエコーおよび/もしくはモード密度)ということだ。

spat.hybrid∼ is a new realtime audio signal processing unit that proposes a hybrid approach [24]: it combines a convolution reverb for recreating the early reflections of a measured impulse response with a feedback delay network for synthesizing the reverberation tail. The FDN is automatically adjusted so as to match the energy decay profile of the measured IR, and the generated room effect is perceptually indistinguishable from a pure convolution reverb. As a result, the hybridization approach benefits both from the authenticity of the convolution technique and the flexibility of FDN-based renderer. The spat.hybrid∼ object can further be controlled with a high-level model [24, 21].
spat.hybrid~は、ハイブリッドなアプローチを取る新しいリアルタイム音声信号処理ユニットである[24]。測定されたインパルス応答の初期反射を再構築するコンヴォリューション・リバーブと、リバーブ・テイルを合成するフィードバック・ディレイ・ネットワークを組み合わせる。測定されたIRのエネルギー減衰の輪郭と一致するように、FDNは自動的に補正され、生成された室内効果は純粋なコンヴォリューション・リバーブと知覚的に区別できない。結果として、ハイブリッド化されたアプローチは、コンヴォリューション技術の忠実性とFDNに基づくレンダラの両方から恩恵を得る。spat.hybrid~オブジェクトは、高レベル・モデルでさらに操作可能である[24, 21]。



7. MISCELLANEOUS DEVELOPMENTS
7. 多種多様な開発

7.1 Multichannel tools
7.1 マルチチャンネル・ツール

When working with massively multichannel data, users often face inappropriate or inefficient tools, even for basic operations. The Spatialisateur library has thus been supplemented by several simple tools for dealing with these common tasks. It is beyond the scope of this paper to examine them exhaustively and we just mention here a few examples:
大規模なマルチチャンネル・データを扱う際に、基本的な処理においても、ユーザはしばしば不適当または非効率なツールに直面する。Spatialisateurライブラリはしたがって、これらの一般的なタスクを取り扱ういくつかの単純なツールで補っている。それらを余すところなく検証するのは本論文の焦点を超えているため、ここではいくつかに言及するにとどめる。

• spat.sfplay∼ and spat.sfrecord∼ serve as a replacement to conventional Max/MSP sfplay∼ and sfrecord∼ objects. They exhibit similar functionalities and messaging, but they can handle up to 250 channels(*8) and they support WAV RF64 format which allows the usual 4GB file size limit to be overridden.
・spat.sfplay~とspat.sfrecord~は、Max/MSPの従来のsfplay~とsfrecord~オブジェクトを置き換える働きをする。これらは同様の機能とメッセージを受け付けるが、250チャンネル(*8)まで処理することができ、通常制限される4GBを超えたファイル・サイズを扱えるWAV RF64フォーマットをサポートする。

• spat.virtualspeakers∼ relies on a virtual speakers paradigm [25] to down-mix any multichannel stream into a binaural stereo track preserving the spatial image of the original sound scene.
・spat.visualspeakers~は、仮想スピーカ・パラダイムにより、オリジナルのサウンド・シーンの空間イメージを保持しながら、あらゆるマルチチャンネルのストリームをバイノーラルのステレオ・トラックにダウンミックスする。

• spat.align∼ performs delay and level alignment of an arbitrary set of loudspeakers, according to their geometrical arrangement.
・spat.align~は、任意の組み合わせのラウドスピーカについて、それらの幾何学的配置に従って、ディレイとレベルの調性を実行する。

• Similarly, spat.delaycalibration∼ and spat.gaincalibration∼ can be used to quickly and automatically calibrate a loudspeaker setup and adjust the respective gain and delay of each channel. Unlike spat.align∼ these objects rely on in-situ acoustical measurements.
・同様に、spat.delaycalibration∼とspat.gaincalibration∼は、ラウドスピーカのセットアップを手早く自動でキャリブレーションし、各チャンネルそれぞれのゲインとディレイを補正する。spat.align~とは異なり、これらのオブジェクトは、その場の音響測定による。

*8 This corresponds to the current limitation of Max/MSP.
*8 これはMax/MSPの現在の制限に相当する。

7.2 Multichannel audio effects
7.2 マルチチャンネル・オーディオ・エフェクト

It is common practice to apply various audio effects to the output channels of a reproduction setup. Using standard Max/MSP objects in this context appears to be quite impracticable as they (generally) process monophonic signals only. The Spatialisateur library thus offers multichannel versions of a wide range of classic audio effects: spat.compressor∼ (compressor/expander), spat.eq∼ (parametric equalizer based on bi-quadratic filters), spat.graphiceq∼ (graphic equalizer with adjustable number of bands), spat.limiter∼, spat.noisegate∼, spat.softclipping∼, spat.dcfilter∼, etc.
再生時に出力チャンネルへ様々な音響エフェクトを適用するのは普通に行われる。こうした文脈でMax/MSPの通常のオブジェクトを用いるのは、それらが(一般的に)モノラル信号のみを処理することから、かなり実用的ではないように見える。Spatialisateurライブラリはそれゆえに、古典的なオーディオ・エフェクトの幅広い領域でマルチチャンネル版を提供する。spat.compressor∼(コンプレッサ/エキスパンダ)spat.eq∼(双2次フィルタに基づくパラメトリックEQ )、spat.graphiceq∼(調整可能なバンド数を持つグラフィック・イコライザ)、spat.limiter∼、spat.noisegate∼、spat.softclipping∼、spat.dcfilter∼、等。

7.3 SOFA support
7.3 SOFAのサポート

The Spatialisateur package includes a large set of measured HRTFs which can be used in the binaural synthesis modules. Originally HRTF data were stored in Max/MSP “coll” files. Such textual format was not very flexible and it was not possible to embed metadata. Later, another storage format —based on SDIF(*9) — has been developed. Although fully functional, this proprietary format was a strong restriction regarding the interchange with other institutions or third party applications.
Spatialisateurパッケージは、バイノーラル合成モジュールで使える測定されたHRTFの大きなセットを含む。もともとHRTFデータはMax/MSPの「coll」ファイルに保存された。こうした文字フォーマットはあまりフレキシブルではなく、またメタデータを含めることもできない。後に、別の——SDIF(*9)に基づく——保存フォーマットが開発されてきた。完全に機能を果たすものの、この独自フォーマットは、別の機関やサードパーティ・アプリケーションとのやり取りに関して強い制限があった。

In the latest versions of Spatialisateur, these formats (coll and SDIF) are deprecated and superseded by the “Spatially Oriented Format for Acoustics” (SOFA). SOFA [26] is a new format for storage and exchange of acoustical data, notably HRTFs. SOFA format is open, extensible, self-described, machine-independent, network-transparent, it supports data compression, and it was recently approved by the AES committee as “AES69-2015 standard for file exchange – Spatial acoustic data file format”. Since 2013 Spat∼ uses libsofa(*10) , a C++ implementation of the SOFA specifications which allows HRTFs to be loaded from the many available databases(*11).
Spatialisateurの最新バージョンでは、これらのフォーマット(collとSDIF)は廃止され、「Spatially Oriented Format for Acoustics」(SOFA)により、取って代わられている。SOFA[26]は、音響データ、特にHRTFの保存と交換のための、新しいフォーマットである。SOFAフォーマットはオープンで、拡張性があり、自己記述型で、マシンに依存せず、ネットワーク透過型で、データ圧縮をサポートし、また最近ではAESコミッティーによって「AES69-2015ファイル交換スタンダード——空間音響データファイル・フォーマット」として公認された。2013年以来Spat~は、利用可能な多くのデータベースからHRFTを読み込める、SOFA仕様のC++実装であるlibsofa(*10)を用いている(*11)。

*9 Sound Description Interchange Format
*10 http://sourceforge.net/projects/sofacoustics/
*11 http://hrtf.ircam.fr
*12 http://forumnet.ircam.fr/product/spat/



8. CONCLUSIONS
8. むすび

This paper presented the latest developments of Ircam Spatialisateur since version 4.x, which constituted a complete refactoring. Substantial improvements and new functionalities have been introduced in every module of the software: the reverberation module, panning module and control interfaces. All in all, more than 150 external objects are shipped with the current public release(*12).
本論文は、完全なリファクタリングに等しい、バージョン4.x以降のIrcam Spatialisateurの最新の開発成果を報告した。リバーブ・モジュール、パンニング・モジュール、コントロール・インターフェースといった、ソフトウェアのモジュール毎に、相当な進歩と新機能を紹介してきた。全体として、150以上のエクスターナル・オブジェクトを、現在のパブリック・リリースと共に出荷している(*12)。

Recent research has focused on the analysis, transformation and re-synthesis of room impulses responses, with an emphasis on directional room impulses responses measured with spherical microphone arrays. Such directional IRs capture rich space-time-frequency features and they are prone to efficient manipulations in the HOA domain. Future work will consider the potential exploitation of directional room impulse responses using a Spatialisateur-like approach. To that purpose, the FDN processing architecture might be substituted with a convolutional or hybrid framework using an HOA-like underlying space-time representation format, and further studies on spatial perception of sound fields is needed to upgrade the perceptual factors model accordingly.
最近の研究では、球状マイクロフォン・アレイで測定する指向性室内インパルス応答を重点に、室内インパルス応答の解析と変換、再合成に焦点を当ててきた。こうした指向性IRは、豊かな空間・時間・周波数の特徴を捉え、HOA領域における処理の効率が良い傾向がある。今後の研究では、Spatialisateurのようなアプローチを用いて、指向性室内インパルス応答の潜在的な活用を検討してゆく。この目的のために、HOAのような基本的な時空間表現フォーマットを用いた、コンヴォリューションもしくはハイブリッドなフレームワークが、FDN処理アーキテクチャの代用となるかもしれない。それに従って、知覚因子モデルをアップグレードするのに、音場の空間認知に関する更なる研究が必要である。



9. ACKNOWLEDGEMENTS
9. 謝辞

The authors would like to thank everyone —researchers, composers, sound artists, sound engineers, etc.— who closely or remotely contributed and still contributes to improving Spat∼ with invaluable ideas and discussions.
研究者や作曲家、サウンド・アーティスト、サウンド・エンジニアなど、密接にあるいは遠方から、計り知れない価値のあるアイデアやディスカッションでSpat~の改良に貢献してくださった、また今もって貢献してくださっている皆様に、感謝いたします。



10. REFERENCES
10. 参考文献

[1] J.-M. Jot and A. Chaigne, “Digital Delay Networks for Designing Artificial Reverberators,” in Proceedings of the 90th Convention of the Audio Engineering Society, Paris, 1991.
[2] J.-M. Jot, “Real-time spatial processing of sounds for music, multimedia and interactive human-computer interfaces,” ACM Multimedia Systems Journal (Special issue on Audio and Multimedia), vol. 7, no. 1, pp. 55 – 69, 1997.
[3] J.-M. Jot and O. Warusfel, “A Real-Time Spatial Sound Processor for Music and Virtual Reality Applications,” in Proceedings of the International Computer Music Conference, Banff, 1995.
[4] J.-P. Jullien, “Structured model for the representation and the control of room acoustic quality,” in Proceedings of the 15th International Congress on Acoustics (ICA), Trondheim, 1995, pp. 517 — 520.
[5] E. Kahle and J.-P. Jullien, “Subjective Listening Tests in Concert Halls: Methodology and Results,” in Proceedings of the 15th International Congress on Acoustics (ICA), Trondheim, June 1995, pp. 521 – 524.
[6] J. Bresson, C. Agon, and G. Assayag, “OpenMusic. Visual Programming Environment for Music Composition, Analysis and Research,” in Proceedings of ACM MultiMedia (OpenSource Software Competition), Scottsdale, 2011.
[7] J.-M. Jot, V. Larcher, and O. Warusfel, “Digital Signal Processing Issues in the Context of Binaural and Transaural Stereophony,” in Proceedings of the 98th Convention of the Audio Engineering Society, Paris, Feb. 1995.
[8] V. Pulkki, “Virtual Sound Source Positioning Using Vector Base Amplitude Panning,” Journal of the Audio Engineering Society, vol. 45, no. 6, pp. 456–466, June 1997.
[9] J.-M. Jot, V. Larcher, and J.-M. Pernaux, “A comparative study of 3-D audio encoding and rendering techniques,” in Proceedings of the 16th Audio Engineering Society International Conference on Spatial Sound Reproduction, Rovaniemi, 1999.
[10] T. Lossius, P. Balthazar, and T. de la Hogue, “DBAP - Distance-Based Amplitude Panning,” in Proceedings of the International Computer Music Conference, Montréal, 2009.
[11] R. Sadek and C. Kyriakakis, “A Novel Multichannel Panning Method for Standard and Arbitrary Loudspeaker Configurations,” in Proceedings of the 117th Audio Engineering Society Convention, San Francisco, 2004.
[12] J. Daniel, “Représentation de champs acoustiques, application à la transmission et à la reproduction de scènes sonores complexes dans un contexte multimédia,” Ph.D. dissertation, Université de Paris VI, 2001.
[13] M. Noisternig, T. Carpentier, and O. Warusfel, “Espro 2.0 – Implementation of a surrounding 350-loudspeaker array for sound field reproduction.” in Proceedings of the 25th Audio Engineering Society UK Conference, 2012.
[14] J. Daniel and S. Moreau, “Further Study of Sound Field Coding with Higher Order Ambisonics,” in Proceedings of the 116th Audio Engineering Society Convention, Berlin, 2004.
[15] F. Zotter, H. Pomberger, and M. Noisternig, “Energy-Preserving Ambisonic Decoding,” Acta Acustica united with Acustica, vol. 98, 2012.
[16] M. Pollow, K.-V. Nguyen, O. Warusfel, T. Carpentier, M. Müller-Trapet, M. Vorländer, and M. Noisternig, “Calculation of Head-Related Transfer Functions for Arbitrary Field Points Using Spherical Harmonics Decomposition,” Acta Acustica united with Acustica, vol. 98, 2012.
[17] R. O. Duda and W. L. Martens, “Range dependence of the response of a spherical head model,” Journal of the Acoustical Society of America, vol. 104, no. 5, pp. 3048– 3058, 1998.
[18] D. Romblom and B. Cook, “Near-Field Compensation for HRTF Processing,” in Proceedings of the 125th Audio Engineering Society Convention, San Francisco, 2008.
[19] A. Baskind, T. Carpentier, M. Noisternig, O. Warusfel, and J.-M. Lyzwa, “Binaural and transaural spatialization techniques in multichannel 5.1 production,” in Proceedings of the 27th Tonmeistertagung – VDT International Convention, Köln, November 2012.
[20] W. G. Gardner, “Efficient Convolution without Input-Output Delay,” in Proceedings of the 97th Convention of the Audio Engineering Society, San Francisco, 1994.
[21] M.Noisternig, T.Carpentier, and O.Warusfel,“Perceptual Control of Convolution Based Room Simulators,” in The Acoustics 2012 Hong Kong Conference, Hong Kong, 2012.
[22] A. Farina, “Simultaneous measurement of impulse response and distortion with a swept-sine technique,” in Proceedings of the 108th Convention of the Audio Engineering Society, Paris, 2000.
[23] J.-M. Jot, L. Cerveau, and O. Warusfel, “Analysis and Synthesis of Room Reverberation Based on a Statistical Time- Frequency Model,” in Proceedings of the 103rd Convention of the Audio Engineering Society, New York, 1997.
[24] T. Carpentier, M. Noisternig, and O. Warusfel, “Hybrid Reverberation Processor with Perceptual Control,” in Pro- ceedings of the 17th Int. Conference on Digital Audio Effects (DAFx-14), Erlangen, Sept. 2014.
[25] H. Møller, “Fundamentals of Binaural Technology,” Applied Acoustics, vol. 36, pp. 171 – 218, 1992.
[26] P. Majdak, Y. Iwaya, T. Carpentier, R. Nicol, M. Parmen- tier, A. Roginska, Y. Suzuki, K. Watanabe, H. Wierstorf, H. Ziegelwanger, and M. Noisternig, “Spatially Oriented Format for Acoustics: A Data Exchange Format Representing Head-Related Transfer Functions,” in Proceedings of the 134rd Convention of the Audio Engineering Society, Roma, May 2013.
[1] J.-M. Jot and A. Chaigne, “Digital Delay Networks for Designing Artificial Reverberators,” in Proceedings of the 90th Convention of the Audio Engineering Society, Paris, 1991.
[2] J.-M. Jot, “Real-time spatial processing of sounds for music, multimedia and interactive human-computer interfaces,” ACM Multimedia Systems Journal (Special issue on Audio and Multimedia), vol. 7, no. 1, pp. 55 – 69, 1997.
[3] J.-M. Jot and O. Warusfel, “A Real-Time Spatial Sound Processor for Music and Virtual Reality Applications,” in Proceedings of the International Computer Music Conference, Banff, 1995.
[4] J.-P. Jullien, “Structured model for the representation and the control of room acoustic quality,” in Proceedings of the 15th International Congress on Acoustics (ICA), Trondheim, 1995, pp. 517 — 520.
[5] E. Kahle and J.-P. Jullien, “Subjective Listening Tests in Concert Halls: Methodology and Results,” in Proceedings of the 15th International Congress on Acoustics (ICA), Trondheim, June 1995, pp. 521 – 524.
[6] J. Bresson, C. Agon, and G. Assayag, “OpenMusic. Visual Programming Environment for Music Composition, Analysis and Research,” in Proceedings of ACM MultiMedia (OpenSource Software Competition), Scottsdale, 2011.
[7] J.-M. Jot, V. Larcher, and O. Warusfel, “Digital Signal Processing Issues in the Context of Binaural and Transaural Stereophony,” in Proceedings of the 98th Convention of the Audio Engineering Society, Paris, Feb. 1995.
[8] V. Pulkki, “Virtual Sound Source Positioning Using Vector Base Amplitude Panning,” Journal of the Audio Engineering Society, vol. 45, no. 6, pp. 456–466, June 1997.
[9] J.-M. Jot, V. Larcher, and J.-M. Pernaux, “A comparative study of 3-D audio encoding and rendering techniques,” in Proceedings of the 16th Audio Engineering Society International Conference on Spatial Sound Reproduction, Rovaniemi, 1999.
[10] T. Lossius, P. Balthazar, and T. de la Hogue, “DBAP - Distance-Based Amplitude Panning,” in Proceedings of the International Computer Music Conference, Montréal, 2009.
[11] R. Sadek and C. Kyriakakis, “A Novel Multichannel Panning Method for Standard and Arbitrary Loudspeaker Configurations,” in Proceedings of the 117th Audio Engineering Society Convention, San Francisco, 2004.
[12] J. Daniel, “Représentation de champs acoustiques, application à la transmission et à la reproduction de scènes sonores complexes dans un contexte multimédia,” Ph.D. dissertation, Université de Paris VI, 2001.
[13] M. Noisternig, T. Carpentier, and O. Warusfel, “Espro 2.0 – Implementation of a surrounding 350-loudspeaker array for sound field reproduction.” in Proceedings of the 25th Audio Engineering Society UK Conference, 2012.
[14] J. Daniel and S. Moreau, “Further Study of Sound Field Coding with Higher Order Ambisonics,” in Proceedings of the 116th Audio Engineering Society Convention, Berlin, 2004.
[15] F. Zotter, H. Pomberger, and M. Noisternig, “Energy-Preserving Ambisonic Decoding,” Acta Acustica united with Acustica, vol. 98, 2012.
[16] M. Pollow, K.-V. Nguyen, O. Warusfel, T. Carpentier, M. Müller-Trapet, M. Vorländer, and M. Noisternig, “Calculation of Head-Related Transfer Functions for Arbitrary Field Points Using Spherical Harmonics Decomposition,” Acta Acustica united with Acustica, vol. 98, 2012.
[17] R. O. Duda and W. L. Martens, “Range dependence of the response of a spherical head model,” Journal of the Acoustical Society of America, vol. 104, no. 5, pp. 3048– 3058, 1998.
[18] D. Romblom and B. Cook, “Near-Field Compensation for HRTF Processing,” in Proceedings of the 125th Audio Engineering Society Convention, San Francisco, 2008.
[19] A. Baskind, T. Carpentier, M. Noisternig, O. Warusfel, and J.-M. Lyzwa, “Binaural and transaural spatialization techniques in multichannel 5.1 production,” in Proceedings of the 27th Tonmeistertagung – VDT International Convention, Köln, November 2012.
[20] W. G. Gardner, “Efficient Convolution without Input-Output Delay,” in Proceedings of the 97th Convention of the Audio Engineering Society, San Francisco, 1994.
[21] M.Noisternig, T.Carpentier, and O.Warusfel,“Perceptual Control of Convolution Based Room Simulators,” in The Acoustics 2012 Hong Kong Conference, Hong Kong, 2012.
[22] A. Farina, “Simultaneous measurement of impulse response and distortion with a swept-sine technique,” in Proceedings of the 108th Convention of the Audio Engineering Society, Paris, 2000.
[23] J.-M. Jot, L. Cerveau, and O. Warusfel, “Analysis and Synthesis of Room Reverberation Based on a Statistical Time- Frequency Model,” in Proceedings of the 103rd Convention of the Audio Engineering Society, New York, 1997.
[24] T. Carpentier, M. Noisternig, and O. Warusfel, “Hybrid Reverberation Processor with Perceptual Control,” in Pro- ceedings of the 17th Int. Conference on Digital Audio Effects (DAFx-14), Erlangen, Sept. 2014.
[25] H. Møller, “Fundamentals of Binaural Technology,” Applied Acoustics, vol. 36, pp. 171 – 218, 1992.
[26] P. Majdak, Y. Iwaya, T. Carpentier, R. Nicol, M. Parmen- tier, A. Roginska, Y. Suzuki, K. Watanabe, H. Wierstorf, H. Ziegelwanger, and M. Noisternig, “Spatially Oriented Format for Acoustics: A Data Exchange Format Representing Head-Related Transfer Functions,” in Proceedings of the 134rd Convention of the Audio Engineering Society, Roma, May 2013.