About

工作经历

11.2023 - 至今大疆创新
音频算法工程师

09.2019 - 10.2023 快手科技
音频算法工程师（算法研究技术负责人）
2019 年加入快手音视频团队，负责音频算法研发。从零开始建设音频算法研究组，目前落地了快手主站及多个应用的音频功能，包括语音降噪语音降噪、音频分离、音频内容理解、风格转换、变声、音频多码率编码器、 K歌音效、音频后处理、人声美化及无参考语音、音频评测等方向。发表顶会论文近十篇，专利数十篇。获得数项国际顶会音频挑战赛冠军

01.2018 - 08.2019 西藏至慧桥资产管理有限公司
投资总监，合伙人
2018 年作为合伙人加入至汇桥资管，主要负责基于数量化的交易算法研发。基于在时间序列预测、信号处理等方向的积累，结合金融投资理论，成功研发了市场中性的股票选股策略、指数择时策略、股指期货择时策略等。管理资金规模人民币 5000 万元。资管产品获得 2018 年中信期货全国私募实盘大赛，股票策略组第一名；2020 年 wind 三年期全国最强私募基金 FOF

06.2016 - 12.2017 音曼（北京）科技有限公司
首席研究员，合伙人
2016 年作为联合创始人加入音曼科技 (获天津九安医疗旗下尚势资本千万级天使投资)。主要负责算法研究，知识产权，同时和 CEO 一起协调产品量产。成功研发音曼 OMNOS 回音壁音箱产品 (德国红点设计奖)、移动 KTV 核心 DSP 算法板、Ambisonic 声场麦克风等音频硬件产品，累计实现近千万销售额

03.2013 - 05.2016 杜比实验室
高级研究员
2013 年在澳大利亚卧龙岗大学完成博士工作后，加入杜比实验室。作为杜比实验室全球最年轻的高级研究员，参与了杜比全景声在移动端落地的多个重点项目的算法研究及声学测量等工作。如 DOLBY ATOMS for Headphone（3D 耳机虚拟环绕声）、DOLBY ATOMS for Mobile (全球第一个搭载杜比全景声的平板电脑:Lenovo Yoga 3) 等

学术兼职

2019.07 - 至今澳大利亚卧龙岗大学（University of Wollongong）
荣誉高级研究员（Honorary Senior Research Fellow）
2021.11 - 至今 Institute of Electrical and Electronics Engineers (IEEE)
高级会员（Senior Member）

教育经历

08.2009 - 12.2013
澳大利亚卧龙岗大学（University of Wollongong）
博士（空间音频信号处理）
– 导师: Prof. Christian Ritz and Prof. Jiangtao Xi

09.2005 - 06.2009
北京邮电大学
工学学士 (电信工程及管理专业，联合培养)
伦敦大学玛丽女王学院（Queen Mary University of London ）
工学学士 (电信工程及管理专业，联合培养)

荣誉

2024 第一名, ICASSP 2024 微软深度丢包补偿挑战赛
2024 第一名, ICASSP 2024 微软语音音质增强挑战赛
2023 第二名, ICASSP 2023 微软回声消除挑战赛
2022 第一名, INTERSPEECH 2022 微软深度丢包补偿挑战赛
2022 第二名, INTERSPEECH 2022 腾讯语音音质预测挑战赛
2022 第二名, IEEE ICASSP 2022 微软回声消除挑战赛
2022 第四名, IEEE ICASSP 2022 微软深度降噪挑战赛任务 2
2021 第一名, INTERSPEECH 2021 腾讯多通道降噪挑战赛任务 1
2021 第一名, INTERSPEECH 2021 腾讯多通道降噪挑战赛任务 2
2021 第一名, IEEE MLSP 2021 L3DAS21 多通道降噪挑战赛任务 1
2021 第三名, INTERSPEECH 2021 微软回声消除挑战赛 2021
2015 Elsevier Computers and Electrical Engineering Outstanding Reviewer Award
2013 教育部国家优秀自费留学生奖学金
2010-2012 卧龙岗大学博士全额奖学金
2010-2012 澳大利亚研究委员会博士全额奖学金

期刊文章

12. J. Zhao, X.Zheng, C. Ritz and D. Jiang “Interpolating the Directional Room Impulse Response for Dynamic Spatial Audio Reproduction”, Applied Sciences, vol. 12, no. 4, Art. no. 4, Jan. 2022. (IF = 2.679, SCI Q2)
11. M. Jia, J. Sun, and X. Zheng ”Multiple Speech Source Separation Using Inter-Channel Correlation and Relaxed Sparsity”, Applied Sciences, pp. 8, no. 1: 123., 2018. (IF = 2.736, SCI Q2)
10. M. Jia, J. Zhang, C. Bao, and X. Zheng. ”A Psychoacoustic-Based Multiple Audio Object Coding Approach via Intra-Object Sparsity”, Applied Sciences, pp. 7, no.12: 1301., 2017. (IF = 2.736, SCI Q2)
9. X. Zheng, C Ritz, and J. Xi, ”Encoding and communicating navigable speech soundfields”, Multimedia Tools and Applications, pp. 1-22, 2015. (IF = 2.757, SCI Q2, CCF: C)
8. M. Jia, Z.Yang, C. Bao, X. Zheng and C. Ritz, ”Encoding Multiple Audio Objects using Intra-object Sparsity”, IEEE Transactions on Audio, Speech and Language Processing, vol. 23, no. 6, pp.1082-1095, Jun. 2015. (IF = 3.919, SCI Q1, CCF: B)
7. B. Cheng, C. Ritz, I. Burnett, and X. Zheng ”A General Compression Approach to Multi-Channel Three-Dimensional Audio”, IEEE Transactions on Audio, Speech and Language Processing, August, 2013. (IF = 3.919, SCI Q1, CCF: B)
6. X. Zheng, C. Ritz, and J. Xi, ”Collaborative Blind Source Separation Using Location Informed Spatial Microphones”, IEEE Signal Processing Letters, Jan, 2013. (IF = 3.109, SCI Q2, CCF: C)
5. X. Zheng, C. Ritz, and J. Xi, ”Encoding Navigable Speech Sources: A Psychoacoustic-based Analysis-By-Synthesis Approach”, IEEE Transactions on Audio, Speech and Language Processing, Jan, 2013. (IF = 3.919, SCI Q1, CCF: B)
4. C. H. Ritz, M. Shujau, X. Zheng, B. Cheng, and E. C. and I. S. Burnett, “Backward Compatible Spatialized Teleconferencing based on Squeezed Recordings”, in Advances in Sound Localization, Intech, Apr. 2011. (Book Chapter)
3. J. Huang, L. Wang, M. Jiang and X. Zheng, “Interferon Inducible Protein 27 Computational Network Construction and Comparison between the Frontal Cortex of HIV Encephalitis (HIVE) and HIVE-Control Patients”, The Open Genomics Journal, vol. 3, no. 1, pp. 1–8, Sep. 2010.
2. L. Wang, J. Huang, M. Jiang, and X. Zheng, “AFP computational secreted network construction and analysis between human hepatocellular carcinoma (HCC) and no-tumor hepatitis/cirrhotic liver tissues”, Tumour Biol., vol. 31, no. 5, pp. 417–425, Oct. 2010. (IF = 3.526, SCI Q2)
1. L. Wang, Y. Sun, M. Jiang, and X. Zheng, “Integrative Decomposition Procedure and Kappa Statistics for the Distinguished Single Molecular Network Construction and Analysis”, Journal of Biomedicine and Biotechnolog, vol. 2009, pp. 1–7, 2009.

会议文章

22. G. Yu, X. Zheng, N. Li, R. Han, C. Zheng, C. Zhang, C. Zhou, Q. Huang, B. Yu, “BAE-Net: A Low complexity and high fidelity Bandwidth-Adaptive neural network for speech super-resolution”, in ICASSP 2024, in press. (CCF:B)
21. C. Xu, X. Zheng, C. Zhang, C. Zhou, Q. Huang, B. Yu,”Kaq: A Non-Intrusive Stacking Framework for Mean Opinion Score Prediction with Multi-Task Learning”, in ASRU 2023, 2023.
20. H.Wang, S.Zhao, X.Zheng, and Y.Qin, “RAMP: Retrieval-Augmented MOS Prediction via Confidence-based Dynamic Weighting”, Proc. INTERSPEECH 2023, 2023. (CCF:C)
19. H. Wang, X. Zheng, Y. Qin, “Intermediate-task Learning with Pretrained Model for Synthesized Speech MOS Prediction”, in ICME 2023, 2023. (CCF:B)
18. H. Zhao, N. Li, R. Han, X. Zheng, C. Zhang, L. Guo, B. Yu, “A Low-Latency Deep Hierarchical Fusion Network for Fullband Acoustic Echo Cancellation”, in IEEE International Conference on Acoustics, Speech and Signal Processing, 2023. (CCF:B)
17. N. Li, X. Zheng, C. Zhang, L. Guo, and B. Yu, “End-to-End Multi-Loss Training for Low Delay Packet Loss Concealment”, in Interspeech 2022 , pp.585-589, 2022. (CCF:C)
16. L. Chen, X. Ren, X. Zhang, X. Zheng, C. Zhang, L. Guo, and B. Yu, “Impairment Representation Learning for Speech Quality Assessment”, in Interspeech 2022 , pp.3323-3327, 2022. (CCF:C)
15. L. Chen, X. Zheng, C. Zhang, L. Guo, and B. Yu, “MULTI-SCALE TEMPORAL-FREQUENCY ATTENTION FOR MUSIC SOURCE SEPARATION”, in ICME 2022 , in press. (CCF:B)
14. H. Zhao, N. Li, R. Han, L. Chen, X. Zheng, C. Zhang, L. Guo and B. Yu “A DEEP HIERARCHICAL FUSION NETWORK FOR FULLBAND ACOUSTIC ECHO CANCELLATION”, in 2022 IEEE International Conference on Acoustics, Speech and Signal Processing, 2022, pp 9112-9116. (CCF:B)
13. E. Guizzo et al.,“L3DAS22 CHALLENGE: LEARNING 3D AUDIO SOURCES IN A REAL OFFICE ENVIRONMENT”, in 2022 IEEE International Conference on Acoustics, Speech and Signal Processing, 2022, pp. 9186-9190. (CCF:B)
12. X. Zhang, X. Ren, L. Chen, X. Zheng, C. Zhang, L. Guo and B. Yu “A TWO-STEP BACKWARD COMPATIBLE FULLBAND SPEECH ENHANCEMENT SYSTEM”, in 2022 IEEE International Conference on Acoustics, Speech and Signal Processing, 2022, pp. 7762-7766. (CCF:B)
11. L. Chen, C. Xu, X. Zhang, X. Ren, X. Zheng, C. Zhang, L. Guo and B. Yu “MULTI-STAGE AND MULTI-LOSS TRAINING FOR FULLBAND NON-PERSONALIZED AND PERSONALIZED SPEECH ENHANCEMENT”, in 2022 IEEE International Conference on Acoustics, Speech and Signal Processing, 2022, pp. 9296-9300. (CCF:B)
10. X. Ren, X. Zhang, L. Chen, X. Zheng, C. Zhang, L. Guo, and B. Yu, ”A Causal U-net based Neural Beamforming Network for Real-Time Multi-Channel Speech Enhancement”, in INTERSPEECH 2021, 2021. (CCF:C)
9. X. Zhang, X. Ren, X. Zheng, L. Chen, C. Zhang, L. Guo, and B. Yu, ”Low-Delay Speech Enhancement Using Perceptually Motivated Target and Loss”, in INTERSPEECH 2021, 2021. (CCF:C)
8. X. Zheng, C. Zhang, ”Towards Blind Audio Quality Assessment using a Convolutional-Recurrent Neural Network”, in 2021 Thirteenth International Conference on Quality of Multimedia Experience (QoMEX), June, 2021.
7. X. Ren, L. Chen, X. Zheng, C. Xu, C. Zhang, L. Guo, and B. Yu., “A Neural Beamforming Network for B-Format 3D Speech Enhancement and Recognition”, in 2021 IEEE 31st International Workshop on Machine Learning for Signal Processing (MLSP), Oct. 2021, pp. 1–6.
6. X. Zheng, C. Ritz, ”Packet loss protection for interactive speech object rendering: a multiple description approach”, in 2nd IEEE China Summit and International Conference on Signal and Information Processing, July, 2014.
5. X. Zheng, C. Ritz, and J. Xi, ”A Psychoacoustic-Based Analysis-by-Synthesis Scheme for Jointly Encoding Multiple Audio Objects Into Independent Mixtures”, in IEEE International Conference on Acoustics, Speech and Signal Processing, May, 2013. (CCF:B)
4. X. Zheng, C. Ritz, ”Packet Loss Protection For Interactive Audio Object Rendering: A Multiple Description Approach”, in 4th International Workshop on Quality of Multimedia Experience, July, 2012.
3. X. Zheng, C. Ritz, and J. Xi, “Encoding navigable speech sources: an analysis by synthesis approach”, in IEEE International Conference on Acoustics, Speech and Signal Processing, March, 2012. (CCF:B)
2. X. Zheng and C. Ritz, “Hybrid FEC and MDC models for low-delay packet-loss recovery”, in 5th International Conference on Signal Processing and Communication Systems (ICSPCS), 2011, pp.1–6.
1. X. Zheng and C. Ritz, “Compression of navigable speech soundfield zones”, in Multimedia Signal Processing (MMSP), 2011 IEEE 13th International Workshop on, 2011, pp. 1 –6.

国际专利（已授权）

7.X.Zheng and C.Zhang, “Method for processing audio and electronic device”,US11636836B2, granted on 2023.
6.L. Fielder, Z. Shuang, G. Davidson, X. Zheng and M. Vinton, “Reverberation generation for headphone virtualization”, US10750306B2, granted on 2020.
5.G. MA, X. Zheng C. Zhang and X. Sun, “User experience oriented audio signal processing”, US10356524B2, granted on 2019.
4.G. MA and X. Zheng, “Combined active noise cancellation and noise compensation in headphone”, US9911404B2, granted on 2018.
3.G. MA, X. Zheng and C. Brown, “Modeling a frequency response characteristic of an electro-acoustic transducer”, US10038961B2, granted on 2018.
2.G. MA, X. Zheng and C. Brown, “Enhancing intelligibility of speech content in an audio signal”, US10096329B2, granted on 2018.
1.G. MA and X. ZHENG, “Audio signal loudness control”, US10594283B2, granted on 2020.

Xiguang Zheng (郑羲光)