BABEL Speech Corpus - BABEL Speech Corpus

The BABEL сөйлеу корпусы - бесеуінен жазылған сөйлеу материалдарының корпусы Орталық және Шығыс Еуропа тілдер. Сөйлеу технологиясының қосымшаларында қолдануға арналған, ол грант есебінен қаржыландырылды Еуропа Одағы және 1998 жылы аяқталған. Оны таратады Еуропалық тілдік ресурстар қауымдастығы.

BABEL жобасын әзірлеу

SAM жобасы Еуропалық Одақ тілдерінің сөйлеу корпусын құрғаннан кейін, қаржыландыру Еуропа Одағы тілдерінің сөйлеу корпусын ұқсас бағытта құру үшін Орталық және Шығыс Еуропа, BABEL атымен.

Бастапқы серпін Еуропалық Одақтың 1987–89 жылдары №1541 ESPRIT жобасы ретінде қаржыландырған SAM (Speech Assessment Methods) жобасынан алынды.^[1] Бұл жобаны фонетиктердің халықаралық тобы жүргізді және бірінші кезекте Еуропалық қауымдастықтардың дат, голланд, ағылшын, француз, неміс және итальян тілдеріне қатысты (1989 ж. Дейін). SAM сөйлеуді зерттеудің көптеген құралдарын шығарды (соның ішінде SAMPA компьютерлік фонетикалық транскрипция, ол сонымен қатар BABEL жобасы үшін пайдаланылды) және CD-ROM-да таратылған жазылған материалдардың корпусы.^[2] Еуропалық Одаққа Коперник бастамасымен 1994 жылы сөйлеу корпусын құру туралы ұсыныс жасалды. Болгар, Эстон, Венгр, Поляк және Румын Бұл үшін № 1304 грант тағайындалды. Болгар тілінде сөйлейтін шағын корпусты құру бойынша пилоттық жобаны София (Болгария) және Рединг (Ұлыбритания) университеттері бірлесіп жүзеге асырды.^[3] Жобаның барлық тобының алғашқы кездесуі Рединг университетінде 1995 жылы өтті.

Жазылған материал

Мақсаты сөйлеу технологиясының қосымшаларында қолдануға жарамды материал шығару болғандықтан, цифрлық жазбалар дыбыс жазу студияларында қатаң бақыланатын жағдайларда жасалған. Әр тіл үшін материал келесі құрамнан тұрды:

Көп сөйлейтіндер жиынтығы: 30 еркек пен 30 әйел әрқайсысы 100 сандарды, 3 сөйлеу орнын және 5 «толтырғыш» сөйлемді оқиды (кейбір элементтердің қосымша даналарын ұсыну үшін) немесе толтырғыш қажет болмаса, 4 үзіндіден тұрады.
Аз сөйлейтіндер жиынтығы: әдетте жоғарыда аталған топтан таңдалған 5 еркек пен 5 әйел, әрқайсысы 100 блоктан тұратын 5 блокты, 15 үзінді мен 25 толтырғыш сөйлемді және 5 буын тізімін оқыды.
Өте аз сөйлейтіндер жиынтығы: жоғарыда көрсетілгендерден таңдалған 1 ер және 1 әйел 5 блок слогын оқыды, тасымалдаушы сөйлемдермен және сөйлемдерсіз.

BABEL жобасына мүшелік

Жоба директоры: П.Роуч (Рединг университеті)

Орталық және Шығыс Еуропадағы жоба жетекшілері

Болгария: басында А.Мишева 1995 жылы қайтыс болғанға дейін, содан кейін С.Димитрова (София университеті).
Эстония: Э.Мейстер (Таллин университеті)
Венгрия: К. Викси (Будапешт техникалық университеті)
Польша: Р.Губринович (Польша Ғылым академиясы) және В.Гонет (Люблин университеті)
Румыния: М.Болдеа (Тимишоара университеті)

Батыс Еуропадағы жоба мүшелері

Франция: Л. Ламель (LIMSI, Париж); Марчал (CNRS)
Германия: У.Барри (Саарбрюккен университеті); К.Марасек (Штутгарт университеті)
Ұлыбритания: Дж. Уэллс (University College London); Роуч (Ридинг университеті)

Жобаның нәтижелері

Жобаны бағалаудың аралық отырысы 1996 жылы Люблинада (Польша) өтті. Содан кейін жұмыс 1998 жылы Испанияның Гранада қаласында өткен Тілдік ресурстар мен бағалау жөніндегі бірінші халықаралық конференцияда қорытынды бағалау мен нәтижелерін ұсынғанға дейін жалғасты.^[4] Жоба 1998 жылдың желтоқсанында аяқталды. Нәтижесінде корпорация жиынтығы компанияға жеткізілді Еуропалық тілдік ресурстар қауымдастығы. ELRA тек материалдарды қолданушыларға олардың веб-сайттары арқылы таратуға жауапты.^[5]

Аяқталған кезде, BABEL - мажар тілдерінде зерттеу мақсатында қол жетімді ең жоғары сапалы сөйлеу дерекқоры^[6] және эстон.^[7] Ол айтылымды модельдеу сияқты тақырыптарды зерттеу үшін қолданылған^[6] және сөйлеуді автоматты түрде тану.^[8] Жоба сонымен қатар корпус лингвистикасындағы ең маңызды даму деп аталатын бөлігі болды - корпус деректері қамтылған тілдер санының артуы, бұл корпус лингвистикасы зерттеуге тигізген артықшылықтарын кеңірек тілдерге жеткізуге уәде береді. Батыс Еуропа тілдері.^[9]

Әдебиеттер тізімі

^ Д.Чан, А.Фурчин, Д.Гиббон, Б.Гранстром, М.Гаквале, Г.Коккинакис, К.Квале, Л.Ламель, Б.Линдберг, А.Морено, Дж.Муропулос, Ф.Сения, И. Trancoso, C. Veld & J. Zeiliger, «EUROM - ЕО үшін тілдік қор», Eurospeech'95-те, Сөйлеу коммуникациясы және сөйлеу технологиясы бойынша 4-ші Еуропалық конференция материалдары. Мадрид, Испания, 18–21 қыркүйек 1995. 1 том, 867-870 бб
^ «EUROM1 - көп тілді сөйлеу корпорациясы». Лондон университетінің колледжі. Алынған 2015-01-19.
^ Мишева, А., Димитрова, С., Филипов, В., Григорова, Е., Ников, М., Роуч, П. және Арнфилд, С. ‘Болгария сөйлеу базасы: пилоттық зерттеу’, Eurospeech материалдары '95, Мадрид, т. 1, 859-862 бб (1995)
^ Роуч, П., С.Арнфилд, В.Барри, С.Димитрова, М.Болдеа, А.Фурчин, В.Гонет, Р.Губринович, Э. Халлум, Л.Ламель, К.Марасек, А.Мархал, Е. .Мистер, К.Виси (1998). ‘BABEL: Орталық және Шығыс Еуропа тілдерінің мәліметтер базасы’, Тілдік ресурстар және бағалау бойынша бірінші халықаралық конференция материалдары, eds. Рубио және басқалар, Гранада, т. 1, 371-4 бет.
^ «Babel» бойынша іздеу нәтижелері. Еуропалық тілдік ресурстар қауымдастығы. Алынған 2015-01-18.
^ ^а ^б Фегё, Тибор; Петр Михайлик; Петер Татай; Геза Гордос (2001). «Венгриялық сандарды танудағы айтылымды модельдеу». INTERSPEECH, 1465-1468 бет.
^ Alumae, Tanel (2004). Морфема сабақтарын қолдана отырып, эстон тілінің үлкен сөздік қорын үздіксіз тану. INTERSPEECH, Чеджу, Корея. 389-392 беттер.
^ Михайлик, Петер; Ревеш, Тибор; Татай, Петер (2002-11-01). «Сөйлеуді автоматты түрде танудағы фонетикалық транскрипция» (PDF). Acta Linguistica Hungarica. 49 (3): 407–425. дои:10.1556 / ALing.49.2002.3-4.9.
^ McEnery, Tony (2001). Корпус лингвистикасы: кіріспе. Оксфорд университетінің баспасы. б.188. ISBN 9780748611652.

[1] Д.Чан, А.Фурчин, Д.Гиббон, Б.Гранстром, М.Гаквале, Г.Коккинакис, К.Квале, Л.Ламель, Б.Линдберг, А.Морено, Дж.Муропулос, Ф.Сения, И. Trancoso, C. Veld & J. Zeiliger, «EUROM - ЕО үшін тілдік қор», Eurospeech'95-те, Сөйлеу коммуникациясы және сөйлеу технологиясы бойынша 4-ші Еуропалық конференция материалдары. Мадрид, Испания, 18–21 қыркүйек 1995. 1 том, 867-870 бб

[2] «EUROM1 - көп тілді сөйлеу корпорациясы». Лондон университетінің колледжі. Алынған 2015-01-19.

[3] Мишева, А., Димитрова, С., Филипов, В., Григорова, Е., Ников, М., Роуч, П. және Арнфилд, С. ‘Болгария сөйлеу базасы: пилоттық зерттеу’, Eurospeech материалдары '95, Мадрид, т. 1, 859-862 бб (1995)

[4] Роуч, П., С.Арнфилд, В.Барри, С.Димитрова, М.Болдеа, А.Фурчин, В.Гонет, Р.Губринович, Э. Халлум, Л.Ламель, К.Марасек, А.Мархал, Е. .Мистер, К.Виси (1998). ‘BABEL: Орталық және Шығыс Еуропа тілдерінің мәліметтер базасы’, Тілдік ресурстар және бағалау бойынша бірінші халықаралық конференция материалдары, eds. Рубио және басқалар, Гранада, т. 1, 371-4 бет.

[5] «Babel» бойынша іздеу нәтижелері. Еуропалық тілдік ресурстар қауымдастығы. Алынған 2015-01-18.

[Fegyo2001-6] а ^б Фегё, Тибор; Петр Михайлик; Петер Татай; Геза Гордос (2001). «Венгриялық сандарды танудағы айтылымды модельдеу». INTERSPEECH, 1465-1468 бет.

[7] Alumae, Tanel (2004). Морфема сабақтарын қолдана отырып, эстон тілінің үлкен сөздік қорын үздіксіз тану. INTERSPEECH, Чеджу, Корея. 389-392 беттер.

[8] Михайлик, Петер; Ревеш, Тибор; Татай, Петер (2002-11-01). «Сөйлеуді автоматты түрде танудағы фонетикалық транскрипция» (PDF). Acta Linguistica Hungarica. 49 (3): 407–425. дои:10.1556 / ALing.49.2002.3-4.9.

[9] McEnery, Tony (2001). Корпус лингвистикасы: кіріспе. Оксфорд университетінің баспасы. б.188. ISBN 9780748611652.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]