Мангеймский корпус немецкого языка — Википедия
Мангеймский корпус немецкого языка (COSMAS corpora или DeReKo) — это коллекция современных немецкоязычных текстов, поддерживаемая Институтом немецкого языка в городе Маннгейм (Германия). В корпусе представлены различные типы текстов: научная и научно-популярная литература, большое количество газетных текстов, художественная проза, и др. Представляя собой самое большое в мире электронное собрание современных немецкоязычных текстов, является инструментом корпусной лингвистики.
Альтернативные названия
[править | править код]Мангеймский корпус немецкого языка имеет несколько альтернативных названий, таких как German Reference Corpus, IDS corpora, COSMAS corpora. С 2004 года официальное название корпуса — Deutsches Referenzkorpus (DeReKo).
История создания
[править | править код]История создания корпуса в Институте немецкого языка (IDS) началась в 1964 году, когда Пауль Гребе (Paul Grebe) и Ульрих Энгель (Ulrich Engel) создали «Мангеймский Корпус 1» — проект, в котором к 1967 году было успешно собрано около 2,2 млн часто употребляемых слов немецкой письменной речи. С этого времени база электронных текстовых данных дополнялась и расширялась за счёт ряда последующих проектов по сбору корпуса. К 2013 году DeReKo является одним из основных ресурсов во всем мире для изучения немецкого языка. Темпы роста объёма корпуса — около 300 миллионов слов в год. Поставив основной целью «изучение немецкого языка в его современном использовании», Институт IDS проводит политику по обеспечению долгосрочной работы DeReKo.
Ключевыми особенностями DeReKo являются:
- крупнейшая лингвистически мотивированная коллекция немецких текстов
- разрабатывается с 1964 года
- постоянно расширяется
- содержит тексты, созданные начиная с 1956 года
- содержит материалы из художественной литературы, научных и газетных текстов, а также некоторых других типов текста
- содержит только полные тексты
- содержит только неизмененные тексты (без орфографических исправлений и т. п.)
- содержит только лицензированные тексты
Основная цель DeReKo состоит в том, чтобы служить в качестве практической основы для научного исследования современной немецкой письменной речи. Одним из важных принципов является то, что в центре внимания находится сам язык, а не информация, передаваемая им.
Состав корпуса
[править | править код]В корпусе представлены различные типы текстов: художественная проза, научная и научно-популярная литература, периодика и др. Имеется также подкорпус устной речи (разговорная речь, записи речи носителей различных диалектов и др.). Ресурс включает созданную на основе корпуса базу данных по сочетаемости слов немецкого языка.
Данный корпус содержит 6 основных подкорпусов:
- Корпус письменной речи 1.370.766.704 словоупотребления
- Корпус новых поступлений 181.319.744 словоупотребления
- Archiv der phasengegliederten Wendecorpora 3.813.688 словоупотреблений
- Картотека общества немецкого языка
- Исторический корпус 6.296.361 словоупотребление
- Морфосинтаксически размеченный корпус 29.695.096 словоупотреблений
Корпус письменной речи включает в себя 3 собственно Мангеймских корпуса, а также множество других (беллетристика, исторические корпуса, публицистика, собрание сочинений Карла Маркса и Фридриха Энгельса, корпус Томаса Манна, корпус интервью и т. д.).
Объём корпуса
[править | править код]Объём корпуса составляет более 1846 млн словоупотреблений. В отличие от других известных корпусов (таких как, например, Британский национальный корпус), DeReKo нацелен на охват максимально возможного объёма текстов, а не на сбалансированность их состава: распределение текстов по времени создания или по типу текста не соответствует заранее заданным процентным соотношениям.
Разметка и аннотации
[править | править код]В DeReKo присутствует лемматизация и морфологическая разметка, но лишь для части текстов. Однако, в архиве имеется несколько полных согласованных аннотаций на разных языковых уровнях (по крайней мере, на уровнях части речи и синтаксиса). Из-за большого размера корпуса ни ручное аннотирование, ни ручное управление автоматической аннотацией не могут быть осуществимы. В результате ожидаемая степень неточности очень высока, особенно там, где есть лингвистически сложные явления.
Метаданные
[править | править код]Основные единицы текста в корпусе DeReKo сопровождаются специальной информацией — метаданными. Важным принципом корпуса является то, что эти метаданные должны быть доступными. Какая конкретно информация доступна, зависит от источника данных и типа текста.
Основные категории метаданных:
- дата публикации
- время и период создания
- имя автора
- имя издателя
- среда публикации (газета, книга, информационное агентство)
- место публикации
- тип текста
- темы и их категории
- информация о копиях
- размер копий
- число слов/предложений/параграфов
- признаки старой и новой орфографии
- условия лицензии
Доступ
[править | править код]Из-за авторских прав и лицензионных ограничений базы данных архивов DeReKo нельзя копировать или загружать с сайта на жесткий диск. Но эти данные можно запросить и проанализировать бесплатно через систему COSMAS II[1], пользователи которой должны зарегистрироваться и принять соглашение на использование данных исключительно для некоммерческих, образовательных целей. COSMAS II позволяет использовать корпус DeReKo для решения конкретных научных задач.
Примечания
[править | править код]- ↑ Система COSMAS II . Дата обращения: 17 октября 2013. Архивировано 22 октября 2013 года.
См. также
[править | править код]Литература
[править | править код]- Корпуса немецкого языка // Образовательный портал Национального корпуса русского языка. Архивировано 4 апреля 2014 года.
- Списки корпусов иностранных языков // International linguistics community online.
- Kupietz, M. & C. Belica & H. Keibel & A. Witt. The German Reference Corpus DeReKo: A primordial sample for linguistic research // In: Calzolari, N. et al. (eds.): Proceedings of the 7th conference on International Language Resources and Evaluation (LREC 2010) (pp. 1848–1854). Valletta, Malta: European Language Resources Association (ELRA)..
- Kupietz, M. & H. Keibel. The Mannheim German Reference Corpus (DeReKo) as a basis for empirical linguistic research // In: Working Papers in Corpus-based Linguistics and Language Education, No. 3 (pp. 53–59). Tokyo: Tokyo University of Foreign Studies (TUFS)..