УДК 004.02
В статье рассмотрена проблема подготовки корпуса текстов на естественном языке для решения задачи автоматического определения языка документа. Данная задача, как правило, решается статистическими методами, требующими неаннотированного корпуса. В силу того, что большинство корпусов на сегодняшний день доступны только в размеченном виде, в статье рассмотрены возможные варианты лингвистической разметки корпусов, а также способы её снятия. Показана целесообразность использования языка регулярных выражений.
This article considers the problem of processing of the corpus in natural language to solve the task of automatic identification of the language of the text. This issue is usually solved with the statistic methods that require non-annotated corpus. As most of corpora are annotated today, the types of linguistic markup and the possibility of their removal are described. The expediency of using regular expressions is shown as well.