Обработка корпуса текстов на естественном языке при решении задачи определения языка документа
Natural language corpus processing for identification of the language of document

УДК 004.02

В статье рассмотрена проблема подготовки корпуса текстов на естественном языке для решения задачи автоматического определения языка документа. Данная задача, как правило, решается статистическими методами, требующими неаннотированного корпуса. В силу того, что большинство корпусов на сегодняшний день доступны только в размеченном виде, в статье рассмотрены возможные варианты лингвистической разметки корпусов, а также способы её снятия. Показана целесообразность использования языка регулярных выражений.

This article considers the problem of processing of the corpus in natural language to solve the task of automatic identification of the language of the text. This issue is usually solved with the statistic methods that require non-annotated corpus. As most of corpora are annotated today, the types of linguistic markup and the possibility of their removal are described. The expediency of using regular expressions is shown as well.

Авторы:

Барканова Лидия Владимировна

Балтийский государственный технический университет «ВОЕНМЕХ» им. Д. Ф. Устинова, г. Санкт-Петербург
Магистрант кафедры «Систем управления и компьютерных технологий»

Список цитируемой литературы:

  • В.П. Захаров. Изложение основной проблематики корпусной лингвистики. // CORPORA.ILIG.SPB.RU: факультет филологии и искусств СБПГУ ИЛИРАН. URL: http://corpora.iling.spb.ru/theory.htm (дата обращения: 05.05.2015)
  • TEI: Text Encoding Initiative. Дата обновления: 12.03.2013. // TEI-C.ORG. URL: http://www.tei-c.org/index.xml (дата обращения: 05.05.2015)
  • W3C Extensible Markup Language (XML). Дата обновления: 20.04.2015. URL: http://www.w3.org/XML/ (дата обращения: 05.05.2015)
  • Expert Advisory Group on Language Engineering Standsrds (EAGLES). URL: http://www.ilc.cnr.it/EAGLES/home.html (дата обращения: 05.05.2015).
  • Corpus Encoding Standard — Document CES 1. Title page. Version 1.5. (дата обновления: 20.03.2000). URL: http://www.cs.vassar.edu/CES/CES1.html (дата обращения: 05.05.2015).
  • XML Corpus Encoding Standards XCES 1.0.4. Дата обновления: 20.06.2008. URL: http://www.xces.org/ (дата обращения: 05.05.2015).
  • Lou Burnard. TGC W30: Corpus Document Interchange Format v 1.2. 1992. URL: http://www.natcorp.ox.ac.uk/archive/vault/tgcw30.pdf (дата обращения: 05.05.2015).
  • International Standard for Language Engineering (ISLE). EAGLES/ISLE Meta Data Initiative. Дата обновления: 16.06.2003. URL: http://www.mpi.nl/ISLE/ (дата обращения: 05.05.2015).
  • А.В. Луканин. Предварительная обработка и разметка корпуса. Технологии корпусной лингвистики. Лекция 4. 2014. URL: http://www.slideshare.net/alukanin/4-35642433 (дата обращения: 05.05.2015).
  • Национальный корпус русского языка (НКРЯ). Дата обновления: 17.04.2015. URL: http://www.ruscorpora.ru/ (дата обращения: 05.05.2015).
  • Проект «Открытый корпус» («OpenCorpora») русского языка. URL: http://opencorpora.org/ (дата обращения: 05.05.2015).
  • British National Corpus (BNC). URL: http://www.natcorp.ox.ac.uk/ (дата обращения: 05.05.2015).
  • W. N. Francis, H. Kucera. Brown. Corpus Manual. Brown University. 1979. URL: http://clu.uni.no/icame/manuals/BROWN/INDEX.HTM (дата обращения: 05.05.2015).
  • Корпус Института немецкого языка в Маннгейме //IDS-MANNHEIM.DE: Institut für Deutsche Sprache. URL: http://www.ids-mannheim.de/kl/ (дата обращения: 05.05.2015).
  • Chomsky N. Syntactic structures. The Hague: Mouton & Co., 1957, 116 P.
  • McCulloch W.S., Pitts W. A Logical Calculus of the Ideas Immanent in Nervous Activity // Bulletin of Mathematical Biophysics / еd. by D.A. Norman. — Chicago: University of Chicago Press, 1943. — P. 115 — 133.
  • Клини С. Представление событий в нервных сетях и конечных автоматах // Автоматы. — М.: Изд-во иностр. лит., 1956. — С. 17 — 27.
  • Thompson K. Programming Techniques: Regular Expression Search Algorithm // Communications of the ACM / еd. by R.M. McClure. — New York, NY: Association for Computing Machinery, 1968. — P. 419 — 422.
  • Каменский М.В. Автоматизированный анализ корпуса текстов как методологическая основа построения и верификации когнитивно-функциональной модели дискурсных маркеров // Вестник Ленинградского государственного университета имени А.С. Пушкина. — 2013. — № 4. — С. 200 — 207.

Последние новости

Случайный материал

  • В статье рассматриваются вопросы эффективной организации мониторинга процессов оказания электронных услуг. В качестве инструмента проведения мониторинга предлагается использовать автоматизированную систему, обеспечивающую адаптивную организацию процессов сбора, хранения и обработки данных. Сформулированы системные и технологические задачи организации мониторинга, раскрыты их сущность и принципы решения.
    Фролов Алексей Иванович, ФГБОУ ВПО «Госуниверситет – УНПК», г. Орел
  • В данной статье рассматриваются подходы к созданию подсистемы стабилизации температуры в барокамере экспериментальной системы контроля качества приборов. Данная подсистема позволяет управлять величиной тока, подаваемого на термоэлектрический модуль, для поддержания воздушной среды управляемого объекта – барокамеры в пределах заданной величины.
    Демина Юлия Александровна, ФГБОУ ВПО «Госуниверситет – УНПК», г. Орел
    Вереницын Андрей Игоревич, ФГБОУ ВПО «Госуниверситет – УНПК», г. Орел
    Демина Елена Григорьевна, ФГБОУ ВПО «Госуниверситет – УНПК», г. Орел
  • В данной статье рассматривается актуальность применения свободного программного обеспечения для оказания электронных услуг населению, а также выявляются проблемы при его внедрении и сопровождении.
    Стычук Алексей Александрович, ФГБОУ ВПО «Госуниверситет – УНПК», г. Орел
    Постников Максим Владимирович, ФГБОУ ВПО «Госуниверситет – УНПК», г. Орел