Сравнительный анализ методов машинного обучения для распознавания персональной информации в неструктурированных текстах

Авторы

  • A. Махамбет Satbayev University, Казахстан
  • A. Молдагулова Satbayev University, Казахстан

DOI:

https://doi.org/10.51301/ce.2025.i1.07

Ключевые слова:

обнаружение персональной информации, машинное обучение, неструктурированный текст, конфиденциальность данных, нейронные сети, трансформаторы (BERT), распознавание именованных сущностей (NER), информационная безопасность

Аннотация

С быстрым ростом неструктурированных данных и повышенным вниманием к конфиденциальности персонально идентифицируемой информации задачи автоматического распознавания и защиты данных становятся все более актуальными. В данной работе представлен сравнительный анализ методов машинного обучения для распознавания персональной информации в неструктурированных текстах. В исследовании рассматриваются методы, основанные на правилах, алгоритмы классификации (SVM, случайные леса) и модели глубокого обучения (нейронные сети, трансформаторы). Эффективность моделей оценивается с использованием таких метрик, как точность, полнота и F1-меры. Результаты экспериментов показывают, что модели глубокого обучения, такие как BERT, демонстрируют высокую точность и полноту, превосходя традиционные методы. Однако они требуют значительных вычислительных ресурсов и большого объема обучающих данных. В статье рассматриваются преимущества и недостатки каждого подхода, а также предлагаются рекомендации по выбору модели в зависимости от специфики задачи и доступных ресурсов. Помимо технических достижений, исследование подчеркивает создание ценности, обеспечиваемое эффективным распознаванием персональной информации, включая улучшенную безопасность данных, автоматизированное соответствие и операционную эффективность.

Загрузки

Опубликован

2025-03-31

Как цитировать

Makhambet, A. ., & Moldagulova, A. . (2025). Сравнительный анализ методов машинного обучения для распознавания персональной информации в неструктурированных текстах. Computing &Amp; Engineering, 3(1), 41–52. https://doi.org/10.51301/ce.2025.i1.07

Выпуск

Раздел

Инновационные вычислительные системы и инженерные решения