Сравнительный анализ методов машинного обучения для распознавания персональной информации в неструктурированных текстах
DOI:
https://doi.org/10.51301/ce.2025.i1.07Ключевые слова:
обнаружение персональной информации, машинное обучение, неструктурированный текст, конфиденциальность данных, нейронные сети, трансформаторы (BERT), распознавание именованных сущностей (NER), информационная безопасностьАннотация
С быстрым ростом неструктурированных данных и повышенным вниманием к конфиденциальности персонально идентифицируемой информации задачи автоматического распознавания и защиты данных становятся все более актуальными. В данной работе представлен сравнительный анализ методов машинного обучения для распознавания персональной информации в неструктурированных текстах. В исследовании рассматриваются методы, основанные на правилах, алгоритмы классификации (SVM, случайные леса) и модели глубокого обучения (нейронные сети, трансформаторы). Эффективность моделей оценивается с использованием таких метрик, как точность, полнота и F1-меры. Результаты экспериментов показывают, что модели глубокого обучения, такие как BERT, демонстрируют высокую точность и полноту, превосходя традиционные методы. Однако они требуют значительных вычислительных ресурсов и большого объема обучающих данных. В статье рассматриваются преимущества и недостатки каждого подхода, а также предлагаются рекомендации по выбору модели в зависимости от специфики задачи и доступных ресурсов. Помимо технических достижений, исследование подчеркивает создание ценности, обеспечиваемое эффективным распознаванием персональной информации, включая улучшенную безопасность данных, автоматизированное соответствие и операционную эффективность.
Загрузки
Опубликован
Как цитировать
Выпуск
Раздел
Лицензия
Copyright (c) 2025 Computing & Engineering

Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial-NoDerivatives» («Атрибуция — Некоммерческое использование — Без производных произведений») 4.0 Всемирная.
<div class="pkpfooter-son">
<a rel="license" href="http://creativecommons.org/licenses/by-nc/4.0/"><img alt="Creative Commons License" style="border-width:0" src="https://i.creativecommons.org/l/by-nc/4.0/80x15.png"></a><br>This work is licensed under a <a rel="license" href="http://creativecommons.org/licenses/by-nc/4.0/">Creative Commons Attribution-NonCommercial 4.0 International License</a>.
</div>
