Methods for solving the problem of topic segmentation of texts based on knowledge graphs

Cover Page

Cite item

Full Text

Open Access Open Access
Restricted Access Access granted
Restricted Access Subscription Access

Abstract

Тематическая сегментация – это задача разделения неструктурированного текста на тематически связные сегменты (такие, в которых речь идет об одном и том же). Граф знаний – графовая структура, вершинами которой являются различные объекты, а ребрами – отношения между ними. Как задача тематической сегментации, так и задача автоматического построения графа знаний не будут новыми, поэтому существует множество алгоритмов для их решения. Однако методы решения задачи тематической сегментации с помощью графов знаний до сих пор исследованы мало. Более того, пока еще нельзя сказать, что задача тематической сегментации решена в общем виде, т.е.существуют алгоритмы, способные при должной настройке решить задачу с требуемым качеством на конкретном наборе данных. Предлагается новый метод решения задачи тематической сегментации на основе графов знаний. Применение графов знаний при сегментации позволяет использовать больше информации о словах в тексте: помимо того чтобы основываться на co-occurrance и семантических расстояниях (как классические алгоритмы), методы на базе графов знаний могут применять расстояние между словами на графе, инкорпорируя тем самым фактологическую информацию из графа знаний в процесс принятия решений о биении текста на сегменты.

Full Text

Restricted Access

About the authors

Z. K. Avdeeva

V. A. Trapeznikov Institute of Control Sciences of Russian Academy of Sciences

Author for correspondence.
Email: avdeeva@ipu.ru
Russian Federation, Moscow

М. S. Gavrilov

V. A. Trapeznikov Institute of Control Sciences of Russian Academy of Sciences; Moscow Aviation Institute (National Research University)

Email: cobraj@yandex.ru
Russian Federation, Moscow; Moscow

D. V. Lemtyuzhnikova

V. A. Trapeznikov Institute of Control Sciences of Russian Academy of Sciences

Email: darabbt@gmail.com
Russian Federation, Moscow

A. F. Sharafiev

V. A. Trapeznikov Institute of Control Sciences of Russian Academy of Sciences

Email: whiskeydudev@gmail.com
Russian Federation, Moscow

References

  1. Chen H., Luo X. An Automatic Literature Knowledge Graph and Reasoning Network Modeling Framework Based on Ontology and Natural Language Processing // Advanced Engineering Informatics. 2019. V. 42. https://doi.org/: 10.1016/j.aei.2019.100959
  2. Dahab M., Hassan H. TextOntoEx: Automatic Ontology Construction from Natural English Text // Expert Systems with Applications. 2008. V. 34(2). P. 1474–1480. https://doi.org/10.1016/j.eswa.2007.01.043
  3. Oren E., Anthony F., Christensen J., Soderland S. Mausam. Open Information Extraction: The Second Generation // Intern. Joint Conf. on Artificial Intelligence.Barcelona, 2011. https://doi.org/:10.5591/978-1-57735-516-8/IJCAI11-012
  4. Ristoski P., Gentile A.L., Alba A., Gruhl D., Welch S. Large-scale Relation Extraction from Web Documents and Knowledge Graphs with Human-in-the-loop // J. Web Semantics. 2019. V. 60. https://doi.org/: 100546. doi: 10.1016/j.websem.2019.100546
  5. Hearst A.M. TextTiling: Segmenting Text IntoMulti-paragraph Subtopic Passages // Computational Linguistics. 1997. V. 23(1). P. 33–64.
  6. Galley M., McKeown K., Fosler-Lussier E. Discourse Segmentation of Multi-Party Conversation // Proc. 41st Annual Meeting on Association for Computational Linguistics (ACL '03). 2003. V. 3. P. 562–569. https://doi.org/:10.3115/1075096.1075167
  7. Misra H., Yvon F., Jose J.M. Text Segmentation via Topic Modeling: An Analytical Study //Proc. 18th ACM Conf. on Information and Knowledge Management (CIKM '09). Hong Kong, 2009. V. 1. P. 1553–1556. https://doi.org/:10.1145/1645953.1646170
  8. Du L., Buntine W., Jin H. A Segmented Topic Model Based on the Two-parameter Poisson-Dirichlet Process // Machine Language. 2010. V. 81(2). P. 5–19. https://doi.org/:10.1007/s10994-010-5197-4
  9. Das A., Das P. Incorporating Domain Knowledge To Improve Topic Segmentation Of Long MOOC Lecture Videos // arXiv:2012.07589 [cs.CL]. https://doi.org/10.48550/arXiv.2012.07589
  10. Nouar F., Belhadef H. A Deep Neural Network Model with Multihop Self-attention Mechanism for Topic Segmentation of Texts // Innovative Systems for Intelligent Health Informatics. 2021. V. 72. P. 407–417. https://doi.org/:10.1007/978-3-030-70713-2_38
  11. Lo K., Jin Y., Tan W., Liu M., Du L., Buntine W.L. Transformer over Pre-trained Transformer for Neural Text Segmentation with Enhanced Topic Coherence // Findings of the Association for Computational Linguistics: EMNLP 2021. 2021. V. 1. P. 3334–3340. https://doi.org/:10.18653/v1/2021.findings-emnlp.283
  12. Arnold S., Schneider R., Cudr'e-Mauroux P., Gers F.A. SECTOR: A Neural Model for Coherent Topic Segmentation and Classification // Transactions of the Association for Computational Linguistics. 2019. V. 7. P. 169–184. https://doi.org/:10.1162/tacl_a_00261
  13. Теория управления. Терминология / Под ред. М. М. Гальперина. М.: Наука, 1988. 56 c.
  14. Теория управления: словарь системы основных понятий / Под общ. ред. Д. А. Новикова. М.: ЛЕНАНД, 2024. 128 c.
  15. Jones K.S. A Statistical Interpretation of Term Specificity and Its Application in Retrieval // Journal of Documentation. 2004. V. 60(5). P. 493—502. https://doi.org/:10.1108/EB026526
  16. Beeferman D., Berger A. L., Lafferty J.D. Statistical Models for Text Segmentation // Machine Learning. 1998. V. 34. P. 177–210. https://doi.org/:10.1108/EB026526
  17. Pevzner L., Hearst M.A. A Critique and Improvement of an Evaluation Metric for Text Segmentation // Computational Linguistics. 2002. V. 28. P. 19–36. https://doi.org/:10.1162/089120102317341756

Supplementary files

Supplementary Files
Action
1. JATS XML

Copyright (c) 2024 Russian Academy of Sciences