Вкладання речень — Вікіпедія

Вбудовування речень — це збірна назва для набору методів обробки природної мови (NLP), де речення зіставляються з векторами дійсних чисел .[1][2][3][4][5]

Застосування

[ред. | ред. код]

Бібліотеки програмного забезпечення глибокого навчання PyTorch[6] і TensorFlow використовують вбудовування речень.[7]

Популярні вбудовування базуються на вихідних даних прихованого шару моделей трансформаторів, таких як BERT. Альтернативним напрямком є об'єднання вбудованих слів, наприклад, тих, які повертаються Word2vec, у вбудовані речення. Найпрямолінійніший підхід — просто обчислити середнє значення векторів слів, відомих як безперервний пакет слів (CBOW). Однак також були запропоновані більш складні рішення, засновані на векторному квантуванні слів. Одним із таких підходів є вектор локально агрегованих вбудованих слів (VLAWE),[8] який продемонстрував покращення продуктивності в завданнях класифікації подальшого тексту.

Оцінка

[ред. | ред. код]

Для тестування кодувань речень застосувують їх до корпусу речень, що містять композиційні знання (SICK)[9] як для втягування (SICK-E), так і для пов'язаності (SICK-R).

Найкращі результати отримуються завдяки використанню мережі BiLSTM, натренованої на Стенфордському корпусі висновків з природної мови (SNLI) . Коефіцієнт кореляції Пірсона для SICK-R дорівнює 0,885, а результат для SICK-E — 86,3. Незначне покращення у порівнянні з попередніми показниками презентоване в:[10] SICK-R: 0,888 і SICK-E: 87,8 з використанням конкатенації двонаправленого рекурентного блоку Gated .

Див. також

[ред. | ред. код]

Посилання

[ред. | ред. код]

Примітки

[ред. | ред. код]
  1. Paper Summary: Evaluation of sentence embeddings in downstream and linguistic probing tasks[недоступне посилання]
  2. The Current Best of Universal Word Embeddings and Sentence Embeddings
  3. Sanjeev Arora, Yingyu Liang, and Tengyu Ma. «A simple but tough-to-beat baseline for sentence embeddings.», 2016; openreview: SyK00v5xx.
  4. Trifan, Mircea; Ionescu, Bogdan; Gadea, Cristian; Ionescu, Dan (2015). A graph digital signal processing method for semantic analysis. 2015 IEEE 10th Jubilee International Symposium on Applied Computational Intelligence and Informatics. с. 187—192. doi:10.1109/SACI.2015.7208196. ISBN 978-1-4799-9911-8.
  5. Basile, Pierpaolo; Caputo, Annalina; Semeraro, Giovanni (2012). A Study on Compositional Semantics of Words in Distributional Spaces. 2012 IEEE Sixth International Conference on Semantic Computing. с. 154—161. doi:10.1109/ICSC.2012.55. ISBN 978-1-4673-4433-3.
  6. Microsoft. distilled-sentence-embedding. GitHub.
  7. Google. universal-sentence-encoder. TensorFlow Hub. Процитовано 6 жовтня 2018.
  8. Ionescu, Radu Tudor; Butnaru, Andrei (2019). Vector of Locally-Aggregated Word Embeddings (VLAWE): A Novel Document-level Representation. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). Minneapolis, Minnesota: Association for Computational Linguistics: 363—369. doi:10.18653/v1/N19-1033.
  9. Marco Marelli, Stefano Menini, Marco Baroni, Luisa Bentivogli, Raffaella Bernardi, and Roberto Zamparelli. «A SICK cure for the evaluation of compositional distributional semantic models.» In LREC, pp. 216—223. 2014 .
  10. Subramanian, Sandeep; Trischler, Adam; Bengio, Yoshua (2018). Learning General Purpose Distributed Sentence Representations via Large Scale Multi-task Learning. arXiv:1804.00079 [cs.CL].