日本美女视频韩国视频网站免费,综合91在线精品

【NLP】使用AutoX_nlp自動化提取文本特征

2022.05.22 湖北

背景

你是否曾面對結(jié)構(gòu)化數(shù)據(jù)中的文本列,不知如何處理？文本數(shù)據(jù)作為一種常見的數(shù)據(jù)類型，包含了大量重要特征，如情感、意圖等。為了高效地將文本轉(zhuǎn)換為可供模型使用的特征，AutoX_nlp提供了文本列自動特征提取的解決方案。通過該方案，可以很方便地調(diào)用文本處理工具，將文本特征變成數(shù)值特征，進行后續(xù)訓(xùn)練、預(yù)測。

效果

目前AutoX_nlp結(jié)合AutoX端到端自動機器學(xué)習(xí)建模方案，已在多個包含文本域的數(shù)據(jù)集上取得優(yōu)于其他自動建模工具的結(jié)果。

案例說明

你可以很容易地使用AutoX_nlp，幾行代碼即可完成文本特征提?。?/p>

from autox.autox_nlp import NLP_featureNLP_feature = NLP_feature()

text_columns = ['text1','text2']train_text_feature = NLP_feature.fit_transform(train,text_columns)test_text_feature = NLP_feature.transform(test)

AutoX_nlp介紹

主要流程包括:

1. 分詞：將單條文本拆分為多個token，將文本信息拆分細化。默認為空格分詞，無監(jiān)督分詞器可以動態(tài)選擇較合適的分詞粒度；

2. 特征提?。簩⒉鸱趾蟮奈谋颈硎緸閿?shù)值特征向量，默認為TFIDF，此外還支持Word2Vec、FastText、Glove、Bert、Zero-shot labeling。其中zero shot labeling使用在NLI任務(wù)下訓(xùn)練的模型對文本潛在的類別進行預(yù)測，適用于提前知曉文本列所指代特征的情況；

3. 輸出：將特征轉(zhuǎn)化為期望的輸出格式，默認為離散型，此外也可以直接以稀疏矩陣輸出第二步的特征，以及使用有監(jiān)督的方式輸出連續(xù)型特征。

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

打開APP，閱讀全文并永久保存查看更多類似文章

Python如何運用NLP (自然語言處理)？

干貨|百分點首席算法科學(xué)家蘇海波：深度學(xué)習(xí)在文本分析中的應(yīng)用

讀完本文你就了解什么是文本分析

谷歌又有新技術(shù)，現(xiàn)在可以搜索圖片里的文字

XGBClassifier.feature_importances_函數(shù)，采用weight方式計daiding

部分常用分詞工具使用整理

更多類似文章 >>

免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版