雷鋒網(wǎng) AI科技評論消息,近日,Stuart Axelbrooke在Kaggle平臺上公布了Twitter客戶支持?jǐn)?shù)據(jù)集公布,這個數(shù)據(jù)集包括來自大企業(yè)的超百萬條推文與回復(fù),大家可以利用這個數(shù)據(jù)集做很多有意思的工作。數(shù)據(jù)集的具體信息如下所示,雷鋒網(wǎng) (公眾號:雷鋒網(wǎng)) AI科技評論編輯整理如下:
Twitter客戶支持?jǐn)?shù)據(jù)集(Customer Support)是一個龐大的推文與回復(fù)語料庫,這個數(shù)據(jù)集比較現(xiàn)代化,有助于自然語言理解和會話模型的創(chuàng)新,也對客戶支持實踐與影響效果的相關(guān)研究有所幫助。
背景
自然語言處理(NLP)目前仍然需要密集的編碼方式,NLP中的創(chuàng)新加速了對數(shù)據(jù)的理解,但是驅(qū)動這一創(chuàng)新的數(shù)據(jù)集與現(xiàn)在真正使用的語言不太匹配。
Twitter客戶支持?jǐn)?shù)據(jù)集里有Twitter上大量的用戶和公司的客戶支持中心之間的對話語料庫,這個語料庫的語言主要是英文,比起其他會話文本數(shù)據(jù)集有三個主要優(yōu)勢:
聚焦——這個數(shù)據(jù)集里的數(shù)據(jù)主要是用戶聯(lián)系客戶支持中心來解決特定的問題的對話,他們討論的問題類型相對來說較少,當(dāng)與reddit語料庫(reddit Corpus)等不受約束的對話數(shù)據(jù)集相比,這種情況更甚。
自然——這個數(shù)據(jù)集里的用戶覆蓋面要比Ubuntu對話語料庫(Ubuntu Dialogue Corpus)更廣。比起Cornell電影對話語料庫(Cornell Movie Dialogs Corpus),這個數(shù)據(jù)集中有更多更自然和更常用的輸入文本。
簡潔——由于Twitter上對話的簡潔性,客戶支持中心會回復(fù)得更自然,關(guān)于問題和解決方案的描述都會會有過多廢話,這也便于利用循環(huán)網(wǎng)絡(luò),可以使得信息的限制相對較低。
有意思的問題
這個數(shù)據(jù)集的大小和覆蓋范圍激發(fā)了許多有意思的問題:
我們能預(yù)測公司客戶支持中心的回答嗎?考慮到每個公司處理的問題都是在某個范圍內(nèi),答案看起來是肯定的!
用戶的請求會過時嗎?較好的公司反應(yīng)速度有多快,與最糟糕的公司相比呢?
在局部聚類(topical clustering)時,能學(xué)習(xí)到高質(zhì)量的稠密嵌入(dense embedding)或相似性表現(xiàn)嗎?
語氣是如何影響客戶支持中心與用戶的對話的?說對不起有用嗎?
內(nèi)容
數(shù)據(jù)集是CSV格式,每一行為一條推文。對列的描述如下所示,每段對話至少包含一條用戶請求和一條公司回復(fù)??梢杂胕nbound字段來計算哪個用戶ID是公司用戶ID。
tweet_id
推文ID,匿名,每條推文只有一個此類ID,response_tweet_id和in_response_to_tweet_id中有引用到這個ID。
author_id
用戶ID,匿名,每個用戶只有一個此類ID,數(shù)據(jù)集中的@被與用戶相關(guān)的用戶ID替換掉了。
inbound
用戶的請求推文是否被那些在推特上進(jìn)行客戶支持的公司“歸檔(inbound)”。該特征在訓(xùn)練會話模型時的數(shù)據(jù)重組階段非常有用。
created_at
發(fā)推文的日期和時間
text
推文內(nèi)容。電話號碼和電子郵箱等敏感信息用__email__等類似句段來掩蓋。
response_tweet_id
與請求推文相關(guān)的回復(fù)推文ID,用逗號隔開。
in_response_to_tweet_id
該條推文所回復(fù)的推文ID(如果存在)
數(shù)據(jù)集下載地址: https://www.kaggle.com/soaxelbrooke/customer-support-on-twitter
via: Kaggle
雷鋒網(wǎng) AI科技評論編輯整理
雷鋒網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見 轉(zhuǎn)載須知 。