社交媒体网络安全威胁,社交媒体的安全问题

开源数据包含大量与威胁相关的信息。从这些信息中及早检测新的安全威胁是已部署软件和系统安全的重要组成部分。已经存在多种网络安全事件检测方法,可以从开放数据源中的非结构化文本中提取安全事件,但大多数现有方法都专注于检测高度提及的事件。相反,安全分析师和IT 操作人员需要尽早意识到关键安全事件,无论该事件被提及多少次,以便比攻击者更快地做出响应。在本文中,我们提出了一种新颖的安全事件检测系统W2E(https://github.com/Samsung/W2E),它可以快速识别来自Twitter的重要安全事件,例如新威胁和相关攻击的复发。与现有方法不同,该方法通过监视新词或重复词来触发事件,以从数百个事件中缩小候选事件的范围。接下来,我们通过对链接到触发词的推文进行聚类来形成事件。这种方法使安全人员能够及早发现新的威胁。

0x01 简介随着云计算、物联网(IoT)、人工智能(AI)和5G等新技术在数字市场中的采用,网络安全攻击面不断扩大。根据赛门铁克《互联网安全威胁报告》 的说法,不仅网络威胁的数量每年都在增加,而且威胁格局也变得更加多样化,越来越多的威胁来自新的和意想不到的来源。

为了降低日益增长的网络威胁带来的风险,组织可以尽早识别正在发生的网络安全事件,并分析检测到的事件对其产品、服务和基础设施的潜在影响,这一点很重要。每天都会在各种非官方来源(例如社交媒体平台、博客、开发者论坛等)上发布大量与安全威胁、漏洞和攻击相关的信息,人类分析师可以将这些信息与自己的信息进行比较并进行手动审查和评估。相关性几乎是不可能的。组织。因此,从开放数据源自动检测事件和生成警报的技术引起了研究界和业界的极大关注。

社交媒体是了解新兴网络安全威胁的有效方式。最重要的是,就数量和种类而言,Twitter 是收集威胁相关信息的最有用的资源。从个人安全专家到主要新闻媒体再到安全公司,各种各样的安全利益相关群体都拥有Twitter 帐户并使用Twitter 作为信息传播的来源。这些帐户发布的推文包括安全公告、产品促销和新漏洞发现,以及分享勒索软件攻击、DDoS 攻击和数据泄露等最新网络安全事件。

在许多应用领域,多个用户在Twitter 上提及的事件非常重要,例如检测自然灾害或突发新闻。因此,许多事件检测算法被设计来检测许多人提到的事件。然而,在安全领域,事件开始时被提及的次数可能与事件的重要性并不成正比。

许多网络安全事件都是在很少有用户讨论的情况下开始的,在分析之前其影响是未知的。提及这样的事件需要几天的时间。例如@tencent_blade和@Nicky_Wu仅在第一天(2023年12月11日)两次提及Magellan漏洞(SQLite远程执行漏洞),并在2023年12月14日再次提及,分别不到1次和5次。截至2023年12月15日,提及次数超过70次。此外,@ThreatFabric于2023年6月7日首次发布了一款新的Android恶意软件Mysterybot,但直到分析报告发布后6天才引起关注。分析报告发布后的第二天,就有超过100 条推文发布。需要大量提及的事件检测算法无法及早检测到此类事件。从安全角度来看,及早识别新出现的网络威胁和上述事件对于预防网络攻击起着重要作用。因此,本文重点关注从每天发生的大量安全事件中检测新的和重复出现的威胁。

在这项研究中,我们提出了一种新的事件检测系统,W2E(Words to Events)。该系统可以在早期阶段检测新的和重复出现的网络威胁,误报率低,事件检测覆盖率高。 W2E 通过采用字级事件监控而不是语义聚类技术来实现这一目标。 W2E 可识别各种单词类型中的新单词和重复出现的单词,并识别新的和死灰复燃的网络威胁。对于可能与新的安全事件(例如新的恶意软件或新的漏洞)相关的事件检测,将新词定义为以前没有见过的词可以检测没有新词的新安全事件。重复出现的单词被定义为在事件检测之前至少出现一次但其频率在检测后显着增加的单词。这些可能代表与以前的受害者或以前的威胁相关的安全事件,例如众所周知的恶意软件或漏洞。重复出现的单词包括公司名称(例如“google”)、产品名称(例如“android”和“iphone”)、恶意软件名称(例如“mirai”)、漏洞名称(例如“heartbleed”)和技术(例如“heartbleed”)。例如“heartbleed”)。 ”)。以前的安全事件可以使用重复出现的单词来检测,但这会带来新的问题。在识别出新的和重复的单词后,W2E 使用聚类算法,通过组合或拆分按检测到的单词分组的推文来形成事件。

W2E 是字级事件监视器,因此如果不能正确处理文本,可能会导致性能问题。例如,在不考虑词性(名词、动词、形容词等)或词形变化的情况下监控单词将导致大量误报。 W2E 采用许多自然语言处理(NLP) 技术,例如词性(POS) 标记。

词形

通过使用解码和命名实体识别(NER) 最大限度地减少误报。此外,W2E 通过将数据收集限制在选定的Twitter 用户范围内,显着减少了误报。

基于真实的Twitter 数据,我们的评估结果表明,W2E 最容易受到恶意软件、漏洞利用、恶意软件、漏洞利用、垃圾邮件、垃圾邮件、垃圾邮件、垃圾邮件、垃圾邮件、垃圾邮件、垃圾邮件、垃圾邮件、垃圾邮件、垃圾邮件、垃圾邮件、违规行为、 DDoS 攻击、侵权。 (第5 节)

0x02 Twitter 作为数据源有许多与威胁相关的信息源,理想情况下监控所有数据源最有利于及早发现事件。然而,没有适用于任何数据源的通用事件检测算法。用户可能想知道哪个数据源是一个好的起点。因此,本文评估了哪些数据源最适合监控安全事件的早期检测。这项研究考察了从主流新闻到开发者论坛等各种数据源中提及2023 年各种网络安全事件的时间线。

建立:

评选出105起安全事件。其中包括12 起勒索软件攻击、13 起僵尸网络攻击、13 起其他恶意软件攻击、12 起DDoS 攻击、11 起网络钓鱼攻击、6 起漏洞(针对性漏洞)、13 起数据泄露以及12 起账户劫持和13 起已披露的漏洞。选择与恶意软件、网络钓鱼、帐户劫持和Hackmageddon 漏洞相关的事件,这些事件符合以下标准:

(i) Hackmageddon 提供的针对事件发生后一个月内和事件发生后一周内的事件的Google 搜索结果数量在相应威胁类型中排名最高。

(ii) 事件描述更加详细,从而减少模棱两可的搜索结果。

很多数据泄露、DDoS攻击以及Spectre、Drupalgeddon等漏洞并不在Hackmageddon的涵盖范围内,因此此类安全事件是参考安全报告来选择的。将您的搜索域限制为Twitter、Facebook、新闻机构、博客、论坛和安全供应商报告。每个事件的关键字都是从安全新闻和报告中提供的描述中提取的,并使用Google 和Recorded Future 在六种数据源类型中搜索关键字提及。对于每个事件,手动检查搜索结果是否确实与该事件相对应,并获取提及的时间线。请注意,Recorded Future 是一家商业威胁情报公司,拥有网络安全领域最大的数据平台。

以下是我们从研究中了解到的信息:

1. Twitter 是讨论网络安全事件的主要来源,在某些情况下是唯一来源。上图为活动首日数据源类型分布情况。这表明75% 的事件与其他来源类型在同一天或之前在Twitter 上进行了讨论。这是因为人们使用Twitter 作为传播信息的平台。新闻机构、安全公司和个人安全研究人员在其网站上发布原创文章和报告后,经常使用Twitter 快速传播有关恶意软件和漏洞的发现。第一天在Twitter 上提到的事件中有16% 是唯一第一次在Twitter 上看到的事件。下图显示了事件发生第一天按威胁类型划分的数据源类型分布情况。这表明大多数威胁类型事件一出现就会在Twitter 上被提及。

2. Twitter有足够的信息来收集更多有关网络安全事件的信息。我们发现,在提及第一天事件的第一条推文中,82% 提供了更多信息的链接。在这些外部链接中,56%是新闻文章,34%是博客文章,7%是VirusTotal等分析报告。

请注意,限制数据收集中用户事件检测的原因有两个。首先,可以减少事件检测期间的噪声。当具有安全意识的用户提到“漏洞”、“漏洞”和“黑客攻击”等与威胁相关的词语时,误报率会显着降低。其次,它有助于使事件检测算法能够抵御对抗性攻击。社交媒体(例如Twitter 和Facebook)上存在大量虚假新闻,通过限制特定用户的数据收集,可以检测到由虚假新闻引起的事件,除非可以避免被监控的用户成为对手。

2) 数据预处理当在前一个时间t-1 和事件检测时间t 之间收集推文时,它们将通过具有指定关键字集的过滤器。关键字集是一个超集,其中包括五种感兴趣的事件类型的关键字集子集:恶意软件、漏洞利用、漏洞、DDoS 攻击和数据泄露。关键字的示例包括“恶意软件”、“勒索软件”、“僵尸网络”、“木马”、“漏洞”、“漏洞”、“错误”、“漏洞利用”、“DDOS”、“数据泄露”等。请注意,关键字集越大,误报率越低,但误报率越高。然后根据相应的关键字集将推文分为五种事件类型。如果推文包含来自多个事件类型的关键字,则它们会按照感兴趣的事件类型的顺序进行分组。如果您对终端设备安全感兴趣,您可以按恶意软件、漏洞利用、漏洞、DDoS 攻击和数据泄露对您的推文进行分组。包含除五种事件类型之外的关键字的其余推文被分组到“其他”类别中。在W2E中,

所有与勒索软件、间谍软件、特洛伊木马、僵尸网络、rootkit、广告软件、键盘记录程序和其他恶意文件相关的事件都被归类为恶意软件事件类型。推文的分类顺序不会影响事件检测算法的性能。它仅影响检测到的事件的分类位置。还通过收集包含CVE ID 的推文来单独监控CVE 相关事件。

对推文进行分类可帮助您按事件类型分隔多个事件(与单个单词相关)。例如,如果“Linux”一词被检测为重复出现的单词,则同一天可能会发生多个事件,例如发现新的Linux 漏洞或出现新的Linux 恶意软件。在我们的实施中,“攻击”、“黑客”和“违规”等非常常见的关键字被分组为“其他”类别中的一组关键字,以确保您不会错过重要的安全事件。

经过过滤和分类后,推文将被预处理以构建一组单词以在下一步中进行监控。

(1) 命名实体识别(NER)应用于每条推文。 然后创建一个人员姓名列表,以便稍后将其删除。

(2) 每条推文均应用音频(POS) 标签。感兴趣的威胁词包括恶意软件名称、漏洞、公司和产品。由于大多数单词都是名词,因此在每条推文中都用词性标记了这些单词,以便稍后可以提取名词。

(3) 从每条推文中删除符号、电子邮件、URL 和Twitter 句柄。这些推文以小写形式显示。停用词已被删除。请注意,停用词(例如“,”、“,”和“to”)是大多数文本中最常见的单词。 Twitter 句柄在文字监控中会产生大量噪音,因为许多Twitter 用户过度使用它们来进行自我推销。

(4) 技术/产品术语及其替代名称将被单一标记形式的单一代表性术语取代。例如,将“wi-fi”替换为“wifi”,将“智能电视”替换为“smarttv”,将“smart-tv”替换为“smarttv”。使用DBpedia 作为同义词。

(5) 对推文进行分词并仅提取名词词以创建监控目标候选词。它还拥有CVE ID。接下来,将人员列表中的单词从候选单词中排除,并且单字母单词也被排除。请注意,尽管某些名字可能具有威胁性,但根据经验观察,推文中包含的大多数名字在本研究中并不感兴趣。

(6) 对每个单词应用词法分解,将单词的共轭形式表示为单个单词。

请注意,有许多用于POS 标记和NER 的开源NLP 工具,例如NLTK、CoreNLP、twitter_nlp 和Twokenizer。

3)新词和重复词检测监控所有候选词不仅耗时,而且在事件检测时会产生大量噪声。因此,配置哪些词应该被过滤掉以及哪些词可能构成安全事件非常重要。为此目的创建了以下词典。

D

技术:该词典用于监控单词的出现。这包括特定于安全的词语,例如恶意软件名称、漏洞名称、公司名称、软件/硬件名称以及技术术语。通过执行统计显着性测试来比较安全和不安全文档中单词的两个比例来构建初始词典。我们使用了2023 年从9 个主要新闻网站收集的9,934 篇安全新闻文章和8,597 篇非安全新闻文章。我们提取了安全相关新闻中出现率显着高于非安全相关新闻的单词,显着性水平为5%。第一部词典包含14,592 个单词,运行四年,从2014 年到2023 年。每天从知名安全部门收集的282万条推文经过新词检测算法运行,新词更新到该词典中,如下所述。截至2023年底,该词典共收词16014个。

D

常见:本词典用于删除常见英语单词。它还包括常见的英语单词和常见的Twitter 术语。为了构建这本词典,使用统计显着性检验来提取在非安全新闻中出现频率显着高于在安全新闻中出现的单词。 Twitter 上的单词与英语词典中的单词完全不同,因此我们使用公共API 从2015 年初从Twitter 收集的8.63 亿条推文中提取了前10 万个单词,并且没有关键字或用户限制。然而,一些在安全事件中很重要的单词,例如“apple”和“google”,在英语词典和Twitter中也是重要的单词。要从DCommon 中排除此类单词,请手动检查它们。

D

科技,《财富》 财富500 强公司,百思买,《消费者报告》 NVD CPE 词典和交叉词。截至2023年底,词典收录单词数为72,623个。

D

白名单:该词典用于消除用于不必要监视的常见术语。此类词语的示例包括“网络”、“网络安全”、“信息安全”和“网络攻击”。使用IDF(逆文档频率)从超过9,934 篇安全新闻文章的DTech 词汇中提取常见技术词汇。为了从Twitter 中提取常见技术术语,我们还计算了DTech 中2023 年1 月至12 月收集的包含威胁相关关键词的101,604 条推文的IDF 值。该词典还包括会议名称,例如“defcon”、“bhusa”和“rsac”。截至2023年底,该词典词汇量为2339个。

请注意,新闻文章的处理方式与第4.2 节相同,但Twitter 特定的处理方式除外。在构建DCommon时,由于POS标签无法完全执行并且监控的词集包含除名词以外的词,因此跳过了上一节中的步骤(2)。 Twitter 数据集中的前100,000 个单词被进一步考虑,因为它们覆盖了8.63 亿条推文的大约98% 的单词分布。

接下来,我们将向您展示如何检测新单词和重复单词。令n 为从时间t-1 到t 包含一组特定关键字的推文总数。类似地,令C 为时间t 时数据预处理返回的单词集合。令K 代表指定关键字的集合。

检测新词:

通过从集合C 中删除

D

技术

D

检测新词的常用词。由于K中的词不是监控词,因此这些词也从C中删除。获得新候选词后,我们过滤掉n 条推文中出现的统计显着性较低的词。即保留满足条件的w:这个词。

其中pt(w)=ft(w)/n,在时间t 包含单词w 的推文ft(w) 和z 的数量是标准正态分布的(1) 百分位数。请注意,在95% 置信度(=0.05) 下,z0.05=1.645。如果您从新单词建议中删除更多单词,您可以增强信心。

检测单词的出现:

基于生词的事件检测仅适用于包含生词的事件,因此其在事件检测中的范围非常有限。首先,它无法涵盖以前出现的威胁或其变体。根据我们的实验结果,我们观察到新的基于单词的事件检测方法无法检测Spectre 变体,尽管自2023 年1 月3 日首次发现以来已多次报道该变体。其次,在新威胁被命名之前无法检测到事件。 2023 年10 月16 日,也就是宣布密钥刷新攻击(KRACK) 漏洞的前一天,发现了几条推文。然而,这些推文中从未提及“KRACK”等新词。例如,2023 年10 月15 日的第一条推文写道:“这是WPA2 Wi-Fi 中的核心协议级缺陷,似乎存在问题。可能的影响:Wi-Fi 解密、连接“劫持、内容注入”。最后,它不适用于任何类型的事件。许多数据泄露并不涉及新词。有关数据泄露的推文通常会提及受影响的公司、泄露的规模以及暴露的用户数据的类型,因此没有太多新词来描述这些类型的事件。还监视重复的单词,以扩展新的基于单词的事件检测方法的范围。

用于检测重复单词的算法本质上是监视DTech 中的单词,但不监视DTech 中的单词。

D

在白名单内(即

D

技术\\

D

白名单)监控单词。对于重复单词检测,令CR 为C (

D

技术\\

D

白名单)。首先,我们过滤掉CR 中出现次数不如新词检测中统计显着的单词。回想一下,重复出现的单词被定义为以前出现过但在时间t 频率突然增加的单词。因此,我们检查t 时刻CR 中每个单词的出现次数与之前相比是否有统计上显着的增加。有很多方法可以衡量单词出现的变化。例如,您可以计算时间t 和t-1 时包含某个单词的推文数量之间的差异。该算法根据时间t 计算包含该单词的推文数量与期望值之间的差值。过去的事。作为数学定义,令ft(w) 为在时间t 包含单词w 的推文数量。对于CR 中的每个单词w,w f^t(w) 的预期提及次数是使用过去k 次出现的指数加权移动平均值(EWMA) 和平滑因子 (0 1) 来计算的。以下公式。

为了确定w 的提及次数是否正在快速增加,请导出ft(w) 可以高置信度取值的范围。 计算一下:

要将单词w 视为重复出现的单词,ft(w) 必须满足:

请注意, 越大,旧观测值的影响下降得越快。另请注意,在95% 置信度下,z0.025=1.96。

下图显示了重复单词的示例。 2023年1月3日Intel CPU漏洞披露时,同时检测到“spectre”和“intel”两个词。这两个术语的提及次数都在快速增加。尤其是事发前一个月,还从来没有出现过“鬼”这个词。 “Wi-Fi”这个词经常在各种事件中被提及,从“Wi-Fi 密码破解”到“Wi-Fi 破解者”再到“Wi-Fi 固件错误”。与“幽灵”和“英特尔”不同,即使作为事件触发,也大多被提及不到10次。

请注意,每个事件类型中都会提取新词和重复出现的词,但词过滤规则适用于所有事件类型中提及每个词的推文数量。因此,将推文分类为事件类型的顺序对检测到的单词没有影响。仅影响事件的分类位置。虽然所提出的算法侧重于从Twitter 检索事件,但它也可以应用于安全新闻监控和论坛监控。

词典更新:

由于每天都会发生新事件,因此需要更新

D

一种在检测到新单词时重新检测单词的技术。随着新单词的发现,DTech 每天都会更新。但是,检测到的新单词将自动更新并显示在词典中。

D

技术会积累噪音。这会增加单词重复检测中的误报。因此,需要每天进行手动检查或采用保守的字典更新策略来减少自动字典更新带来的累积噪声。在本文中选择后一个选项可以完全自动化您的系统。什么时候

D

如果“科技”每周至少两次被检测为新词,

D

每次检测到新单词时,该技术都会更新。更新检测到的新单词后,如下所示:

D

在Tech之前,这些词出现在新词列表中。

监控CVE ID。

随着新漏洞的发现或已知漏洞的重新审视,组织必须了解这些漏洞以减轻潜在风险。 W2E 监视推文中是否存在大量包含一组指定的漏洞特定关键字的漏洞。可以通过在关键字序列中包含“cve”来监视漏洞事件类别中的CVE ID。然而,在这种情况下,CVE ID 会生成如此多的事件,以至于它们构成了漏洞事件类别的大部分,并且分析人员可能会忽略没有CVE ID 的漏洞事件,除非它们被充分提及。因此,W2E 单独监控CVE ID。 CVE 监控先于NVD 关注CVE。这被定义为已分配ID 但尚未发布到国家漏洞数据库(NVD) 的CVE。我们在Twitter 上运行CVE Monitor,发现2023 年1 月至2023 年12 月期间有345 个NVD 之前的CVE。其中,截至2023年4月30日,已发布CVE 309个,尚未发布CVE 36个。至少在NVD 前1 天提及,最多在NVD 前450 天(平均NVD 前46 天)提及。这项研究还对检测NVD 中发布但由于某种原因在Twitter 上再次提及的CVE 感兴趣。随着NVD 中对CVE 的讨论迅速增加,组织应评估其产品/服务/基础设施中的CVE 风险,并确保针对CVE 进行修补。与上面介绍的威胁词检测算法不同,而是使用事件检测时间t之前由NVD提供的CVE列表作为字典DCVE。

D

技术,

D

白名单和

D

一般的。假设CCVE 是在时间t-1 和t 之间收集的。

的推文中获得的一组CVE ID。在CVE监视中,如果CCVE中的CVE ID不在DCVE中,则这些CVE被标识为新单词。为避免输入错误,消除了MITRE中找不到的CVE ID。对于CCVE∩DCVE中的CVE ID,检查每个CVE ID是否被足够提及,并显示其发生率迅速上升。为了重新出现CVE检测,从漏洞摘要中排除了推文并使用了与上面相同的过滤规则,其中n是包含CVE ID的推文的数量。
4)事件产生本研究的系统通过识别新单词和重新出现的单词来检测事件。但是,这种方法的局限性在于单词与事件不具有一一对应关系。也就是说,(i)两个或多个检测到的单词可能代表一个事件–一个单词和一个新出现的单词或两个新单词可能来自一条推文,并且(ii)检测到的单词可能不对应一个事件。后一种情况在通过重新出现的单词进行事件检测中更经常发生。例如,当单词“ wifi”被检测为重新出现的单词时,可能会在同一天被wifi固件错误和wifi检查程序漏洞引起混淆。
为了克服上述问题开发了一个事件生成器,该事件生成器将W2E的最后一步合并或拆分由检测到的单词触发的候选事件。在每种事件类型中,事件生成器都会对包含新单词和重新出现单词的推文进行聚类分析。许多安全事件由特定于上下文的词来描述,例如恶意软件名称,漏洞,受害者和攻击目标。因此,关于同一事件的提及可能包含相同的事件特定词。因此,从每个推文中提取一组此类单词,并通过计算Jaccard相似度来测量两个推文之间的相似度。
通过以下步骤从每个tweet中提取事件特定的单词:(1)上节的步骤(3)和(4),(2)安全性术语及其别名被替换为单个代表性术语,形式为单个令牌。例如,将“缓冲区溢出”,“缓冲区溢出”,“ buffer_overflow”和“ buffer overrun”替换为“ buffer-overflow”。(3)在标记化和词法化之后,修剪
D
Common∪
D
Whitelist∪K中的单词然后,通过将分层聚类方法应用于Jaccard距离矩阵来对推文进行分组。在将每种事件类型中的推文进行聚类之后,最终通过以类似方式将所有事件类型中的推文聚类进行分组来形成事件。请注意,具有相同外部链接的两条推文会形成同一事件。
请注意,出于事件检测的目的,有几种聚类方法可以将推文分组。可以采用诸如word2vec,GloVe和ELMo之类的词嵌入来将推文表示为向量空间,以便测量两个推文之间的语义距离。但是观察到,对于有关安全事件的推文,使用上下文特定单词的聚类比语义聚类要好得多。
由于W2E每天都在运行,因此同一事件可以在Twitter上进行讨论时一次又一次地出现。每当检测到事件时,重复生成同一警报效率低下并且令人讨厌。因此开发了一个事件管理器,它将在时间t处检测到的事件合并到在时间t-1内检测到的事件。事件管理器首先接管过去7天内检测到的事件。然后,它保留事件特定的单词,这些单词在每个事件中至少出现50%的推文,以提取事件的特定于上下文的单词。如果两个事件的特定于上下文的单词集的Jaccard相似度大于0.7,它将最终在时间t将检测到的事件合并为过去的事件。
0x04 Evalution1)评估设置从2023年1月到2023年4月,每天从560个Twitter用户收集的推文中运行W2E。本文的Twitter数据集的总量为1,647,629(包括转发)。
从3个方面评估W2E的性能-(i)每日事件生成的聚类准确性,(ii)每日事件检测的准确性,以及(iii)覆盖率和检测延迟。对于(i)和(ii),在2023年4月选择了W2E的结果。请注意,在选择的另一个月份(2023年6月)至2023年4月,观察到了相似的结果,尽管没有在此处报告。新词/重复词触发了大约5,900条独特的推文。五名安全专家手动注释每个推文的群集标签,并确定检测到的事件是否是真正的安全事件。注释者通过引用推文中的外部链接或Google搜索做出判断。对于(iii),从105个安全事件中提取了82个涉及恶意软件,漏洞,漏洞利用,DDoS攻击和数据泄露事件类型的事件,分析了W2E是否检测到它们,如果是,它们被检测到的时间为何。对于延迟计算,参考了关于整个Twitter事件的第一条推文的日期。W2E将勒索软件,间谍软件,特洛伊木马,僵尸网络,Rootkit,广告软件,键盘记录程序,以及将任何其他恶意软件转换成恶意软件事件类型。
在实施中,使用200个关键字(从单个单词到术语)– 28个关键字用于与恶意软件相关的事件,11个关键字与与漏洞相关的事件,20个关键字与与漏洞相关的事件,6个用于DDoS攻击,以及17个用于数据泄露。通过查看CWE,CAPEC,STIX和ENISA威胁分类法中的术语来选择初始关键字。然后,将每个关键字的复数形式,词尾变化和别名包含到关键字集中。对于新词和重新出现的词检测,都将α= 0.05。请注意,到2023年底,DCommon中有72,623个单词,
D
Tech中有16,014个单词,
D
Whitelist中有3,078个单词。使用Stanford CoreNLP进行POS标签和NER。
2)评估结果聚类精度:
为了衡量事件生成器的聚类准确性,将事件生成器的估计聚类与人工标记的聚类进行了比较,然后计算了也未计算化的互信息(NMI)。请注意,NMI是评估
群集
质量的流行指标之一。它始终是介于0和1之间的数字,并且1表示完美的聚类。下图展示了事件生成器在2023年4月的每日NMI。在所选月份的大部分时间里,NMI大于0.9。该月的平均年龄NMI为0.96,标准偏差(SD)为0.06,这表明事件生成器表现良好,可以将共享同一事件特定单词的不同tweet拆分为相似的tweet,或将相似的tweet合并为一个簇,且误差很小。
每日事件检测准确性:
本研究测量每天产生多少误报,下表显示了W2E在选定月份中所有日常事件中的精度。 W2E的整体精度为80%,每种威胁类型的精度接近或大于70%。 W2E总共检测到2359个日常事件(平均每天79个),形成930个独立事件。在930个唯一事件中,有763个事件是真正的安全事件,因此W2E在当月唯一事件的准确性为82%。
覆盖率和检测延迟:分析W2E涉及恶意软件,漏洞,漏洞利用,DDoS攻击和数据泄露等事件的范围。上表显示了82项安全事件中W2E的召回情况。 W2E的总体召回率为89%-在82个事件中检测到73个。在73个事件中,仅通过重新出现单词就检测到26个事件,因为它们的推文中未包含任何新术语。这验证了重新出现单词监视的重要性。
尽管W2E对恶意软件攻击,利用事件,漏洞和数据泄露事件的召回率很高,但DDoS攻击的召回率却相对较低。DDoS攻击的覆盖率较低是因为,遭受此类攻击的任何用户(而不是安全意识强的用户)都可能开始讨论此类事件,正如前文中观察到的那样。还观察到W2E导致0.67在Twitter上首次看到后,平均检测延迟天数。但是,在该事件首次出现在Twitter的当天,发现了82个事件中的45个。另外,第二天检测到17个事件。请注意,尽管在整个Twitter的第一天中,有82个事件中有29个被提及的时间少于10次,但W2E可以检测到其中12个事件。特别是,W2E可以检测到僵尸网络攻击,利用事件和漏洞而几乎没有延迟,这从早期事件检测的角度来看非常有意义。此外,观察到W2E在事件的第一天检测到82个事件中的31个,而从事件的第一天开始,平均检测延迟为2.68天。请注意,从第一条推文到活动的第一天之间有1.89天的延迟。下表列出了事件首次出现当天W2E检测到的一些示例性事件。
3)案例研究在W2E从2023年1月到2023年4月检测到的几个事件中,选择了4个事件– Lokibot恶意软件,Drupal漏洞,Firebase数据泄露和WiFi固件错误。
Lokibot(恶意软件)–该恶意软件是特洛伊木马,它从受感染计算机中窃取信息。 Trustwave的研究人员发现了推动Lokibot的新垃圾邮件活动,并于2023年4月5日在Threatpost等新闻媒体进行了广播,并对其进行了分析和缓解指导。在同一天,W2E还检测到该事件,并带有“ zipx”,“ png”和“ “ lokibot”。但是,有趣的一点是W2E在2023年4月2日检测到与Lokibot相关的事件,其中一些推文包含Lokibot的下载URL。该推文中的URL之一:bluewales.ml/wp/wp-content/uploads/2023/04/Panel/five/fre.php 在2023年4月4日被VirusTotal中的某些引擎检测为恶意网址,为2比W2E晚几天。此案例显示了W2E收集最近的危害指标(IOC)的能力。
Drupal(CVE-2023-7602)–这是开源内容管理框架Drupal中的RCE漏洞。 W2E在NVD之前的CVE中于2023年4月25日检测到此严重漏洞,其单词为“ drupal”和“ cve-2023-7602”。可以从推文中的外部链接获得此漏洞的描述及其缓解措施。 Drupal安全团队强烈建议立即更新,因为该漏洞非常重要(其CVSS评分为9.8)。后来,他们确认该漏洞已在野外被利用。这种情况表明,及早发现漏洞并立即更新非常重要。 Firebase(数据泄露)– Firebase是Google提供的后端即服务,其中包含大量服务。移动开发人员使用它来制作移动和基于Web的应用程序。根据Appthority研究人员的报告,成千上万的iOS和droid应用程序通过错误配置的Firebase后端泄漏了用户的敏感数据。在发布报告之前,Appthority研究人员将这一问题通知了Google,并提供了受影响的应用程序和Firebase数据库服务器的列表。但是,所有开发人员可能都没有意识到Firebase的风险,因此Google花费了一些时间解决该问题。为了减轻风险,开发人员需要尽快发现问题。 W2E早于新闻媒体检测到此问题,并将有关此事件的信息作为警报传递。 W2E于2023年6月20日首次检测到“ firebase”一词,并提供了信息丰富的单词“ android”和“ database”。尽管在检测当天只有2条推文提到“ firebase”,但W2E可以通过提出的重新出现词检测算法将其检测到
Marvell Avanstar(WiFi固件错误)– Marvell AvanstarWifi芯片SoC错误已于2023年1月18日通过Embedi博客和ZDNet公开披露。 2023年1月3日,W2E从Marvell Avanstar上的“ unauth,unassoc远程代码执行程序”推文中检测到带有“ wifi”,“ chromebooks”,“ marvell”,“ avanstar”,“ playstations”和“ samsung”字样的事件。适用于Playstations,Xbox,Surfaces,Chromebooks,Samsung手机等中的Wifi芯片SoC,攻击时间不到五分钟。在Linux驱动程序中,在Steamlink上的PoC上获得第二阶段的升级奖励。 https://t.co/s54QBc5mDK ”。该案例清楚地表明了W2E的早期检测能力以及监视开放数据源的好处。
0x05 Conclusion本文提出了一种新颖的基于单词的网络安全事件检测系统。所提出的系统通过分析随着时间推移出现的单词来监视新单词和重新出现的单词,新词/重复词检测算法是由时域中词分布或词出现中的异常检测引起的。在识别了与安全事件相关的单词之后,事件检测算法将触发的tweet聚类以进行事件构建。无论提及的威胁量如何,此方法都可以检测到新的威胁和重复的威胁,本研究证明了所提出的事件检测系统在各种网络威胁类型上都有望实现。
欢迎登录安全客 -有思想的安全新媒体www.anquanke.com/加入交流群1015601496 获取更多最新资讯
原文链接:https://www.anquanke.com/post/id/223787

本文和图片来自网络,不代表火豚游戏立场,如若侵权请联系我们删除:https://www.huotun.com/game/659151.html

(0)
上一篇 2024年5月30日
下一篇 2024年5月30日

相关推荐

  • 和平精英单机模式怎么玩?

    和平精英单机模式怎么玩? 人机模式可以开,需要玩家创建一个房间,这里可以设置游戏数据,设置武器资源、队友伤害、空投数量、人机数量,玩家设置之后就可以匹配到人机,和大量的人机进行对决。目前只能是创建房间来玩人机模式了,想要体验人机模式的就去玩白银局,这里基本上都是人机,决赛圈开车能撞死一堆人机。 和平精英家园模式怎么玩? 和平精英家园模式玩法如下: 1. 玩家…

    游戏快讯 1小时前
  • vivo手机和平精英画质怎么变流畅?

    vivo手机和平精英画质怎么变流畅? 要看是什么型号的vivo手机,如果是高配的话可以调流畅加极限,如果是低配置的话调流畅加默认的帧率 怎样才能让和平精英画面变流畅? 进入游戏,点击设置打开设置,通过画面设置来改善不流畅的情况。在画面设置中调低画面品质,选择流畅,然后把帧数降低就可以了。游戏中的画面不流畅,是因为画面选择的配置太高,因为有些小伙伴的手机是没有…

    游戏快讯 2小时前
  • 和平精英新赛季仓库汽车怎么做?

    和平精英新赛季仓库汽车怎么做? 需要通过把仓库里的小房间有俩个电闸,开启之后就可以做汽车了 和平精英怎么购买汽车? 需要你在活动里抽到币。可以用币换车皮肤 和平精英汽车怎么购买? 方法/步骤: 1.首先打开 和平精英APP,在商城里,选择打开【战备】选项。 2.打开战备后,选择自己喜欢的车款式,点击【限时活动获取】。 3.最后,点击【提车】选项,即可成功买到…

    游戏快讯 3小时前
  • 和平精英军用鞋子怎么开?

    和平精英军用鞋子怎么开? 要开启和平精英军用鞋子,首先确保你已经安装了和平精英游戏。 然后,在游戏中找到装备界面,选择角色的鞋子槽位。 接下来,浏览你的背包或商城,找到军用鞋子。 点击军用鞋子并选择装备选项,它们将自动装备到你的角色上。现在,你可以享受在游戏中穿着军用鞋子的优势,如增加移动速度和防护能力。记得经常检查和升级你的装备,以保持竞争力。祝你在和平精…

    游戏快讯 5小时前
  • 和平精英苟分小技巧? 和平精英怎么苟分?

    和平精英苟分小技巧? 先要选择好适合隐蔽的服装,老六服是首选。 跳伞选择偏离航线的不是城区的打野点。 在就是要知道一些适合隐藏点位,比如水城有个地方的水里可以不掉氧气值。 到了后期就是不行就趴着,要注意观察四周,圈边或者在毒里比较安全,但得带够药。 和平精英怎么苟分? 1. 可以打开自己的背包,寻找一身绿色或者黑色的衣服,因为海岛地图有着漫山遍野的草地,穿一…

    游戏快讯 6小时前