Porn Data Anaylize — 分类数据二次分析

我真的是以欣赏的角度看的,挺好看。很有态度,感觉真的像一个传媒公司,镜头,画面,转场,特写都很专业。艺人也是很敬业,很佩服他们. ..
U1S1演员确实没研究,怎么说也是小电影还是需要演技的。但这些演员都是真刀真枪的干。要是能真的请到传媒学院的或者那些圈里的明星估计会更好。– 糊胡涂

我没有要传播色情的意思,只是对于爬取的数据进行分析的时候,总会有些出乎意料的发现。在国内所有的情色内容都是不合法的,但是违法的事情确并没有因此而销声匿迹。通过最近的分析,我发现色情产业这个规模异常的庞大。原来想写一篇简单的分析文章,现在却发现自己分析的不过是冰山一角。现在的色情行业已经不再仅仅局限于提供色情视频的观看,点播下载。现在基于各种直播平台的在线直播,打赏,网红主播,TS CD,甚至有专门的编剧,导演拍摄,并且喊着口号甚至要超越日本,成为世界第一。

大家好,我是麻豆傳媒P先生。 謝謝大家一直對麻豆的支持,我們想打造屬於華人的中文市場,不讓日本一直走在我們前面,我們持續努力前行,打造華人的驕傲! 最近有許多人不斷的盜取麻豆的原創影片,我想這可能是大家還不習慣屬於華人國產影片的出現。感謝所有的同行跟我們一起努力,為每個人的夜晚去打造歡愉,但是盜取麻豆的影片只會讓歡愉更快的消失,讓華人國產停滯不前。 –麻豆传媒

而实际上,我在他们的官网也找到了不少的签约模特,暂且成为模特吧。关注到这个网站,或者这个群体是基于对爬取的数据分类的播放量分析得来的,虽然整体的播放量不是很大(受限于视频数量),但是影片的平均播放次数却是最高的!另外,请读者遵守中国法律,不要传播色情淫秽信息。本人也不会传播相关的内容,所有的数据仅用于分析当前行业的一些状态。

'''
分类播放信息
http://www.h4ck.org.cn
by obaby
obaby@mars
email:root@obaby.org.cn
date: 2020.09.15
'''

from pyspark.sql.functions import col
import altair as alt

import pandas as pd
from matplotlib import pyplot as plt
%matplotlib inline
csv = spark.read.option("header",True).csv("hdfs://localhost:9000/data3/porn_data_movie.csv")
csv.printSchema()
root
 |-- id: string (nullable = true)
 |-- create: string (nullable = true)
 |-- update: string (nullable = true)
 |-- name: string (nullable = true)
 |-- describe: string (nullable = true)
 |-- image: string (nullable = true)
 |-- thumb: string (nullable = true)
 |-- thumb_raw: string (nullable = true)
 |-- preview: string (nullable = true)
 |-- video_link1: string (nullable = true)
 |-- video_link2: string (nullable = true)
 |-- video_link3: string (nullable = true)
 |-- video_link4: string (nullable = true)
 |-- mp4: string (nullable = true)
 |-- m3u8: string (nullable = true)
 |-- source_id: string (nullable = true)
 |-- publish_time: string (nullable = true)
 |-- play_count: string (nullable = true)
 |-- good_count: string (nullable = true)
 |-- bad_count: string (nullable = true)
 |-- link_count: string (nullable = true)
 |-- comment_count: string (nullable = true)
 |-- thunder_url: string (nullable = true)
 |-- designation: string (nullable = true)
 |-- category_id: string (nullable = true)
 |-- porn_site_id: string (nullable = true)
 |-- uploader_id: string (nullable = true)
 |-- producer: string (nullable = true)
csv.select('name', 'describe', 'category_id').show()
# 分类信息读取 
category_csv = spark.read.option("header",True).csv("hdfs://localhost:9000/data3/porn_data_category.csv")
category_csv.printSchema()
root
 |-- id: string (nullable = true)
 |-- create: string (nullable = true)
 |-- update: string (nullable = true)
 |-- name: string (nullable = true)
 |-- key: string (nullable = true)
 |-- describe: string (nullable = true)
 |-- image: string (nullable = true)

movie_csv = csv.withColumnRenamed('name','movie_name')
movie_csv.select('movie_name', 'category_id', 'id').show()
+------------------------+-----------+---+
|              movie_name|category_id| id|
+------------------------+-----------+---+
|    美女学生考试时被中出|          1|  1|
|      无套中出内射(上)|          1|  2|
|      无套中出内射(下)|          1|  3|
|                极品嫩妹|          1|  4|
|                骚妹妹 7|          1|  5|
|漂亮美女完美身材甜美声音|          1|  6|
|          jk捆绑萝莉束缚|          1|  7|
|            最纯萝莉性爱|          1|  8|
|          整容脸制服美女|          1|  9|
|             星 调教萝莉|          1| 10|
|        大一学生寝室自慰|          1| 11|
|    超性感美女给你打飞机|          1| 12|
|      超可爱萝莉下海资源|          1| 13|
|      迷倒女儿然后慢慢操|          1| 14|
|   精灵做爱高潮–影视剪辑|          1| 15|
|        小萝莉被插到大叫|          1| 16|
|    睡醒和白嫩女友来一发|          1| 17|
|  双马尾萝莉甜美自慰诱惑|          1| 18|
|        调教双马尾小萝莉|          1| 19|
|    黑丝小萝莉最喜欢玩具|          1| 20|
+------------------------+-----------+---+
only showing top 20 rows

movie_cat_rdd = movie_csv.select('movie_name','play_count','category_id').join(category_csv, movie_csv.category_id == category_csv.id, "inner")
movie_cat_rdd.select('movie_name', 'name', 'play_count').show()
+------------------------+------+----------+
|              movie_name|  name|play_count|
+------------------------+------+----------+
|    美女学生考试时被中出|萝莉系|      2566|
|      无套中出内射(上)|萝莉系|     11199|
|      无套中出内射(下)|萝莉系|      7067|
|                极品嫩妹|萝莉系|      3372|
|                骚妹妹 7|萝莉系|      1975|
|漂亮美女完美身材甜美声音|萝莉系|     17097|
|          jk捆绑萝莉束缚|萝莉系|      8362|
|            最纯萝莉性爱|萝莉系|     10329|
|          整容脸制服美女|萝莉系|      5297|
|             星 调教萝莉|萝莉系|      4725|
|        大一学生寝室自慰|萝莉系|     20318|
|    超性感美女给你打飞机|萝莉系|     17302|
|      超可爱萝莉下海资源|萝莉系|     18133|
|      迷倒女儿然后慢慢操|萝莉系|     59674|
|   精灵做爱高潮–影视剪辑|萝莉系|      8767|
|        小萝莉被插到大叫|萝莉系|     14213|
|    睡醒和白嫩女友来一发|萝莉系|      5350|
|  双马尾萝莉甜美自慰诱惑|萝莉系|     25311|
|        调教双马尾小萝莉|萝莉系|     29114|
|    黑丝小萝莉最喜欢玩具|萝莉系|     17084|
+------------------------+------+----------+
only showing top 20 rows

cat_play_count_rdd = movie_cat_rdd.select('name','play_count').rdd.reduceByKey(lambda x,y:int(x)+int(y))
cat_play_count_rdd.take(10)
[('麻豆', 9647109),
 ('热门推荐', 140009898),
 ('不雅视频', 0),
 ('亚洲无码', 0),
 ('人气女优', 0),
 ('有码', 13473918),
 ('精品推荐', 0),
 ('国产专区', 0),
 ('中文字幕', 12101524),
 ('三级片', 10920151)]
cat_play_count_df = cat_play_count_rdd.toDF().toPandas()
cat_play_count_df.head()
_1  _2
0   麻豆  9647109.0
1   热门推荐    140009898.0
2   不雅视频    0.0
3   亚洲无码    0.0
4   人气女优    0.0
# 视频标签数量展示
bars=alt.Chart(cat_play_count_df).mark_bar().encode(
    x=alt.X('_2', title='播放次数'),
    y=alt.Y('_1', title='分类名称', sort='-x')
)
text = bars.mark_text(align='left', baseline='middle', dx=3).encode(text='_2')
(bars + text).properties(height=2000, width=800)

from pyspark.sql.functions import mean, stddev, skewness, kurtosis
movie_cat_rdd= movie_cat_rdd.withColumn("play_count",col("play_count").cast("Integer"))
avg_rdd = cat_play_count_rdd = movie_cat_rdd.select('name','play_count').rdd.groupByKey() \
.mapValues(lambda x: sum(x) / len(x))
avg_df = avg_rdd.toDF().toPandas()
avg_df.head()

_1  _2
0   麻豆  267975.250000
1   热门推荐    176780.174242
2   不雅视频    0.000000
3   亚洲无码    0.000000
4   人气女优    0.000000
# 视频标签数量展示
bars=alt.Chart(avg_df).mark_bar().encode(
    x=alt.X('_2', title='平均播放次数'),
    y=alt.Y('_1', title='分类名称', sort='-x')
)
text = bars.mark_text(align='left', baseline='middle', dx=3).encode(text='_2')
(bars + text).properties(height=2000, width=800)

参考链接:

https://www.douban.com/group/topic/177255686/

https://www.douban.com/group/topic/185033610/

☆版权☆

* 网站名称:obaby@mars
* 网址:https://obaby.org.cn/
* 个性:https://oba.by/
* 本文标题: 《Porn Data Anaylize — 分类数据二次分析》
* 本文链接:https://obaby.org.cn/2020/09/7503
* 短链接:https://oba.by/?p=7503
* 转载文章请标明文章来源,原文标题以及原文链接。请遵从 《署名-非商业性使用-相同方式共享 2.5 中国大陆 (CC BY-NC-SA 2.5 CN) 》许可协议。


You may also like

3 comments

  1. Level 2
    Google Chrome 121 Google Chrome 121 Mac OS X 10.15 Mac OS X 10.15 cn中国–台湾–台北市 中华电信

    看着文章封面,点进去,结尾,看着下一个封面更诱惑点击去,一下午了,都没有走出你这个网站 rofl,写个评论吧,旁边还扭来扭曲,身体不好,都坚持不到评论写完~

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注